互联网资讯 / 人工智能 · 2023年11月9日 0

人工智能研究的热点之一:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量,正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点,推动着语言智能的持续发展和突破,并越来越多地应用于各个行业。

NLP主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等;前者称为自然语言理解,后者称为自然语言生成。因此,NLP大体包括了自然语言理解和自然语言生成两个部分。

NLP融合计算机科学、语言学、自动化、数学等为一体,是一门综合性的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。

NLP涉及的领域较多,主要包括机器翻译、语义理解和对话系统等。它目前面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。

最早的NLP研究工作是机器翻译。1949年,美国知名科学家沃伦·韦弗先生首先提出了机器翻译设计方案。1954年,基于韦弗的“翻译即解码”的机译思想,乔治敦大学进行了著名的“乔治敦实验”——利用IBM-701型计算机首次完成了英俄文本的自动翻译。

大约20世纪90年代开始,NLP领域发生了巨大的变化。这种变化有两个明显的特征:(1)对系统的输入,要求研制的NLP系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。

系统的输入与输出这两个特征在NLP的诸多领域都有所体现,其发展直接促进了计算机自动检索技术的出现和兴起。实际上,随着计算机技术的不断发展,以海量计算为基础的机器学习、数据挖掘、数据建模等技术的表现也愈发优异。