《自然语言处理简明教程》读书笔记:前言

前言

自然语言处理(Natural Language Processing,简称NLP),就是以电子计算机为工具,对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。这项技术现在已经形成一门专门的边缘性交叉性学科,它涉及语言学、数学和计算机科学,横跨文科、理科和工科三大知识领域。自然语言处理的目的在于建立各种自然语言处理系统,如机器翻译系统、自然语言理解系统、信息自动检索系统、信息自动抽取系统、文本信息挖掘系统、术语数据库系统、计算机辅助教学系统、语音自动识别系统、语音自动合成系统、文字自动识别系统等。

自然语言处理是语言文字应用的一个新课题,从语言学的观点来看,我们可以把它作为应用语言学的一个分支。

自然语言处理又是人工智能的一个主要内容,它是电子计算机模拟人类智能的一个重要方面。智能化的电子计算机和智能化的互联网已经不是虚无缥缈的幻想,而是指日可待的现实。它同人类历史上语言的出现、文字的创造、造纸技术的发明以及印刷技术的发明一样,将成为人类文明史上的又一件大事。

自然语言是人类区别于其他动物的重要标志之一。人借助于自然语言交流思想、互相了解;人和借助自然语言进行思维活动,认识事物的本质和规律,创造了人类的物质文明和精神文明。

自然语言是人脑的高级功能之一,它是人类特有的一种最重要的智能,智能化电子计算机和智能化互联网的研究离不开自然语言处理,自然语言处理的研究水平,在智能化计算机和智能化互联网的研制中,起着举足轻重的作用。

在计算机软件中,早已设计了许多人工语言,这些人工语言与自然语言一样,都遵循着形式语言的规律和法则。自然语言与人工语言之间,在形式描述方面,确实存在着某些共同的性质。

但是,自然语言毕竟是人类历史长期发展而约定俗称的产物,它带着几千年人类历史的痕迹,比人工语言要复杂得多,因而用计算机处理起来也就困难得多。

自然语言起码在下面四个方面与人工语言大相径庭:

(1)自然语言中充满着歧义,而人工语言中的歧义则是可以控制的;

(2)自然语言的结构复杂多样,而人工语言的结构则相对简单;

(3)自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而人工语言的语义则可以由人来直接定义;

(4)自然语言的结构和语义间有着千丝万缕的、错综复杂的联系,一般不存在一一对应的同构关系,而人工语言则常常可以把结构和语义分别进行处理,人工语言的结构和语义之间有着整齐的意义对应的同构关系。

自然语言的这些独特性质,使得自然语言处理成为人工智能领域的一大难题。

当前(这本书是2010年出版的)自然语言处理的发展表现在下面五个方面:

第一,基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理称为自然语言处理的主要战略目标,概率和数据驱动的方法几乎成为了自然语言处理的标准方法。

基于规则的理性主义方法的哲学基础是逻辑实证主义,即智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,思维就是符号运算。

赛尔在他的论文《心智、大脑与程序》中,提出了所谓“中文屋子”的质疑,他的批评使基于规则的理性主义的观点受到了普遍的怀疑。

理性主义方法的另一个弱点是在实践方面。自然语言处理的理性主义者把自己的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。

当前语料库的建设和语料库语言学的崛起,正是自然语言处理战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法至少是对基于规则的分析方法的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。

目前,基于大规模真实语料库的概率和数据驱动的方法几乎成为了自然语言处理的标准方法。句法剖析、词类标注、参照消解、话语分析、机器翻译的技术全都开始引入概率,并且采用从语音识别和信息检索中借过来的基于概率和数据驱动的评测方法。

传统的语言材料的搜集、整理和加工完全是手工进行的,这是一种枯燥无味、费时费力的工作。计算机出现后,人们可以把这些工作交给计算机去做,这大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了语料库语言学,并成为了自然语言处理的一个分支学科。

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

第二,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

自然语言处理中的经验主义倾向始于20世纪90年代,在21世纪它更以惊人的步伐向前推进。这样的加速发展在很大的程度上受到下面三种彼此协同的趋势的推动。

第一个趋势是建立带标记语料库的趋势。在语言数据联盟和其他相关机构的帮助下,研究者们可以获得口语和书面语的大规模的预料。重要的是,在这些语料中还包括一些标注过的预料,这些语料库是带有句法、语义和语用等不同层次的标准文本语言资源。这些语言资源的存在大大地推动了人们使用有监督的机器学习方法来处理那些在传统上非常复杂的自动剖析和自动语义分析等问题。这些语言资源也推动了有竞争性的评测机制的建立。评测的范围涉及到自动剖析、信息抽取、词义排歧、问答系统、自动文摘等领域。

第二个趋势是统计机器学习的趋势。对于机器学习的日益增长的重视,导致了学者们与统计机器学习的研究者们更加频繁地交互,彼此之间相互影响。

第三个趋势是高性能计算机系统发展的趋势,高性能计算机系统的广泛应用,为机器学习系统的大规模训练和效能发挥提供了有利的条件,而这些在20世纪是难以想象的。

在20世纪90年代末期,大规模的无监督统计学习方法得到了重新关注。机器翻译和主题模拟等领域中统计方法的进步,说明了也可以只训练完全没有标注过的数据来构建机器学习系统,这样的系统也可以得到有效的应用。由于建造可靠的标注语料库要花费很高的成本,建造的难度很大,在很多问题中,这成为了使用有监督的机器学习方法的一个限制性因素。因此,这个趋势的进一步发展,将使我们更多地使用无监督的机器学习技术。

传统语言学基本上是通过语言学家自行归纳总结语言现象的手工方法来获取知识的,由于人的记忆力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法不仅效率极低,而且带有很大的主观性。

当前的自然语言处理研究提倡建立语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设,成为了当前自然语言处理的热点。

使用这种机器学习方法开发出来的基于语料库的自动分析软件是独立于具体语言的。只要有训练语料库,即使研究者不懂有关的语言,仍然可以使用自动分析软件得出不错的分析结果。这样的机器学习方法达到的分析精度已经可以与基于规则的方法达到的精度相媲美。这是语言学历史上获取语言学知识方法的革命性变革,每一个语言学工作者都应当敏锐地认识到这样的变革,改变陈旧的、传统的知识获取方法,采用新颖的、现代的知识获取方法。

第三,统计数学方法越来越受到重视。

自然语言处理中越来越多地使用统计数学方法来分析语言数据,使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,必须使用统计数学的方法。

语言模型是描述自然语言内在规律的数学模型,构造语言模型是自然语言处理的核心。语言模型可以分为传统的规则型语言模型和基于统计的语言模型。规则型语言模型是人工编制的语言规则,这些语言规则主要来自语言学家掌握的语言学知识,具有一定的主观性和片面性,难以处理大规模的真实文本。基于统计的语言模型通常是概率模型,计算机借助于语言统计模型的概率参数,可以估计出自然语言中语言成分出现的可能性,而不是单纯地判断这样的语言成分是否符合语言学规则,这种概率性的语言统计模型显然比规则型语言模型更加客观和全面。

第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。

近些年来,语料库证据支持的词汇学研究蓬勃发展。越来越多的实证研究表明,词汇和语法在语言中是交织在一起的,必须整合起来进行描述。词汇是话语实现的主要载体,语法的作用仅仅是管理意义、组合成份和构筑词项。

理论语言学中强调词汇作用的倾向,叫作“词汇主义”,这种词汇主义的倾向也影响到自然语言处理。

自然语言中充满了歧义,歧义问题的解决不仅与概率和结构有关,还往往与词汇的特性有关;英语中的介词短语附着问题和并列结构歧义问题,都必须依靠词汇知识才能解决。尽管在自然语言处理中使用数学,使用概率的方法,在遇到词汇依存问题的时候往往显得捉襟见肘、无能为力,我们还需要探索其他的途径来进一步提升概率语法的功能,其中的一个有效途径,就是在概率语法中引入词汇信息。

第五,多语言在线语言处理技术迅猛发展。随着网络技术的发展,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索和信息抽取等自然语言处理的需要变得更加紧迫。

信息量的丰富大大地扩张了人们的视野,人们希望能够准确地、迅速地获取到自己需要的信息,自然语言处理技术已经成为了解决海量信息的获取问题的强有力的手段。

而所有的这些信息主要都是以语言文字作为载体的,也就是说,网络世界主要是由语言文字构成的。

由于互联网上使用英语之外的其他语言的人数增加得越来越多,英语在互联网上独霸天下的局面已经彻底打破,互联网确实已经变成了“多语言的网络世界”。“多语言”这个特性使得互联网变得丰富多彩,同时也造成了不同语言之间交流和沟通的困难,互联网上的语言障碍问题显得越来越突出,越来越严重。因此,网络上的不同自然语言之间的计算机自动处理也就变得越来越迫切了。

你可能感兴趣的:(自然语言处理,人工智能,nlp,深度学习)