[NLP]自然语言理解概述

语言是人类有别于其他动物的一个重要标志。自然语言是区别于形式语言或人工语言(如逻辑语言和编程语言等)的人际交流的口头语言(语音)和书面语言(文字)。

1、语言与语言理解

语言是人类进行通信的自然媒介,它包括口语、书面语以及形体语(如哑语和旗语)等。一种比较正规的提法是:语言是用于传递信息的表示方法、约定和规则的集合。语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。语言由语音、词汇和语法构成。语言和文字是构成语言的两个基本属性。如果没有各种口语和书面语,如英语、汉语、法语和德语等,人类之间的充分和有效的交流就难以想象。语言是随着人类社会和人类本身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。

要研究自然语言理解,首先必须对自然语言的构成有个基本的认识。
语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。

语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语,熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,如“教师”是由“教”和“师”构成。

语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则,如教+师->教师。一个词又有不同的词形、单数、复数、阴性、阳性等。这种构造词形的规则叫做构形法,如教师+们->教师们。构形法和构词法称为词法。词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔->红铅笔。这里”红“是一个修饰铅笔的形容词,它与名称”铅笔“组合成了一个新的名词。造句法则是用词或词组造句的规则。”我是计算机专业的学生“,这是按照汉语造句法构造的句子。

另一方面,语言是音义结合的,每个词汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。自然语言中所涉及的音素不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。

迄今为止,对语言理解尚无统一和权威的定义,按照考虑问题的角度不同而有所不同的解释。从微观上讲,语言理解是从自然语言到机器内部之间的一种映射。从宏观上讲,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括

  • 回答有关提问
  • 提取材料摘要
  • 不同词语叙述
  • 不同语言翻译

然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间有大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅有语义、语法和语言问题,而且还存在模糊性等问题。具体的说,自然语言理解的困难由下列三个因素引起的:

  1. 目标表示的复杂性
  2. 映射类型的多样性
  3. 源表达中各元素间交互程度的差异性

自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科,它能够理解口头语言或书面语言。语言交流是一种基于知识的通信。

2、自然语言处理的概念和定义

自然语言处理是用计算机对人类的口头和书面形式的自然语言进行加工处理和应用的技术,是一门它设计语言学、数学、计算机科学和控制论等多门学科交叉的边缘学科,是人工智能学科和智能科学的一个重要分支,也是人工智能的早期的和活跃的研究领域。

自然语言处理包括自然语言理解和自然语言生成两个方面。自然语言理解系统把自然语言转化成计算机程序更易于处理和理解的形式。自然语言生成系统则把与自然语言有关的计算机数据转化为自然语言。

3、自然语言处理的研究领域概括

  1. 文字识别(optical character recognition,OCR)
  2. 语音识别(speech recognition)
  3. 机器翻译(machine translation)
  4. 自动文摘(automatic summarization)
  5. 句法分析(syntax parsing)
  6. 文本分类(text categorization)
  7. 信息检索(information retrieval)
  8. 信息获取(Information extraction)
  9. 信息过滤(information filtering)
  10. 自然语言生成(natural language generation)
  11. 中文自动分词(Chinese word segmentation)
  12. 语音合成(speech synthesis)
  13. 问答系统(question answering system)

4、自然语言理解过程的层次

语言虽然表示成一连串的文字符号或者一串声音流,但其内部事实上是一个层次化的结构,从语言的构成中就可以清楚的看到这种层次性。一个文字表达的句子是由词素->词或词形->词组或句子,而用声音表达的句子则是由音素->音节->音词->音句,其中每个层次都受到语法规则的制约。因此,语言的分析和理解过程也应当是一个层次化的过程。许多现代语言学家把这一过程分为5个层次:

  1. 语音分析
  2. 词法分析
  3. 句法分析
  4. 语义分析
  5. 语用分析

参考书目
人工智能及其应用(蔡自兴 徐光祐)

你可能感兴趣的:(自然语言处理,NLP,自然语言)