自然语言处理(1)——绪论与概述

NLP学习笔记(1)——绪论与概述

  • 1.基本概念
    • (1)语言学
    • (2)语音学
    • (3)计算语言学,Computational Linguistics
    • (4)自然语言理解,Natural Language Understanding
    • (5)自然语言处理,Natural Language Processing
    • (6)中文信息处理
  • 2.HLT的产生与发展
    • (1)产生
    • (2)发展
  • 3. 研究内容:
  • 4.基本问题和主要困难
    • (1)基本问题
    • (2)主要困难
    • (3)总而言之,NLU所面临的挑战
  • 5.NLP的基本研究方法
    • (1)理性主义
    • (2)经验主义
  • 6.研究现状:


1.基本概念

什么是语言学、什么是语音学?
自然语言理解、自然语言处理、计算语言学,以及中文信息处理,它们又有什么关系?

在本节中,将对自然语言处理相关的概念进行解释与辨析。


(1)语言学

  • 《现代语言学词典》中是这样注解的:
    语言学是指对语言的科学研究
    《现代汉语词典》中则这样解释:
    语言学:研究语言的本质、结构和发展规律的科学
  • 语音和文字是语言的两个基本属性
  • 语言学包括:
    (1)历时语言学(历史语言学)
    (2)共时语言学
    (3)描述语言学
    (4)对比语言学
    (5)结构语言学
    等等

(2)语音学

  • 定义:语音学是研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学
  • 语音学包括:
    (1)发音语音学:研究发音器官如何产生语音
    (2)声学语音学:研究口耳之间传递语音的物理属性
    (3)听觉语音学:研究人通过耳、听觉神经和大脑对语音的知觉反应

(3)计算语言学,Computational Linguistics

  • 计算语言学是通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。
  • 计算语言学与内容相近的自然语言处理相比较:计算语言学更加侧重基础理论和方法的研究。

(4)自然语言理解,Natural Language Understanding

  • 自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。这是人工智能早期研究的领域之一,也是人工智能最重要的研究方向之一。
  • 关于概念中**“理解”**的标准:
    换言之,如何判断计算机系统的智能?
    体现在与有意识的个体(即人)相比较来说如何。
    具体表现为三个方面:
    (1)计算机系统的表现如何?(2)反应如何?(3)相互作用如何
    即:
    (1)act(2)react(3)interact
    判断或比较的方法,可以通过图灵实验来完成。

(5)自然语言处理,Natural Language Processing

  • 自然语言处理时研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换、和生成等各种处理方法和实现技术。
  • 自然语言处理研究的语言,可以大体上划分为三个不同的语系:
    (1)屈折语:用词的形态变化表示愈发关系,如英语、法语等语言;
    (2)黏着语:词内有专门表示愈发意义的附加成分,词根或词干与附加成分的结合并不紧密,如日语、韩语、土耳其语等等;
    (3)孤立语:也叫分析语。形态变化少、语法关系靠词序和虚词来表示,如汉语

(6)中文信息处理

是针对中文的自然语言处理技术。


至此,我们可以回答本节开头提到的问题:“自然语言理解、自然语言处理、计算语言学,以及中文信息处理,它们又有什么关系?”
对于中文信息处理和自然语言处理的关系:中文信息处理是专门针对中文的语言信息技术研究,是自然语言处理学科下的一个分支。
对于自然语言处理(NLP)、计算语言学(CL)、自然语言理解(NLU)三者的关系,它们相互交叉又有所不同,可以统称为人类语言技术(Human Language Technology,HLT),如下图所示。有些资料中甚至将三者互相划上了等号。
自然语言处理(1)——绪论与概述_第1张图片

2.HLT的产生与发展

(1)产生

  • 1946年,世界上第一台计算机ENIAC诞生
  • 1954年,Georgetown大学在IBM的协助下,实践了世界上第一个MT系统,实现俄译英翻译,该系统于当年一月份在纽约公开演示
  • 随后十余年中,MT研究在国际上出现热潮,一批自然语言人机接口系统和对话系统相继出现。
  • 1956年,进行人工智能夏季研讨会(达特茅斯会议)
  • 随着MT(机器翻译)研究的进展,各种自然语言处理技术应运而生,形成了这一语言学与计算机技术相结合的新兴学科。
  • 1962年美国成立“机器翻译和计算语言学协会(Association for Machine Translation and Computational Linguistics)”并组织召开了第一节国际计算语言学学术年会(ACL)
  • 1965年杂志Machine Translation改名为Machine Translation and Computational Linguistics
  • 60年代中期成立了国际计算语言学委员会(The International Committee on Computational Linguistics,ICCL)
  • 1965年组织召开了第一届国际计算语言学大会(The International Conference on Computational Linguistics,CONING)

(2)发展

其发展历程:

  • 20世纪60年代(1960s)中期之前:萌芽期
  • 20世纪60年代(1960s)中后期:步履维艰。1966年美国科学院发表ALPAC报告,术语Computational Linguistics正式出现。
  • 20世纪70年代(1970s)中后期到1980s后期:复苏
  • 20世纪80年代(1980s)后期至今:蓬勃发展

3. 研究内容:

按照应用目标来划分,NLP广义上包括:

  1. 机器翻译:一种语言到另一种的自动翻译。如谷歌、百度、有道等
  2. 信息检索:即情报检索,利用计算机系统从大量的文档中找到符合用户需求的相关信息,如谷歌、百度等搜索引擎
  3. 自动文摘:将源文档的主要内容或者某方面的信息自动提取出来,并形成原文档的摘要或缩写,可用于观点挖掘。应用如电子图书管理、情报获取
  4. 问答系统:如人机对话系统
  5. 社区问答:如百度知道(利用用户群体智慧)
  6. 信息过滤:通过计算机系统自动识别和过滤哪些满足特定条件的文档信息
  7. 信息抽取:从指定文档中抽取出用户感兴趣的信息。如实体关系抽取和社会网络
  8. 文档分类
  9. 情感分类:图书管理、网络内容监控
  10. 文字编辑和自动校对:排版、印刷和书籍编撰
  11. 语言教学
  12. 文字识别
  13. 语音识别:文字录入、人机通讯、语音翻译
  14. 文语转换/语音合成:朗读系统、人机语音接口
  15. 说话人识别/认同/验证:信息安全与防伪

由于我们将语音识别、合成和说话人识别等以语音为研究对象的技术独立出来,称为语音技术,其他以文本为处理对象的研究内容作为自然语言处理的主体。

各个研究方向之间的关系如下:

自然语言处理(1)——绪论与概述_第2张图片

4.基本问题和主要困难

(1)基本问题

  1. 形态学问题:研究词由有意义的基本单位-词素的构成问题,即分词问题(词的长度问题)的研究

  2. 语法学问题:研究句子结构成分之间的相互关系和组成句子序列的规则,即语法。试图建立快速有效的句子结构分析方法。

  3. 语义学问题:研究如何从一个语句中的词的意义,以及这些词在该语句中句法结构中的作用来推导出该句的意义。

  4. 语用学问题:研究在不同上下文中语句的应用,以及上下文对语句理解所产生的的影响。
    狭义上看,语用学处理的是语言结构中有形式体现的那些语境;
    广义上看,语用学处理的是研究语义学未能涵盖的那些意义。.

  5. 语音学问题:研究语音特性、语音描述、分类及转写方法啊等

(2)主要困难

  1. 大量歧义现象:
    词法歧义:比如说断句存在的问题
    词性歧义:同一个词的多种词性导致的歧义
    结构歧义:语法结构上导致的歧义
    语义歧义:使用缩略语和隐喻的表达方式而产生的歧义
    语音歧义:同音词现象
    多音字及韵律等歧义:一字多音,以及韵律、声调、语气等产生的影响
  2. 大量未知语言现象:
    包括,新词、人名地名术语;旧单词的新含义;新句法和新句型

(3)总而言之,NLU所面临的挑战

  • 普遍存在的不确定性:从词法、句法、语义、语用和语音的各个层面
  • 未知语言现象的不可预测性:新的词汇、术语、语义、语法无处不在
  • 始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
  • 语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法 有效地描述,为语义计算带来了极大的困难
  • 机器翻译中映射单元的不对等性

由于机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等,机器翻译需要从大量复杂多样的不确定性中寻找确定性结论

人脑理解语言,是一个复杂的思维过程,设计到常识与背景知识、语言学、心理学、逻辑学、认知科学等等各个领域

自然语言处理(1)——绪论与概述_第3张图片

5.NLP的基本研究方法

——理性主义与经验主义的合谋
其中理性主义方法是基于规则的方法,采用知识库+推理系统的模式,依赖于符号处理系统
其中经验主义方法是基于统计的方法,采用语料库+统计模型的模式

(1)理性主义

  • 求解问题的基本思路:基于规则的分析方法建立符号处理系统
  • 符号处理系统则包括:规则库的开发(语法规则设计)、词典的标注(标注词性)、推导算法的设计(包括归约、推导、歧义消解等)三部分
  • 其NLP的组成采用知识库+推理系统的方法
  • 理论基础:Chomsky的文法理论

(2)经验主义

  • 求解问题的思路:基于大规模真实语料(语言数据)建立计算方法
  • 这个求解过程包括:大规模真实数据的收集、标注(需要有真实性、代表性、标注信息……)、建立统计模型(考虑模型的复杂性、有效性、参数训练方法等)
  • 其NLP的组成采用语料库+统计模型的方法
  • 理论基础:统计学、信息论、机器学习

目前现行的研究方法是进行“理性主义与经验主义的合谋”,使用符号智能+计算智能,建立融合方法

6.研究现状:

(1)部分问题得到了解决,可以为人们提供辅助性的帮助
(2)基础问题研究仍任重而道远
(3)社会需求日益迫切
(4)许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系。

你可能感兴趣的:(算法,自然语言处理)