自然语言处理几个概念

一、NLP、NLU、NLG

自然语言处理（NLP）是指机器理解并解释人类写作、说话方式的能力。
NLP 的目标是让计算机／机器在理解语言上像人类一样智能。最终目标是弥补人类交流（自然语言）和计算机理解（机器语言）之间的差距。
自然语言处理（Natural Language Processing，简称NLP）是人工智能的一个子域。自然语言处理的应用包括机器翻译、情感分析、智能问答、信息提取、语言输入、舆论分析、知识图谱等方面，也是深度学习的一个分支。
在这个概念下还有两大子集，即自然语言理解（Natural Language Understanding，简称NLU）与自然语言生成（Natural Language Generation，简称NLG）
套用百度的一张图片展示它们的关系如下

（1）最底部，是最基础的大数据、机器学习和语言学（Linguistics）；
（2）往上看，是知识图谱（Knowledge Graph），其中包含了实体图谱、注意力图谱和意图图谱。
（3）再上一层，左侧是语言理解（Language Understanding），右侧是语言生成（Language Generation）
——语言理解，包含了Query理解、文本理解、情感分析（Sentiment Analysis）等，还有词法（Lexical）、句法（Syntax）和语义（Semantic）等不同层次的分析。
——语言生成，包含了写作、阅读理解等等。
（4）最上方，是系统层面，包含了问答系统、机器翻译和对话系统。

二、NLP 与文本挖掘（或文本分析）之间的不同

自然语言处理是理解给定文本的含义与结构的流程。
文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。
自然语言处理被用来理解给定文本数据的含义（语义），而文本挖掘被用来理解给定文本数据的结构（句法）。
例如，在「I found my wallet near the bank」一句中，NLP 的任务是理解句尾「bank」一词指代的是银行还是河边。

三、NLP在人工智能中的地位

由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。
事实上，“人工智能”被作为一个研究问题正式提出来的时候，创始人把计算机国际象棋和机器翻译作为两个标志性的任务，认为只要国际象棋系统能够打败人类世界冠军，机器翻译系统达到人类翻译水平，就可以宣告人工智能的胜利。四十年后的1997年，IBM公司的深蓝超级计算机已经能够打败国际象棋世界冠军卡斯帕罗夫。而机器翻译到现在仍无法与人类翻译水平相比，从此可以看出自然语言处理有多么困难!
一句话总结就是，语言是文明的标志，是人类思维逻辑和情感线索的载体，自然语言处理正是人工智能的最高境界。

四、NLP面临的主要难点

（1）单词的边界界定
在口语中，词与词之间通常是连贯的，而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上，汉语也没有词与词之间的边界。
（2）词义的消歧
许多字词不单只有一个意思，因而我们必须选出使句意最为通顺的解释。
（3）句法的模糊性
自然语言的文法通常是模棱两可的，针对一个句子通常可能会剖析（Parse）出多棵剖析树（Parse Tree），而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。
（4）有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音，或者在文本的处理中处理拼写，语法或者光学字符识别（OCR）的错误。
（5）语言行为与计划
句子常常并不只是字面上的意思，例如，“你能把盐递过来吗”，一个好的回答应当是把盐递过去，在大多数上下文环境中，“能”将是糟糕的回答，虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者，如果一门课程去年没开设，对于提问“这门课程去年有多少学生没通过？”回答“去年没开这门课”要比回答“没人没通过”好。

五、目前NLP的应用

（1）NLU 旨在让机器理解自然语言形式的文本内容。
从 NLU 处理的文本单元来讲，可以分为词(term)、句子(sentence)、文档(document)三种不同的类型：
---词层面的基础 NLU 领域包括分词(汉语、缅甸语、泰语等非拉丁语系语言需要)、词性标注（名词、动词、形容词等）、命名实体识别（人物、机构、地点等）和实体关系提取（例如人物-出生地关系、公司-所在地关系、公司收购关系等）；
---句子层面的基础 NLU 领域包括句法结构解析（获取句子的句法结构）和依存关系解析（获取句子组成部分的依赖关系）；
---文档层面的基础 NLU 领域包含情感分析（分析一篇文档的情感倾向）和主题建模（分析文档内容的主题分布）。
（2）与NLU不同，NLG旨在让机器根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。根据数据源的类型，NLG可以分为三类：
---Text to text NLG，主要是对输入的自然语言文本进行进一步的处理和加工，主要包含文本摘要（对输入文本进行精简提炼）、拼写检查（自动纠正输入文本的单词拼写错误）、语法纠错（自动纠正输入文本的句法错误）、机器翻译（将输入文本的语义以另一种语言表达）和文本重写（以另一种不同的形式表达输入文本相同的语义）等领域；
---Data to text NLG，主要是根据输入的结构化数据生成易读易理解的自然语言文本，包含天气预报（根据天气预报数据生成概括性的用于播报的文本）、金融报告（自动生成季报/年报）、体育新闻（根据比分信息自动生成体育新闻）、人物简历（根据人物结构化数据生成简历）等领域的文本自动生成；
---Vision to text NLG，主要是给定一张图片或一段视频，生成可以准确描述图片或视频（其实是连续的图片序列）语义信息的自然语言文本。
下面重点说下NLG 技术的能力边界：
NLG 技术，一个核心在于NL，即自然语言形式的文本，更易于普通人阅读；另一个核心在于G，即生成，但不是创作，不涉及深入地分析、提炼和推理。
在 Text to text NLG 中，本质上是将输入文本进行处理，映射到一个语义向量空间中，然后再用输出文本来表达同样的语义，而这一过程中语义信息本身并没有经过进一步加工。
Data to text NLG 的目的是将结构化数据嵌入自然语言文本中，便于普通人的快速阅读，即使有一些看似推理的结果（例如天气预报中根据下周七天的天气数据，输出「未来一周大部分时间晴好，仅周三有短时小雨」这样的文本），其实也是人为定义了新的结构化数据字段。
Vision to text NLG 中也是如此，只是用自然语言文本来表达原先图像表达的语义，也不涉及语义的进一步加工。
换句话说，目前的 NLG 技术并不能实现人类的「写作」过程 - 其中包括对大量输入信息的理解、提炼、分析、推理和重组，而仅能够给出输入信息（文本、数据和图像）的自然语言形式的表示。
NLG 技术生成的文本，单篇文本看起来会非常规范和优质，但把大量的生成文本放在一起，就会感觉出浓浓的机器味儿 - 更为模式化且缺少灵活性。

六、小结

NLP是AI的最大瓶颈，语言生成是NLP的最前沿