自然语言处理 - 期末复习总结

第一章绪论

第一章内容主要是NLP中的各种概念及方法的介绍。

1.1 基本概念

语言：语言是一个符号系统，通常用一些记号（如汉字）来表示。
- 语言是一个系统，因为语言能表达意义(知识)，并且具有一定的规则(语法)。
- 语言的第一系统是语音系统，第二系统是文字系统。
- 语言的单位有：字符、词、短语、句子、语段或篇章。
自然语言：人类独有的、用任意创造出来的符号系统交流思想、表达感情和愿望的非本能方法。
- 自然语言指人类使用的语言，如汉语、英语等。
自然语言理解：通过建立形式化的数学模型来分析、处理自然语言，并在计算机上用程序来实现分析和处理(自然语言)的过程，从而达到以机器(计算机)来模拟人的部分乃至全部语言能力的目的。
- 与NLU密切相关的一门学科是计算语言学(Computational Linguistics)，不过计算语言学更侧重于研究自然语言的计算模型(数学模型)。
自然语言处理：自然语言处理就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。
- 自然语言处理要研制表示语言能力和语言应用(linguistic performance)的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。
- 从微观上讲，指从自然语言到机器内部之间的一种映射；从宏观上讲，指机器能够执行人类所期望的某些语言功能，包括问答系统、机器翻译、从材料中获取摘要等。

1.2 自然语言处理的研究内容和面临的困难

自然语言处理的研究方向：机器翻译、自动文摘、信息检索、文档分类、问答系统、信息过滤、信息抽取、文本挖掘、舆情分析、隐喻计算、文字编辑和自动校对、作文自动评分、光读字符识别、语音识别、文语转换、说话人识别/认证/验证。
自然语言处理涉及的几个层次：自然语言处理一般会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。
- 形态学(词法)：研究词的内部结构，包括屈折变化和构词法两个部分。(词的不同形式对句法和语义的影响)
- 语法学：研究句子结构成分之间的相互关系和组成句子序列的规则。(为什么一句话可以这么说，也可以那么说？)
- 语义学：研究如何从一个语句中词的意义，以及这些词在该语句中句法结构中的作用来推导出该语句的意义。(这个语言单位到底说了什么？)
- 语用学：研究在不同上下文中的语句的应用，以及上下文对语句理解所产生的影响。（为什么在特定的上下文中要说这句话？）
自然语言处理面临的困难：大量歧义现象和未知语言现象。
- 歧义现象：自然语言中存在大量歧义现象，无论是在词法、句法，还是在语义和语用层次。任何一个自然语言处理系统，都无法回避歧义消解问题。
  - 词法歧义：自动化/研究所/取得/的/成就；自动化/研究/所/取得/的/成就
  - 结构歧义：今天中午吃馒头；今天中午吃食堂
  - 语义歧义：她这个人真有意思(funny)；你们这么说是什么意思(intention)
  - 语音歧义：石室诗士施氏，嗜狮，誓食十狮
- 未知语言现象：自然语言中存在未知的语言现象，包括新的词汇(人名、地名、术语等)、新的含义、新的用法和语句结构等。

1.3 自然语言处理的基本方法

目前自然语言处理的研究从大的角度可分为两类方法：理性主义与经验主义方法。

理性主义方法：理性主义方法主张建立符号处理系统，由人工整理和编写初始的语言知识表示体系（规则），构造相应的推理程序，系统根据规则和程序，将自然语言理解为符号结构。
1. 词法分析器按照人编写的词法规则对输入句子的单词进行词法分析
2. 语法分析器根据人设计的语法规则对输入句子进行语法结构分析
3. 根据一套变换规则将语法规则映射到语义符号
经验主义方法：经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构，然后利用统计学、模式识别和机器学习等方法来训练模型的参数，以扩大语言使用的规模。
理性主义与经验主义方法的分歧：
1. 对语言知识来源的不同认识
  - 理性主义：认为人的很大一部分语言知识是与生俱来的。
  - 经验主义：认为人的语言知识是通过感观输入，经过一些简单的联想与通用化(泛化)的操作而得到的。
2. 研究对象的差异
  - 理性主义：研究人的语言知识结构(语言能力)，实际的语言数据(语言行为)只提供了这种内在知识的间接证据。
  - 经验主义：直接研究这些实际的语言数据。
3. 运用不同的理论
  - 理性主义：通常基于Chomsky的语言原则，通过语言所必须遵守的一系列原则来描述语言。
  - 经验主义：通常是基于Shannon的信息论、概率统计等。
4. 采用不同的处理方法
  - 理性主义：通常通过一些特殊的语句或语言现象的研究来得到对人的语言能力的认识，而这些语句和语言现象在实际的应用中并不常见。
  - 经验主义：偏重于对大规模语言数据中人们所实际使用的普通语句的统计。

第二章形式语言与自动机

第二章内容主要是几种乔姆斯基文法和自动机以及它们之间的关系。

2.1 基本概念

图：无向图、有向图、连通图、回路
树：无回路的连通无向图
森林：无回路的无向图
字符串：字符相连而成的有限序列
- 两种基本运算：连接、闭包

2.2 形式语言

描述一种语言的三种途径：
- 穷举法：把语言中所有句子枚举出来。(只适用于句子数目有限的语言)
- 文法描述：利用规则生成语言中合法的句子，语言中每个句子都用严格的规则来构造。
  - 文法用来精确的描述语言和其结构。
- 自动机法：给出识别该语言中句子的机械方法。
  - 自动机用于机械地刻画对输入字符串的识别过程。
形式文法：形式文法是一个四元组。
- ：终结符的有限集合（句子中实际出现的符号的集合，或单词表）
- ：非终结符的有限集合（在句子中不实际出现，但在推导中起变量作用）
- ：起始符（属于非终结符）
- ：一组重写规则的有限集合（，其中和是由中元素构成的串，中至少含有一个非终结符）
形式文法推导：见《统计自然语言处理(第2版)》P36。
乔姆斯基文法：
- 乔姆斯基3型文法(正则文法)：文法的规则集中的所有规则均满足，其中，。
- 乔姆斯基2型文法(上下文无关文法)：文法的规则集中的所有规则均满足，其中，是任意串，即。
- 乔姆斯基1型文法(上下文有关文法)：文法的规则集中的所有规则均满足，其中、和是任意串且至少包含一个字符，即，。
- 乔姆斯基0型文法(无约束文法)：文法的规则集中的所有规则均满足，其中、是任意串且至少包含一个字符，即，。
范畴文法：见《范畴语法》(冯志伟)。
用什么文法来描述自然语言？
- 正则语法描述能力太弱、上下文有关语法计算复杂度太高，上下文无关语法使用最为普遍
- 从描述能力上说，上下文无关语法不足以描述自然语言（自然语言中上下文相关的情况非常常见）
- 从计算复杂度来说，上下文无关语法的复杂度是多项式的，其复杂度可以忍受
- 为弥补上下文无关语法描述能力的不足，需要加上一些其他手段扩充其描述能力

2.3 自动机理论

文法、语言与自动机之间的对应关系：

	文法类型	自动机	语言	复杂度
0型	无约束文法	图灵机	递归可枚举语言	半可判定
1型	上下文有关文法	线性有界自动机	上下文有关语言	NP完全
2型	上下文无关文法	下推自动机	上下文无关语言	多项式
3型	正则文法	有限自动机	正则语言	线形

详见《统计自然语言处理(第2版)》P39。

第三章句法分析

自顶向下分析法、自底向上分析法、转移网络文法、自顶向下线图分析法

LR分析算法、GLR分析算法

详见PPT上内容

第四章统计语言模型

包括N-gram、困惑度、数据平滑（加一平滑、减值法/折扣法、Good Turing、线性插值(Jelinek-Mercer)、回退式数据平滑(Katz)）

4.1 n元语法

语言模型：一般构建为字符串的概率分布。
- 与语言学中不同，语言模型与句子是否合乎语法没有关系。
- 对于一个由个基元构成的句子，其概率计算公式可以表示为
n元语法：按照语言模型的基本定义，模型参数数量较大，于是引入Markov假设（一个词的出现仅与它之前的若干个词有关）。
- n元文法模型相当于n-1阶Markov链（词的出现仅与其前面的n-1个词有关）。
- n的取值不能太大，否则仍然会出现参数过多的问题（一般取n=3的情况较多）。
  - 更大的n：对下一个词出现的约束性信息更多，更大的辨别力。
  - 更小的n：在训练语料库中出现的次数更多，更可靠的统计结果，更高的可靠性。
- 例子：
  - 二元文法模型(Bi-gram)：
  - 三元文法模型(Tri-gram)：
- 详见《统计自然语言处理(第2版)》P83-84。

4.2 语言模型性能评价

交叉熵：衡量估计模型与真实概率分布之间的差异情况。
- 先按照n-gram模型计算句子的概率
- 对于句子构成的测试集，通过计算中所有句子概率的乘积来计算测试集的概率
- 测试集上模型的的交叉熵定义为，其中是以词为度量单位的文本的长度(可以包括句首词或句尾词)
困惑度：测试集中每一个词汇的概率的几何平均值的倒数。（给测试集的句子赋予较高概率值的语言模型较好）
- 与交叉熵的关系
显然，困惑度与交叉熵都是越小越好。详见《统计自然语言处理(第2版)》P85-86。

4.3 数据平滑

零概率问题：对于大量低频词，无论训练数据的规模如何扩大，其出现频度仍旧很低甚至根本不出现。如果采用最大似然估计(MLE)估算它们的概率分布，将出现大量的，从而导致的情况，这种情况大大削弱了该模型的描述能力。
数据平滑的基本思想：平滑处理的基本思想是“劫富济贫”，即提高低概率（如零概率），降低高概率，尽量使概率分布趋于均匀。
加法平滑：假设每一个n元语法出现的次数比实际出现的次数多次，且。
- 当的时候就是加1平滑
Good-Turing估计法：对于任意一个出现次的n元语法，假设它出现了次，其中是恰好出现次的n元语法的数目。
- 对于统计数为的n元语法，其概率为，其中
回退数据平滑：当频次大于某一数值时，运用最大似然估计法；当事件频次小于时，使用低阶的语法模型作为代替高阶语法模型的后备。
- 回退数据平滑
减值法：修改训练样本中事件的实际计数，使样本中(实际出现的)不同事件的概率之和小于1，剩余的概率量分配给未见概率。
线性插值法：用低阶的n元模型向高阶n元模型插值进行线性插值。
- 线性插值法

第五章特征与扩充文法

未完。。。