循环神经⽹络的⼀⼤特点是通过参数共享实现参数规模与序列长度的⽆关性,从⽽显著降低了存储要求。
循环神经⽹络的另⼀个特点是串⾏计算。由于输⼊向量、隐藏向量和输出向量在不同位置上存在着严格的依赖关系,必须等待前继向量计算完成,才能够计算后继向量。
[考试要求] 句法分析这一部分的重点是CFG分析算法、PCFG算法、决策式的(确定性的)依存句法分析方法、依存句法分析器性能评价
[考试要求] 不需要掌握乔姆斯基文法范式化的过程,重点掌握识别矩阵的构造方法
完整的CYK分析算法流程描述如下:1. 首先需要完成对句子的分词以及词性标注;2. 构造识别矩阵;3. 对识别矩阵完成分析过程。
结合例子说明CYK分析算法,给定一个文法G(S),以及一个待分析的句子The boy hit the dog with a rool
G(S): S → \rightarrow → NP VP, NP → \rightarrow → Det N, NP → \rightarrow → V NP, VP → \rightarrow → VP PP, PP → \rightarrow → Prep NP.
对识别矩阵的分析过程即按照从下至上,从左至右的顺序填充识别矩阵,识别矩阵的形状为 N × N N \times N N×N的下三角矩阵,其中 N N N为分词后得到的词语的数量,具体过程描述如下:
Step1:将第1层(底层)从左至右填充 N N N个词语的词性。
Step2:填充第2层至第N层,注意记录过程。
需要注意[i,j]表示当前扫描的范围span,并非是矩阵[i,j]位置的元素,其对应关系总结为:j-i+1的值代表了其位于的level,即层数,i表示了其位于当前行的第几个格子。
以X[1,2]为例分析匹配的过程:其只有一种分割方法,X[1,2] → \rightarrow →Y[1,1] Z[2,2],根据上述总结的对应关系应该检查图示中的两个位置,符合NP → \rightarrow → Det N的规则,所以X[1,2]对应的位置应填充NP,如果匹配失败则不填充。
第2层填充如下:
以X[3,5]为例分析匹配的过程:其有两种分割方法,分别是X[3,5] → \rightarrow →Y[3,3] Z[4,5],以及X[3,5] → \rightarrow →Y[3,4] Z[5,5],首先检查X[3,5] → \rightarrow →Y[3,3] Z[4,5],根据上述总结的对应关系应该检查图示中的两个位置,符合NP → \rightarrow → Det N的规则,所以X[3,5]对应的位置应填充VP,
检查X[3,5] → \rightarrow →Y[3,4] Z[5,5],根据上述总结的对应关系应该检查图示中的两个位置,匹配失败则不填充。
按照上述过程完成整个识别矩阵的填充
Step3:最终得到S,则分析成功,否则分析失败。
CYK算法的优点是简单易行,执行效率高;缺点是必须对文法进行范式化处理,并且无法区分歧义。
[考试要求] 重点是如何利用滨州树库的语法树,得到PCFG,即参数估计的第一种方法。
CYK规则无法处理歧义,因此引入概率,介绍概率上下文无关文法,PCFG规则。
PCFG 规则满足上乔姆斯基范式的文法形式,约束规定了从某个左部出发的文法规则的概率要归一。
得到一棵句法分析树后,其概率计算过程如下:
[考试要求] 重点是第三个问题-参数估计,根据宾州树库语料库估计参数
如果有大量已标注语法结构的训练语料,则可直接通过计算每个语法规则的使用次数,用最大似然估计方法计算 PCFG 规则的概率参数,举例如下:
下面的图(a)为句子 “Sales executives were examining the figures with great care yesterday.”的正确分析树(答案标准),图(b)为系统分析结果。
在依存语法理论中,“依存”就是指词与词之间支配与被支配的关系,这种关系不是对等的,而是有方向的。处于支配地位的成分称为支配者 (governor, regent, head),而处于被支配地位的成分称为从属者(modifier, subordinate, dependency)。一个动词所能支配的行动元(名词词组)的个数即为该动词的价数(valence)。也就是说,它能支配几个行动元,它就是几价动词。
依存句法分析(dependency parsing)的任务就是分析出句子中所有词汇之间的依存关系。
依存语法的4条公理(以及其对应的对依存图和依存树的形式约束):
[考试要求] 移进归约算法、有可能定义一套新的动作体系,需要掌握:给定分析树以及相应的动作体系,能够恢复其对应的动作序列
[考试要求] 无标记依存正确率UA、带标记依存正确率LA、依存正确率DA
如何在语义网络中表示和区分词的内涵和外延?
可以通过词义消歧区分。
基于互信息的消歧方法 (Brown et al., 1991)
基本思想:假设我们有一个双语对齐的平行语料库,以法语和英语为例,通过词语对齐模型每个法语单词可以找到对应的英语单词,一个多义的法语单词在不同的上下文中对应多种不同的英语翻译。
基于贝叶斯分类器的词义消歧方法
基于最大熵的词义消歧方法
基于语义定义的消歧
基本思想:词典中词条本身的定义作为判断其语义的条件。
基于义类辞典(thesaurus)的消歧
基本思想:多义词的不同义项在使用时往往具有不同的上下文语义类,即通过上下文的语义范畴可以判断多义词的使用义项。
基于双语词典的消歧
基本思想:需要消歧的语言称为第一语言,把需要借助的另一种语言称为第二语言。建立多义词 x 与相关词 y 之间的搭配关系,然后,在第二种语言的语料库中统计对应 x 不同词义的翻译与相关词 y 的翻译同现的次数,同现次数高的搭配对应的义项即为消歧后的词义。
Yarowsky 消歧算法
基本思想:基于词典的词义消歧算法都是分别处理每个出现的歧义词,且对歧义词有两个限制:
1.每篇文本只有一个意义:在任意给定的文本中,目标词的词义具有高度的一致性;
2.每个搭配只有一个意义:目标词和周围词之间的相对距离、词序和句法关系,为目标词的意义提供了很强的一致性的词义消歧线索。
噪声信道模型:一种语言T由于经过一个噪声信道而发生变形,从而在信道的另一端呈现为另一种语言S (信道意义上的输出,翻译意义上的源语言)。翻译问题实际上就是如何根据观察到的 S,恢复最为可能的T 问题。这种观点认为,任何一种语言的任何一个句子都有可能是另外一种语言中的某个句子的译文,只是可能有大有小[Brown et. al, 1990]。
对位模型:
使用以下例子说明短语翻译模型:源语言为汉语,目标语言为英语,
源语言:澳洲是与北韩有邦交的少数国家之一。
目标语言:Australia is one of the few countries that have the diplomatic relations with North Korea.
双语句对词语对齐:
使用表格的方式表示上述对齐关系,其中黑色填充的位置表示词语对齐,这样表示的目的是为了方便找到满足对齐一致性的短语对,进而抽取短语翻译规则。
短语翻译规则抽取:
红色方框:“是与北韩” “is - with North Korea”不满足对齐一致性,因此不是一条短语翻译规则;
黄色方框:“的少数国家” “few countries that”满足对齐一致性,因此不是一条短语翻译规则。
视觉效果很难用语言描述,只要搞清楚对齐一致性的定义,这部分不难确定。
其中距离公式 d = n e x t b e g i n − l a s t e n d d=next_{begin}-last_{end} d=nextbegin−lastend较难理解,改为 d = c u r r e n t b e g i n − l a s t e n d d=current_{begin}-last_{end} d=currentbegin−lastend似乎更加准确,也方便理解。源短语的顺序 i i i由对应的目标短语的位置决定。
以第2个源短语为例,第2个源短语(由目标短语的顺序决定)为“的少数国家之一”,短语跨度为7-10, c u r r e n t b e g i n = 7 current_{begin}=7 currentbegin=7,上一个短语为“澳洲是”,短语跨度为1-2, l a s t e n d = 2 last_{end}=2 lastend=2,因此距离 d = 7 − 2 − 1 = 4 d=7-2-1=4 d=7−2−1=4.
同样,其中公式中 n e x t next next改为 c u r r e n t current current似乎更加准确,也方便理解。
朴素贝叶斯(NB)决策的例子:
文本1:北京 理工 大学 是 理工 为主 工理文 协调 发展 的 全国 重点 高校
其中Feature Set为特征集合,因为 P ( 教 育 ∣ x ) > P ( 体 育 ∣ x ) P(教育|\textbf{x}) > P(体育|\textbf{x}) P(教育∣x)>P(体育∣x),所以文本分类为“教育”。
文本2:复旦 大学 排球 队 获得 本届 大学生 运动会 排球 比赛 冠军
因为 P ( 体 育 ∣ x ) > P ( 教 育 ∣ x ) P(体育|\textbf{x}) > P(教育|\textbf{x}) P(体育∣x)>P(教育∣x),所以文本分类为“体育”。