论文地址:ACL17
代码地址:github
今天要分享的是伯克利2017年发表在ACL的一篇成分句法分析论文,论文和代码地址都已经放在上面了,代码里还给出了处理过的PTB数据集,使用起来非常方便。
本文提出了一种不同于传统方法的成分句法分析方法。
传统的句法分析器需要预处理出语法规则集合,然后利用语法规则来进行各种句法分析,这类方法的弊端有很多,我列举了主要的三点:
而本文提出的模型不需要预先构造出语法规则集合,只需要预测出每个短语的label和split就行了,这样就能构造出一棵完整的句法树。
该模型分为编码与解码两部分,其中编码部分就是利用双向LSTM将每个词和短语表示成向量,解码部分提出了两种模型,一种是chart模型,类似于CKY算法,另一种是top-down模型,就是自顶向下的贪心算法,具体模型之后介绍。
一棵句法分析树可以看做是 的集合,也就是句法树中的每一个结点的类别是label,该结点对应的短语在句子中的下标范围就是span。所以模型的任务就是要预测这个集合,给每一个label和span一个得分,找出使得一个句子得分最高的集合即可。
那么我们的编码模型任务就是要得出每一个短语的表示,并将其转换为短语的label得分和span得分。这里用到的就是最简单的双向LSTM,对于句子的第 个位置,得到它的双向表示 和 ,那么 就可以表示为 。
然后将短语表示输入到两个单独的单层前馈神经网络中,就能分别得到label得分和span得分了。假设用 表示的短语表示,那么label得分和span得分可以分别表示为:
注意到这里计算出来的label得分是一个向量,维数为label的类别数,而span得分计算出来就是一个标量了。而对于某一个特定的类别,它的得分就可以直接从label得分向量中取出对应的那一维就行了:
还有个重要的问题就是一元和 元的产生式怎么处理,对于一元产生式,可以将所有的类别合并为一个新的类别,然后加入类别集合中共同预测就行了,在实现代码中,将一元的产生式链上面的类别合并成了一个元组作为这棵子树的label。对于 元的产生式,可以添加一个临时类别 ,相当于进行了二叉化,所有的新增节点全部预测为 。
chart模型本质上就是一个动态规划算法,类似于CKY算法。
首先一棵句法树的总得分可以表示为组成它的 集合的label得分与span得分之和:
我们目的就是寻找使得该式最大的集合 ,利用动态规划可以将时间复杂度降到 。
对于叶子结点的情况,因为没有split,所以我们只需要预测最大得分的label就行了:
而对于一般的 ,我们不仅要预测label,还得预测split。对于split ,我们可以将split得分表示为:
那么最大得分可以表示为:
这样就可以对label和split单独预测,在实际代码实现中,去掉了 这一部分,也就是只预测label得分之和最高的split。这样做的一个好处就是防止了二叉化过程中,从左边开始合并和从右边开始合并得到的分数不一样,从而导致偏差,另外加上这部分效果提升也不大,所以为了简便就删掉了。
训练的话采用的还是Max-Margin:
至于句法树差异 ,可以方便的将 替换为 ,其中 就是 在标准树中的label。
top-down模型其实就是自顶向下贪心的选择每一个短语的最大label和split。
其中叶子结点处依然还是直接找得分最高的那一维:
对于一般的 ,直接贪心的寻找得分最高的label和split就行了:
虽然这种贪心的方法看上去并不十分科学,但是实际效果却比动态规划算法还要好一点,并且它的时间复杂度只有 。
下面是top-down模型进行解析的一个例子:
其中 在构造句法树的时候就直接忽略,最后可以还原成 元的产生式。并且一元产生式 被直接替换为了新的类别 。
训练过程类似,对标准树中的每一个 ,分别计算label和split的loss就行了:
最后累加求出总的loss即可。
动态Oracle
top-down模型在每一个 处都计算出得分最高的label和split,然后与标准树对应的作比较,计算出loss。但是这样存在一个很严重的问题,就是如果这个预测出来的没有出现在标准树中,那么他在标准树中的label和split是什么呢?这时候就要用到这里提到的动态Oracle技术了。
对于label而言,如果出现在标准树中,那么label就是标准树中的label,否则的话就是 。
对于split而言,定义 为 的split集合,因为可能是 元的,所以split可能不止一个。如果 在标准树中,那么 显然就是标准树中 的split集合。如果 不在标准树中,那么就寻找一个标准树中包含 的最小span,该span的split集合中位于 之间的split就构成了 。
形式化定义为,寻找:
其中这里的最小是定义在区间长度上的偏序关系。所以 就可以定义为:
这样对于任意的 ,都能在标准树中找到对应的split集合,然后计算出loss。这样也能解决因为 叉树不同的二叉化导致的不同的split产生的问题。在实际的代码中,直接采用了 集合中最左边的split作为标准树中的split,当然也可以选择得分最高的一个split,不过提升不大没有必要。
采用动态Oracle有两个好处:
Top-Middle-Bottom label得分
其实就是将每个span的label拆分为三元组 ,主要用来应对一元产生式的:
label的得分也由三部分求和得到:
求最大得分的时候也可以三部分分开求。
左右span得分
其实就是在计算split得分时,将左右span的得分区别为left和right两部分:
span连接得分
之前计算split得分都是将左右span得分直接相加,当然也可以将他们拼接起来,输入到单层前馈神经网络里,输出作为得分:
深度双仿射span得分
首先令 ,然后split得分可以计算为:
结构化label损失
对于两个label集合,定义它们之间的结构化Hamming损失为:
这个loss可以被用在之前的训练过程中。
具体代码细节以及超参数设置请参看代码。
首先实验对不同的得分计算方式以及loss计算方式进行了对比,发现效果最好的chart模型用的是原始label,0-1标签损失,split得分用的是拼接得分,而top-down模型效果最好的是原始label,结构化label损失,split得分用的是左右span得分。
当然提升都不是很大,实验为了简便,用了最简单原始的设置:原始label,0-1标签损失,split得分用的是直接求和。
实验对比结果如下图所示:
在PTB数据集上,实验结果都要好于之前的所有parser,结果如下:
不仅结果更好,处理速度也有很大提升,chart模型一秒钟能处理20.3句话,top-down模型一秒钟能处理75.5句话。
近些年来,效果最好的成分句法分析器基本都是基于转移系统的,还有诸如基于CRF之类的句法分析器。本文提出的基于span表示与得分,从而进行chart解析或者top-down解析的模型是当时结果最好的模型。而且该模型非常的简单,不再需要复杂的语法规则。模型仍然有很多改进之处,体现在span表示的计算方式,各种得分的计算方式。在下一篇博客中,我将为大家介绍一篇伯克利最新的成分句法分析论文,使用的是自注意力机制的编码器,F1值达到了惊人的95.15%。