转载自:http://www.jeyzhang.com/cnn-apply-on-modelling-sentence.html
之前的博文已经介绍了CNN的基本原理,本文将大概总结一下最近CNN在NLP中的句子建模(或者句子表示)方面的应用情况,主要阅读了以下的文献:
Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.
Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint arXiv:1404.2188, 2014.
Hu B, Lu Z, Li H, et al. Convolutional neural network architectures for matching natural language sentences[C]//Advances in Neural Information Processing Systems. 2014: 2042-2050.
He H, Gimpel K, Lin J. Multi-perspective sentence similarity modeling with convolutional neural networks[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1576-1586.
Wenpeng Yin, Hinrich Schütze. Convolutional Neural Network for Paraphrase Identification. The 2015 Conference of the North American Chapter of the Association for Computational Linguistics
Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. arXiv preprint arXiv:1510.03820, 2015.
下面对文献中CNN的结构和细节进行梳理。
模型的结构如下:
说明如下:
如图所示,输入层是句子中的词语对应的word vector依次(从上到下)排列的矩阵,假设句子有 n n 个词,vector的维数为 k k ,那么这个矩阵就是 n×k n×k 的。
这个矩阵的类型可以是静态的(static),也可以是动态的(non static)。静态就是word vector是固定不变的,而动态则是在模型训练过程中,word vector也当做是可优化的参数,通常把反向误差传播导致word vector中值发生变化的这一过程称为Fine tune
。
对于未登录词的vector,可以用0或者随机小的正数来填充。
输入层通过卷积操作得到若干个Feature Map
,卷积窗口的大小为 h×k h×k ,其中 h h 表示纵向词语的个数,而 k k 表示word vector的维数。通过这样一个大型的卷积窗口,将得到若干个列数为1的Feature Map
。
接下来的池化层,文中用了一种称为Max-over-time Pooling
的方法。这种方法就是简单地从之前一维的Feature Map
中提出最大的值,文中解释最大值代表着最重要的信号。可以看出,这种Pooling方式可以解决可变长度的句子输入问题(因为不管Feature Map
中有多少个值,只需要提取其中的最大值)。
最终池化层的输出为各个Feature Map
的最大值们,即一个一维的向量。
池化层的一维向量的输出通过全连接的方式,连接一个Softmax层,Softmax层可根据任务的需要设置(通常反映着最终类别上的概率分布)。
最终实现时,我们可以在倒数第二层的全连接部分上使用Dropout
技术,即对全连接层上的权值参数给予L2正则化
的限制。这样做的好处是防止隐藏层单元自适应(或者对称),从而减轻过拟合的程度。
1. 数据
实验用到的数据集如下(具体的名称和来源可以参考论文):
2. 模型训练和调参
这些参数的选择都是基于SST-2 dev数据集,通过网格搜索方法(Grid Search)得到的最优参数。另外,训练过程中采用随机梯度下降方法,基于shuffled mini-batches之上的,使用了Adadelta update rule(Zeiler, 2012)。
3. 预训练的Word Vector
这里的word vector使用的是公开的数据,即连续词袋模型(COW)在Google News上的训练结果。未登录次的vector值是随机初始化的。
4. 实验结果
实验结果如下图:
其中,前四个模型是上文中所提出的基本模型的各个变种:
Fine tuned
;博主自己下载了论文作者的实现程序(Github地址),最终在MR数据集上的运行结果如下:
和论文中的结果差不多。
5. 结论
CNN-static
较与CNN-rand
好,说明pre-training的word vector确实有较大的提升作用(这也难怪,因为pre-training的word vector显然利用了更大规模的文本数据信息);CNN-non-static
较于CNN-static
大部分要好,说明适当的Fine tune也是有利的,是因为使得vectors更加贴近于具体的任务;CNN-multichannel
较于CNN-single
在小规模的数据集上有更好的表现,实际上CNN-multichannel
体现了一种折中思想,即既不希望Fine tuned的vector距离原始值太远,但同时保留其一定的变化空间。值得注意的是,static的vector和non-static的相比,有一些有意思的现象如下表格:
bad
对应的最相近词为good
,原因是这两个词在句法上的使用是极其类似的(可以简单替换,不会出现语句毛病);而在non-static
的版本中,bad
对应的最相近词为terrible
,这是因为在Fune tune
的过程中,vector的值发生改变从而更加贴切数据集(是一个情感分类的数据集),所以在情感表达的角度这两个词会更加接近;!
最接近一些表达形式较为激进的词汇,如lush
等;而,
则接近于一些连接词,这和我们的主观感受也是相符的。Kim Y的这个模型很简单,但是却有着很好的性能。后续Denny用TensorFlow实现了这个模型的简单版本,可参考这篇博文;以及Ye Zhang等人对这个模型进行了大量的实验,并给出了调参的建议,可参考这篇论文。
下面总结一下Ye Zhang等人基于Kim Y的模型做了大量的调参实验之后的结论:
Ye Zhang等人给予模型调参者的建议如下:
non-static
版本的word2vec
或者GloVe
要比单纯的one-hot representation
取得的效果好得多;1-10
之间,当然对于长句,使用更大的过滤器也是有必要的;Feature Map
的数量在100-600
之间;ReLU
和tanh
两种激活函数表现较佳;1-max pooling
就已经足够了,可以没必要设置太复杂的pooling方式;Feature Map
的数量使得模型的性能下降时,可以考虑增大正则的力度,如调高dropout
的概率;论文附录中还附上了各种调参结果,感兴趣的可以前往阅读之。
Kal的这篇文章引用次数较高,他提出了一种名为DCNN(Dynamic Convolutional Neural Network)的网络模型,在上一篇(Kim’s Paper)中的实验结果部分也验证了这种模型的有效性。这个模型的精妙之处在于Pooling的方式,使用了一种称为动态Pooling
的方法。
下图是这个模型对句子语义建模的过程,可以看到底层通过组合邻近的词语信息,逐步向上传递,上层则又组合新的Phrase信息,从而使得句子中即使相离较远的词语也有交互行为(或者某种语义联系)。从直观上来看,这个模型能够通过词语的组合,提取出句子中重要的语义信息(通过Pooling),某种意义上来说,层次结构的feature graph
的作用类似于一棵语法解析树。
DCNN能够处理可变长度的输入,网络中包含两种类型的层,分别是一维的卷积层和动态k-max的池化层(Dynamic k-max pooling)。其中,动态k-max池化是最大化池化更一般的形式。之前LeCun将CNN的池化操作定义为一种非线性的抽样方式,返回一堆数中的最大值,原话如下:
The max pooling operator is a non-linear subsampling function that returns the maximum of a set of values (LuCun et al., 1998).
而文中的k-max pooling方式的一般化体现在:
DCNN的网络结构如下图:
网络中的卷积层使用了一种称之为宽卷积(Wide Convolution)
的方式,紧接着是动态的k-max池化层。中间卷积层的输出即Feature Map
的大小会根据输入句子的长度而变化。下面讲解一下这些操作的具体细节:
1. 宽卷积
相比于传统的卷积操作,宽卷积的输出的Feature Map
的宽度(width)会更宽,原因是卷积窗口并不需要覆盖所有的输入值,也可以是部分输入值(可以认为此时其余的输入值为0,即填充0)。如下图所示:
图中的右图即表示宽卷积的计算过程,当计算第一个节点即 s1 s1时,可以假使 s1 s1节点前面有四个输入值为0的节点参与卷积(卷积窗口为5)。明显看出,狭义上的卷积输出结果是宽卷积输出结果的一个子集。
2. k-max池化
给出数学形式化的表述是,给定一个 k k值,和一个序列 p∈Rp p∈Rp(其中 p≥k p≥k),k-max pooling
选择了序列 p p中的前 k k个最大值,这些最大值保留原来序列的次序(实际上是原序列的一个子序列)。
k-max pooling
的好处在于,既提取除了句子中的较重要信息(不止一个),同时保留了它们的次序信息(相对位置)。同时,由于应用在最后的卷积层上只需要提取出 k k个值,所以这种方法允许不同长度的输入(输入的长度应该要大于 k k)。然而,对于中间的卷积层而言,池化的参数 k k不是固定的,具体的选择方法见下面的介绍。
3. 动态k-max池化
动态k-max池化操作,其中的 k k是输入句子长度
和网络深度
两个参数的函数,具体如下:
其中 l l表示当前卷积的层数(即第几个卷积层), L L是网络中总共卷积层的层数; ktop ktop为最顶层的卷积层pooling对应的 k k值,是一个固定的值。举个例子,例如网络中有三个卷积层, ktop=3 ktop=3,输入的句子长度为18;那么,对于第一层卷积层下面的pooling参数 k1=12 k1=12,而第二层卷积层对于的为 k2=6 k2=6,而 k3=ktop=3 k3=ktop=3。
动态k-max池化的意义在于,从不同长度的句子中提取出相应数量的语义特征信息,以保证后续的卷积层的统一性。
4. 非线性特征函数
pooling层与下一个卷积层之间,是通过与一些权值参数相乘后,加上某个偏置参数而来的,这与传统的CNN模型是一样的。
5. 多个Feature Map
和传统的CNN一样,会提出多个Feature Map以保证提取特征的多样性。
6. 折叠操作(Folding)
之前的宽卷积是在输入矩阵 d×s d×s中的每一行内进行计算操作,其中 d d是word vector的维数, s s是输入句子的词语数量。而Folding
操作则是考虑相邻的两行之间的某种联系,方式也很简单,就是将两行的vector相加;该操作没有增加参数数量,但是提前(在最后的全连接层之前)考虑了特征矩阵中行与行之间的某种关联。
1. 模型训练及参数
2. 实验结果
在三个数据集上进行了实验,分别是(1)电影评论数据集上的情感识别,(2)TREC问题分类,以及(3)Twitter数据集上的情感识别。结果如下图:
可以看出,DCNN的性能非常好,几乎不逊色于传统的模型;而且,DCNN的好处在于不需要任何的先验信息输入,也不需要构造非常复杂的人工特征。
1. 基于CNN的句子建模
这篇论文主要针对的是句子匹配(Sentence Matching)的问题,但是基础问题仍然是句子建模。首先,文中提出了一种基于CNN的句子建模网络,如下图:
图中灰色的部分表示对于长度较短的句子,其后面不足的部分填充的全是0值(Zero Padding)。可以看出,模型解决不同长度句子输入的方法是规定一个最大的可输入句子长度,然后长度不够的部分进行0值的填充;图中的卷积计算和传统的CNN卷积计算无异,而池化则是使用Max-Pooling。
下图示意性地说明了卷积结构的作用,作者认为卷积的作用是从句子中提取出局部的语义组合信息,而多张Feature Map
则是从多种角度进行提取,也就是保证提取的语义组合的多样性;而池化的作用是对多种语义组合进行选择,过滤掉一些置信度低的组合(可能这样的组合语义上并无意义)。
2. 基于CNN的句子匹配模型
下面是基于之前的句子模型,建立的两种用于两个句子的匹配模型。
2.1 结构I
模型结构如下图:
简单来说,首先分别单独地对两个句子进行建模(使用上文中的句子模型),从而得到两个相同且固定长度的向量,向量表示句子经过建模后抽象得来的特征信息;然后,将这两个向量作为一个多层感知机(MLP)的输入,最后计算匹配的分数。
这个模型比较简单,但是有一个较大的缺点:两个句子在建模过程中是完全独立的,没有任何交互行为,一直到最后生成抽象的向量表示后才有交互行为(一起作为下一个模型的输入),这样做使得句子在抽象建模的过程中会丧失很多语义细节,同时过早地失去了句子间语义交互计算的机会。因此,推出了第二种模型结构。
2.2 结构II
模型结构如下图:
图中可以看出,这种结构提前了两个句子间的交互行为。
第一层中,首先取一个固定的卷积窗口 k1 k1,然后遍历 Sx Sx 和 Sy Sy 中所有组合的二维矩阵进行卷积,每一个二维矩阵输出一个值(文中把这个称作为一维卷积,因为实际上是把组合中所有词语的vector排成一行进行的卷积计算),构成Layer-2。下面给出数学形式化表述:
从而得到Layer-2,然后进行2×2的Max-pooling:
后续的卷积层均是传统的二维卷积操作,形式化表述如下:
与第一层卷积层后的简单Max-Pooling方式不同,后续的卷积层的Pooling是一种动态Pooling方法,这种方法来源于参考文献[1]。
1. 模型训练及参数
2. 实验结果
一共做了三个实验,分别是(1)句子自动填充任务,(2)推文与评论的匹配,以及(3)同义句识别;结果如下面的图示:
其实结构I和结构II的结果相差不大,结构II稍好一些;而相比于其他的模型而言,结构I和结构II的优势还是较大的。
第四篇论文即He的文章中所提出的模型,是所有基于NN的模型中,在Paraphrase identification任务标准数据集MSRP上效果最佳的。下面我们来学习一下这个模型。
模型主要分为两个部分:
模型不需要借助WordNet, 句法解析树等资源;但是可以选择性地使用词性标注、word embedding等方法来增强模型的性能;与之前的模型区别在于,文中的模型使用了多种类型的卷积、池化方法,以及针对得到的句子表征的局部进行相应的相似度计算。(这样做的优点在于能够更加充分地挖掘出句子中的特征信息,从而提升性能,但同时使得模型变得复杂、耗时)
模型的整体框架如下:
下面具体看看这两个模型是如何实现的。
模型是基于CNN的,卷积层有两种卷积方式,池化层则有三种。
假设模型的输入为二维矩阵 Sent Sent, Sent∈Rlen×Dim Sent∈Rlen×Dim,其中 len len 表示句子切分为Token List后的长度(Token可以是词/字), Dim Dim 表示Token的Embedding表示的维度。由此有 Senti Senti 表示矩阵的第 i i 行,即输入中的第 i i 个Token的Embedding表示; Senti:j Senti:j 表示矩阵中的第 i i 到第 j j 行的一个切片,也是一个子矩阵; Sent[k]i Senti[k] 表示矩阵的第 i i 行第 k k 列的值,对应是Embedding的第 k k 个值;而 Sent[k]i:j Senti:j[k] 则是矩阵中第 i i 行到第 j j 行中的第 k k 列的一个切片。
卷积层有两种卷积的方式:(1)粒度为word的卷积;(2)粒度为embedding 维度上的卷积。如下图:
其中,第一种卷积方式与之前的Kim Y提出模型中的相同,相当于是n-gram特征的抽取;而对于第二种卷积方式,论文作者给出的解释是,(1)这种方式有助于充分地提取出输入的特征信息;(2)由于粒度更小,所以在学习过程中的参数调整上,每一个维度能够得到不同程度的参数调整。(第二种卷积方式从直观上没有太多的物理意义,而作者也是直说不能够给出符合人直观想法上的解释)。
模型除了使用传统的max-pooling
,还使用了min-pooling
和mean-pooling
方式。
假设 group(ws,pooling,sent) group(ws,pooling,sent) 表示卷积宽度为 ws ws,使用 pooling pooling 池化函数,应用在输入的句子 sent sent 上。我们使用了两种类型的building block
,分别是 blockA blockA 和 blockB blockB上,定义如下
这里 blockA blockA 有三组卷积层,卷积窗口的宽度一致(都是 wsa wsa ),每一组对应一种池化操作。这里池化操作和卷积层是一一对应的,也就是说并不是一个卷积层上实施三种池化操作(虽然也可以这么做,作者没有这么做的原因是由于激活函数的存在,对每个卷积结果都进行max-pooling
和min-pooling
是没有必要的)。
而 blockB blockB 的定义如下:
这里 blockB blockB 有两组卷积层,卷积窗口的宽度为 wsb wsb,两组分别对应max-pooling
和min-pooling
的操作。值得说明的是, groupB(∗) groupB(∗) 中的卷积层对应有 Dim Dim 个以embedding dimension
为粒度的卷积窗口,也就是对embedding
的每一维度做卷积运算。
这里只所以要组合这些多样的卷积和池化操作,原因是希望能够从多个方面来提取出输入中的特征信息,以供后续的决策任务。
与传统的n-gram模型相似,这里在building block
中使用了多种尺寸的卷积窗口。如下图所示:
其中 ws ws 表示卷积时卷积的n-gram长度,而 ws=∞ ws=∞ 表示卷积窗口为整个word embedding
矩阵。 ws ws 的值及Feature Map
的数量都是需要调参的。
下面介绍在得到句子的表征向量之后,如何计算它们的相似度。直观的想法是,我们可以使用传统的相似度计算方法如余弦相似度等来计算两个句子向量的相似度。但是,直接应用这种做法在两个句子向量上并不是最优的,原因在于最后生成的句子向量中的每一个部分的意义各不相同,这样简单粗暴的计算势必会影响效果,所以做法是对句子向量中的各个部分进行相应的比较和计算(Structured Comparision)。为了使得句子向量中的局部间的比较和计算更加有效,我们需要考虑如下方面:
(1) 是否来自相同的building block
;
(2) 是否来自相同卷积窗口大小下的卷积结果;
(3) 是否来自相同的pooling层
;
(4) 是否来自相同的Feature Map
;
最终比较句子中的相应部分时,需要至少满足以上两个条件。为了识别句子中的哪些对应部分需要参与到相似度计算,文中提供了两种算法。
2.1. 相似度计算单元(Unit)
两种相似度计算单元如下:
2.2. 基于句子局部的相似度计算
算法1和算法2为句子表征向量的两种计算方法,其中算法1仅用在 blockA blockA 上;而算法2则都用在 blockA blockA 和 blockB blockB 上,两种算法都是针对相同类型(pooling和block类型)的输出做局部比较。
给出如下的符号假设:
算法的伪代码如下:
下面的图示说明了在 blockA blockA 上,两种算法的计算方式的区别,算法一表现了向量在水平方向上的比较;而算法二则是在垂直方向。
需要注意的是,在算法二中相同类型的pooling的输出groups中,向量是两两进行比较的(图中的红色虚线只是为了说明比较的方向,并不是只针对group中相同大小的卷积窗口作比较);而算法一中的每一行都要作比较,不仅仅是第一行。
基于句子局部的相似度计算之后,得到相应的相似度向量;然后这组向量之后连接一个全连接层,最后softmax对应输出。如果是计算相似度度量值,可以用softmax输出的类别概率值。
使用tanh
函数作为激活函数。
用于评测同义句检测 (Paraphrase Identification) 任务的经典数据集,数据集来源于新闻;包含5801对句子对,其中4076对用于模型训练,而1725对用于测试;每一对句子拥有一个标签,0或者1,0表示两个句子不是互为同义句,而1则表示两个句子互为同义句。因此这是一个二分类的任务。
数据来源于2014年SemEval比赛,数据集有9927对句子对,其中4500对用于模型训练,500对用于模型验证,而剩下的4927对用于模型测试。这些句子都是在图片和视频描述中抽取得到的,每一对句子对有一个相关分数,区间在[1, 5],分数越高表示句子越相关。
数据集来源于2012年的SemEval比赛,包含1500对短文本(用于描述视频信息)。其中一般用于模型训练,一半用于模型测试,每一对句子有一个相关性分数,区间在[0, 5],分数越高表示句子越相关。
针对MSRP和其他两个数据集,分别使用两种损失函数。对于MSRP数据集,损失函数(Hinge Loss)如下:
对于其余两个数据集,损失函数(KL-divergence Loss)如下:
GloVe word embedding
;对于MSRP数据集,还额外使用了200维的POS embedding
(Standford POS tagger)和25维的Paragram Vectors
(Wieting et al., 2015 PDF,数据下载地址)。因此对于MSRP任务而言,word embedding
的维数为525维 (200+300+25);而其余两个任务则对应是300维。Feature Map
的数量与输入的embedding
维数相同,即MSRP是525个,而SICK和MSRVID则是300个。
可以看出,文中的模型是所有基于NN的方法中在MSRP数据集上性能最好的。
而模型在SICK和MSRVID数据集上的表现也很好。
下面的表格说明了在不使用某种技术下,模型性能在实验数据集上的变化情况。
从中可以得出以下结论:
POS Embedding
和Paragram Vector
效果显著;Horizontal
和Vertical
算法均有一定的提升效果,而Vertical
算法的提升程度更高;max-pooling
方式确实要比min-pooling
和mean-pooling
强太多。文中的模型包含两个部分:卷积-池化模型和相似度计算模型。实验部分已经验证了模型的有效性,在MSRP数据集上模型取得了仅次于state-of-art的结果,并且在基于NN的方法中是最好的。模型中的相似度计算层是有必要的,因为对卷积池化处理后的句子成分进行了针对性的比较,从直观上要比直接扔进全连接层更合理,而实验结果也表明了这一点。
然而,个人觉得,文中的模型结构较为复杂,而且其中有很多trick的地方,比如为什么要对word embedding中的每一维度做卷积, blockB blockB 中的pooling
方式为什么只用了max和min,不用mean的方式等问题,而这些方式或许是作者自己做了大量实验后,从果到因而使用的。
Yin的这篇论文提出了一种叫Bi-CNN-MI
的架构,其中Bi-CNN
表示两个使用Siamese
框架的CNN模型;MI
表示多粒度的交互特征。Bi-CNN-MI
包含三个部分:
这部分模型主要使用了上述Kal在2014年提出的模型,针对句子本身提取出四种粒度的特征表示:词、短ngram、长ngram和句子粒度。多种粒度的特征表示是非常必要的,一方面提高模型的性能,另一方面增强模型的鲁棒性。
这部分模型主要是基于2011年Socher提出的RAE模型,做了一些简化,即仅对同一种粒度下的提取特征做两两比较。
论文提出的模型主要是基于Kal的模型及Socher的RAE模型的结合体,如下图:
通过模型图可以看出模型的主要思想:一方面利用Kal的模型进行多种粒度上的特征提取,另一方面采取RAE模型的思想,对提取出来的特征进行两两的相似度计算,计算完成的结果通过dynamic pooling
的方式进一步提取少量特征,然后各个层次的pooling
计算结果平摊为一组向量,通过全连接的方式与LR(或者softmax)层连接,从而适配同义句检测任务本身。
这个模型具体的计算细节不再赘述了,感兴趣的读者可以直接去看论文。除了提出这种模型结构之外,论文还有一个亮点在于使用了一种类似于语言模型的CNN-LM
来对上述CNN部分的模型进行预训练,从而提前确定模型的参数。CNN-LM
的网络结构如下图:
CNN-LM
模型的训练预料使用了最终的实验数据集,即MSRP;另外,由于MSRP的数据规模较小,所以作者又增加了100,000个英文句子语料。CNN-LM
模型最终能够得到word embedding, 模型权值等参数。需要注意的是,这些参数并不是固定的,在之后的句子匹配任务中是会不断更新的。从后面的实验结果中可以看出,CNN-LM
的作用是显著的。
论文仅使用了一种数据集,即公认的PI (Paraphrase Identification)任务数据集,MSRP。实验结果如下:
可以看出,CNN-LM
的预训练效果显著,预训练后的模型性能很强(但是结果上比之前He提出的模型稍差一些)。
本文结束,感谢欣赏。
欢迎转载,请注明本文的链接地址:
http://www.jeyzhang.com/cnn-apply-on-modelling-sentence.html
参考文献
[1] R. Socher, E. H. Huang, and A. Y. Ng. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection. In Advances in NIPS, 2011.
推荐资料
A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification
Implementing a CNN for Text Classification in TensorFlow
Kim Y’s Implement: Convolutional Neural Networks for Sentence Classification