Sentence Embedding:自注意力机制

论文:ICLR2017-A structured self-attentive sentence embedding

梗概:

         本文提出了一种基于自注意力机制的sentence embedding,自注意力机制是区别于注意力机制的,他可以减少对外部信息的依赖,只依靠自己的额输入来生成对应的注意力权重,他的权重主要是基于内部的相关性。

         我们使用一个2-D的矩阵来表征一个句子,矩阵中的每一行代表句子的一个部分,从而可以更好的反映句子的不同特征,可以更好的进行之后的训练。

与之前的联系,实际上看到sentence embedding 我们能想到很多,比如之前的word embedding,比如RNN-encoder-decoder,普通的RNN-encoder-decoder最后输出的隐藏变量C便是一种sentence embedding,但是当句子比较长时,这会导致长时依赖问题,同时也无法很好的反映句子的特点,后来又提出取所有encoder隐藏变量求平均的方式,但这样过于粗糙。最后提出结合输出序列,作为额外输入,根据输出单词和对应输入序列的相似度,作为注意力权值,从而构建注意力机制。但是,有些工作是没有SMT那样的额外信息输入的,只会输入一个句子或单词序列,所以我们这里提出自注意力机制。

具体模型:

         模型主要分为两个部分,分别为双向LSTM和自注意力模块,双向LSTM负责生成单词序列各个时间点的隐藏向量,而自注意力模块负责生成对应的权重矩阵。

         这里的双向LSTM分别取左右两个隐向量,表示当前单词是由左右两个单词决定的,更好的反映了单词之间依赖性,也说明当前的隐向量会更好的反映整体的上下文信息,更有利于后面的自注意力机制,最后的输出公式为:

         这个a便是一个权值向量,size为n,H为所有的隐向量作为输入。具体的计算过程为:

         Size(Ws1*HT)=(da,2u)*(2u,n)=(da,n)

         Size(Ws2)*(da,n)=(1,da)*(da,n)=(1,n)

         这个a便是我们最后要得到的权重向量,a与H相乘,也就得到了最终的句向量。

         同时,我们要注意一下Ws2,很明显他不属于网络的一部分,这是一个需要学习的向量,他和过网络后的H相乘,得到一个相似度向量,也就是权值向量a,我们都知道自注意力机制的关键便是找到context vector,也就是这里的Ws2,他的意义代表的是当前序列的整体的上下文信息,感性来说就是每个词向量与上下文的相似度,训练的目标便是得到的Ws2,在test过程中Ws2便是最重要的点。

         因此,我们需要进行多次注意力机制的判定,从而关注句子的不同部分,解决方法便是将ws2向量变为一个Ws2矩阵,也就是说我们定义了多个context vector,最终的结果为:

         Ws2为一个r*da的矩阵,表示我们要从sentence中提取r个特征,实际上在运算过程中就相当于对输入的H做了r次关注操作,计算出了r个权值序列,最后将矩阵A与H相乘,得到最后的句子向量。

         这个句子向量维数为r*2u,这个句子矩阵的每一行都代表着一个句子的关注点,可以更好地表现出这个句子的特征。

惩罚项:

         如果我们得到的r次关注权值都是相似的数,那么便会产生冗余问题,因此我们需要一个penaliztion term 保证得到的A是每一行不同的权重

使用的方法是:

         I是单位矩阵。两个矩阵相乘为下面的公式:

        我们可以看出,因为softmax的原因,导致他们相乘求和都是小于1的,只有满足one-hot格式且相同时才会为1,而我们的目标为minimize P,并且相乘之后减去一个单位矩阵,这将会迫使矩阵A只关注句子的一个方面,将数据集中在某一项,这会使sentence embedding更加有效。

你可能感兴趣的:(论文)