零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)

零基础学nlp【4】 global attention 和 local attention

论文:Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015.

主要内容

基于之前的注意力机制之上,这篇论文提出了两个概念,分别是“global attention”和“local attention”。两者区别在于构建注意力机制时前者使用所有的输入时刻的encoder隐变量,而后者采用部分的encoder隐变量。同时,与之前的注意力机制不同在对decoder的输出进行预测时,不是采用前一时刻的隐变量预测,而是采用当前时刻的隐变量预测当前时刻的输出。文中还采用了三种不同的注意力机制获得方法,并进行了比较

细节

global attention

global attention的结构如下图
零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)_第1张图片
可以看出,模型通过现在时刻decoder的输出隐变量ht和之前在encoder中的所有隐变量根据注意力模型计算出at,之后ct根据at和之前encoder中的隐变量一起加权后得到,将ct与ht做cancat,再经过一层编码得到输出的向量继而得到输出的词。
其中注意力模型的建立有以下三种方式
零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)_第2张图片
在这里插入图片描述
通过这三种方式计算得到at,三种方式分别命名为dot、general、concat
由当前时刻ht加上注意力机制得到当前时刻输出,这是与之前的注意力机制不同的地方。

locol attention

local attention选择了部分的encoder时刻用来做注意力模型,时刻的选择方法有两种,一种是假设翻译过程两种语言词的顺序是基本一致的,那么就在encoder上选择与decoder正在预测单词的相同位置为中心的一段数据建立注意力模型,另一种方法是通过decoder当前输出的隐变量预测一个encoder位置(即当前翻译的词对应在被翻译语句中词的位置),然后以该位置去一段数据。结构如下图所示
零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)_第3张图片

input-feeding approach

论文还提出一个input-feeding approach的方法,不是特别懂,大致意思是在decoder中将前一时刻的输出和前一时刻的隐变量concat一起作为下一时刻的输入,目的是为了记录之前的信息??不太清楚,论文也说没有被分析这样好不好,知道的麻烦解惑一下。总之这个方法的图如下零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)_第4张图片

结果

  1. 论文用来上面的方法,组合后进行验证,首先用了集成8个模型的模型获得了sota的效果。如下图
    零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)_第5张图片
  2. 验证了用attention效果好
  3. 验证了在长句子翻译中效果好
  4. 关于注意力模型的选择,如上文说的有三种 ,发现dot模型在global——attention中效果好,general在local-attention中效果好。
  5. 这个模型也给出了词对齐的效果(词的相关性)word alignment。比如purchase和buy是相近的。具体AER(alignment error rate)值如下图
    零基础学nlp【4】 global attention 和 local attention(Effective approaches to attention-based neural mt)_第6张图片

其他

其实还有关于soft attenton和hard attention的在这篇论文之前,下一篇就是介绍soft attenton和hard attention!
【零基础学nlp,争取每天看一篇文章,大家有建议,或者我理解错的地方请批评指正。希望有人能和我一起学!!!!】

你可能感兴趣的:(零基础学nlp,attention,nlp)