transformer

  • 最近transformer的结构改进论文挺多的,总结一下。
  • transformer是一个seq2seq模型。

从RNN谈起

  • 缺点:不能处理过长的句子。


    transformer_第1张图片
  • LSTM可以一定程度上缓解这个问题,因为他有记忆单元,以及可以选择什么时候进行遗忘的门控机制,但是还是不能处理过长句子中的依赖问题(大约能记住30-40个词之间的依赖关系,普通的RNN只能记住5-6个词的依赖关系)。
  • RNN-based model还有一个问题就是encoder的时候不能并行,可以从上面的图中看到,只有当单词x0处理完成了以后,才能处理单词x1

attention 机制

  • 为了解决长时间长序列之间的单词依赖问题,引入了attention机制,就是在处理句子的时候,不再是一个句子处理完成以后只取最后一个hidden state当做句子的表示丢给decoder,而是每个时刻的hidden statedecoder都可以按其所需对hidden state进行加权访问。
    transformer_第2张图片
  • 可以看到之前的seq2seq模型decoder的时候只获取了encoder的最后一个状态,加入了attention机制以后就可以获取每一个时间步的信息了。
    transformer_第3张图片
    transformer_第4张图片

CNN-based model

  • 可以想到CNN还是可以解决RNN的不足的,因为首先CNN本来就是并行做卷积的因此速度encode速度比RNN快的多,其次CNN可以通过卷积核捕获短期依赖,然后通过叠加层数捕获长期依赖。比如下面的wavenet的处理方式。
    transformer_第5张图片
  • 既然CNNAttention机制这么好,那么把两者结合起来岂不是天下无敌?是的这就是Transfomer

Transformers

  • Transformers中用的是self-attention

  • 首先我们看一下transfomer的整体架构,也是seq2seq模型,普通的transfomer叠了6层,而big transfomer叠了12层。

    transformer_第6张图片

  • 每一个encoder都是由两部分组成的,self-attention 帮助句子中的每个单词建立依赖关系,而且仅仅是使用self-attention来建立联系的,而feed-forward层是每一个token都是单独向前的(就是一个非线性层),因此不捕获token之间的依赖关系,同时不同tokenfeed forward可以并行。

    transformer_第7张图片
    transformer_第8张图片

  • decoder 还有一个多于的attention层,帮助decoder集中于输入句子中的特定的部分。

    transformer_第9张图片

self-attention

  • 根据三个不同的矩阵得到,q,k,v。(当然有一种self-attention是不乘矩阵的直接对embedding的矩阵进行操作,self-attention得到的是embedding * embedding转置* embedding,这样的好处是效果不错也没有额外的参数 )
    transformer_第10张图片
  • self-attention的实现方式。
    transformer_第11张图片
    transformer_第12张图片
    transformer_第13张图片

multi-head attention

  • linear层其实就是一个大矩阵,embedding matrix的维度是seqLen*embedding dim ,而K,Q,V对应的W矩阵(Wk,Wq,Wv)size都是embedding dim * hidden size那么 KQV矩阵的sizeseqLen * hidden sizemulti-head attention和原始的attention的区别是,原始的attention只有一组W矩阵,现在的multi-head attention是有多组,常用的设置是将hidden size 设置为原来的1/n,比如原来的hidden size512维,有8head那么现在就有8W矩阵各自的hiddensize64,这样QKV矩阵的维度是64* 512(原来是512*512)但是得到的Z尺寸还是一样的依然是seqLen*512,然后将8Z concat起来过一个linear(就是乘以一个4096*512的矩阵)得到seqlen*512的最终的state。(那个 hidden state变成1/n也不一定是效果最好的,你可以设置成其他值)
  • 这个操作和CNN里面使用多个卷积核是一样一样的。
    transformer_第14张图片

    transformer_第15张图片
    transformer_第16张图片
    transformer_第17张图片
    transformer_第18张图片
  • 可以看到不同的head注意到不同的位置,相当于不同卷积核捕获不同的特征。
    transformer_第19张图片

表示序列的位置信息使用Positional Encoding

  • 因为仅仅使用self-attention的话就相当于是一个词袋模型,所以我们需要引入表示位置信息的编码。
    transformer_第20张图片
  • 看到源代码里面positional encoding实现方式,是一个比较复杂的三角函数,naacl18上有一篇文章论文使用了相对位置的positional encoding效果提升了0.6bleu,总之这个positional encoding是一个比较ugly的东西,大家都想改进他,但是却苦于没有好的方法。
transformer_第21张图片

Transformer中的残差连接

  • encoder的每个sub layer之间(一个self-attention或者一个feed forward算一个sublayer)是有残差连接的,他们大概长这样
    transformer_第22张图片
  • 所谓的残差连接实现的时候只不过是把原来的x1保存下来,然后做layernorm的时候和下面模块中传递进来的z加起来即可。
    transformer_第23张图片
  • decoder中同样也有残差连接
    transformer_第24张图片

decoder部分

  • encoder的输入是单词的embedding,输出是一组attentionK 矩阵和V矩阵,这样decoder可以用到这个attention矩阵就可以更好的获取输入句子信息。(embedding matrix 各自乘以一个矩阵得到KV
  • 可以看到decoder的时候,也是一个时间步一个时间步运行的,因此decoder的时候没有加速的(还是自回归模型,现在比较活的非自回归模型就是解决这个问题的,但是效果还是不能比),而encoder的时候是并行的,KV矩阵是最终6层以后得到的embedding各自乘以一个矩阵KV
  • 值得注意的是decoder中的self-attention机制和是不同的,因为生成新的单词的时候只能看到前面已经生成过单词的信息,因此需要用mask挡住后面的位置(设置为-inf
  • encoder-decoder attention 层的work方式和multihead self-attention方式是很像的,只不过使用的Queries矩阵来自下面层的输入,而KeysValues Matrix用的是的encoder产生的。
  • 最后的softmax层:
    transformer_第25张图片

你可能感兴趣的:(transformer)