【NLP】Transformer

Transformer

seq2seq model with “self-attention”

知名代表--bert

一般处理seq2seq容易想到RNN,但RNN的问题是不容易被平行化。于是有人提出用CNN。

如下右图所示,每个黄色三角代表一个filter,每次考虑3个词,从左往右依次遍历就可以从a1到a4 提取出第二层 b1到b4,蓝色三角再从第二层开始提取,第一个蓝色三角考虑b1到b3,其实就已经考虑了a1到a4,相当于读完了整个句子。

每个黄色filter都是可以并行处理的。除了黄色三角filter,还可以有橙色等其他filter,都是可以与黄色filter同时执行。所以CNN处理,不仅可以得到与RNN类似的输出形式,同时也可以更好的并行化。

但CNN处理的问题在于,如果要看很长范围的句子内容,必须叠很高的层。如果第二层就想知道很长句子的内容,那么是做不到的。

 

Transformer中抛弃了传统的CNN和RNN,整个网络结构由self-Attention和Feed Forward Neural Network组成。

一个基于Transformer可训练的神经网络可通过堆叠Transformer进行搭建。Transformer论文中搭建编码器和解码器各6层,共12层的Encoder-Decoder

【NLP】Transformer_第1张图片

 其中Encoder和Decoder的结构如下图所示:

【NLP】Transformer_第2张图片

注:在最底层的Encoder中,输入是通过word2vec等词嵌入方法将语料转为的词向量。在其他层中,输入则是上一个Encoder的输出。 

这里我们要先介绍一下self-attention是神马

Self-Attention

Self-Attention的输入输出与RNN一样,输入一个sequence,输出一个seqeunce。 特别的地方是与bidirectional RNN(双向)有同样的能力,每个输出都看过整个sequence,序列中任意两个位置的距离都是一个常量。但更特别的是self-attention中每个输出可以同时算出来。

我们可以用self-attention来取代所有RNN能做的事情

过程如下:

 X1 到 X4是input sequence

每个input先通过一个embedding,乘以 W ,变为a1 到 a4

把a1 到 a4丢到self-attention layer中,即:

分别乘上三个不同的matrix

q:query(to match others)—— qi = Wq * ai

k:key(to be matched)——  ki = Wk * ai

v:value(information to be extracted)—— vi = Wv * ai

【NLP】Transformer_第3张图片

再拿每个 q 去对每个  k 做attention

attention就是输入两个向量,给出这两个向量的匹配程度。也就是拿句子中每个词对当前这个词打分。这些分数(a)决定了在编码当前词的过程中有多重视句子的其他部分。

attention有各式算法,self attention中用的scaled dot-product attention的式子如下所示,其中 d 是 q 和 k 的dimention(因为q 和 k 要做innter product,所以它们的dimension是一样的)。因为如果q 和 k 的dim 越大,那么innter product时,相乘后相加的数值更多,所以除以一个根号 d 来平衡。

【NLP】Transformer_第4张图片

 再然后将a1,1 到 a1,4 通过一个softmax层,得到a1,1_hat 到 a1,4_hat

softmax分数决定了每个单词对编码当下位置的贡献。

【NLP】Transformer_第5张图片

 a1,1_hat 到 a1,4_hat 再与之对应的 v 相乘后 求和,得到 b1,即输出sequence的第一个vector

【NLP】Transformer_第6张图片

 可以发现,产生b1时,我们已经用了整个sequence的信息(a1 到 a4)。如果不想考虑整个句子的信息(global),只想考虑部分(local),可以通过将 a_hat 的值置零来实现。

 

以此类推,对q2、q3、q4分别做attention,就得到 b2、b3、b4

得到的这些向量再传给前馈神经网络。

以上过程,用矩阵运算的形式表示如下:

【NLP】Transformer_第7张图片

用矩阵表示如下右图所示:

【NLP】Transformer_第8张图片

q1到q4的运算,合起来就是:

【NLP】Transformer_第9张图片

a_hat的矩阵再乘以V,就得到了output的matrix:b1到b4

 【NLP】Transformer_第10张图片

于是整个self-attention的过程合成一个公式,即

以上一系列矩阵运算可以用GPU加速。

补充:

multi-head self-attention

实作时,head的数目是超参,需要自己调整。

每个head保持独立的q、k、v 权重矩阵,也对应产生不同的q、k、v矩阵。每个q只和对应位置的k、v做操作。

【NLP】Transformer_第11张图片

如果使用 8 个头,最终会得到 8 个 bi 矩阵。

对于每个单词来说,前馈层不需要 8 个 bi 矩阵,只需要一个 b。 所以我们需要把这 8 个b矩阵拼接在一起,然后用一个附加权重矩阵Wo与拼接后的矩阵相乘

使用多头机制,可以从两个方面提高注意力层的性能:

1) 扩展了模型专注于不同位置的能力

2)给出了注意力层的多个“表示子空间”

 

Positional encoding

因为attention无法捕获序列的顺序,而词序顺序有时候是非常重要的,如翻译任务中单词顺序变动可能产生完全不同的意思。因此引入position encoding:给每个位置一个编号,每个编号对应一个向量。从而每个词向量都会有一个独特的位置向量。

有不同的位置编码算法,不同算法都需解决能够处理未知长度的序列的问题。

所以对每个ai 加上 ei(位置信息),ei是由人工手动设置的。

 【NLP】Transformer_第12张图片

当然也可以在Xi上直接拼接一段位置信息,但经过word embedding 乘以W 后,效果和对ai 加上ei 是一样的。

Transformer整体结构 

完整的Transformer结构如下

【NLP】Transformer_第13张图片

左边的编码器

【NLP】Transformer_第14张图片

 A:通过word2vec等词嵌入方法将语料从onehot转为的embedding维度的词向量

B:加上位置信息

C:残差连接。Encoder中采用了残差网络中的short-cut结构,可减缓深度学习中的退化问题,即网络越深反而训练精度开始下降。

D:Layer-normalization。

F:全连接网络。两个线性函数,一个ReLu激活函数,公式如下:

 

右边的解码器

【NLP】Transformer_第15张图片

Q 来自于解码器的上一个输出,K 和 V来自于编码器的输出。计算方式与编码器一致。

A:attention计算的内部向量和编码器的输出向量,计算原句和目标句之间的关系

B:线性全连接层,神经元数量和词表长度相等,然后添加softmax层,将概率最高值作为输出。输出后可通过CTC等损失函数训练模型。

C:Masked attention,由于在机器翻译中,解码过程是一个顺序操作过程。即当解码到第K个特征向量时,只能看到 k-1 及其之前的解码结果。这种情况,就叫做masked attention。

解码阶段每个步骤都会输出一个输出序列的元素,接下来重复这个过程,直到到达一个特殊的终止符号。

 https://blog.csdn.net/longxinchen_ml/article/details/86533005

Transformer总结

优点:

1)足够创新,抛弃了NLP中最根本的RNN、CNN并取得了不错的效果

2)任意两个单词的距离是1,对解决NLP中棘手的长期依赖问题非常有效

3)算法并行性非常好

缺点:

1)Transformer失去的位置信息在NLP中很重要,虽然加入了位置向量,但对序列位置要求很高的项目表现不好。

2)Transformer可以一步获得全局信息,但如果项目只需要局部信息呢?虽然也可以得到局部信息,但也会增加许多计算量。

 

 

 https://blog.csdn.net/pipisorry/article/details/84946653

待补充

 

 


学习记录用

 

参考资料:

台大李宏毅老师《机器学习》教程

https://zhuanlan.zhihu.com/p/48508221?utm_source=wechat_session&utm_medium=social&utm_oi=31122683592704

https://blog.csdn.net/longxinchen_ml/article/details/86533005

https://www.jianshu.com/p/e7d8caa13b21

你可能感兴趣的:(【NLP】Transformer)