Self-Attention和transformer的一些笔记

来源:Attention机制详解(二)——Self-Attention与Transformer - 知乎

直观理解

self-attention利用attention的机制,计算每一个输入单词与其他所有输入单词之间的关联。

例如在翻译“I arrived at the bank after crossing the river”的时候,当我们翻译到bank河岸的时候,river就会有较高的Attention Score。利用这些Attention score就可以得到一个加权的表示,然后再放到一个前馈神经网络中得到新的表示,这一表示很好的考虑到上下文的信息。

Self-Attention和transformer的一些笔记_第1张图片

Transformer模型的整体结构

下面的图均来自来源文档

Self-Attention和transformer的一些笔记_第2张图片

这里面Multi-head Attention其实就是多个Self-Attention结构的结合,每个head学习到在不同表示空间中的特征,如下图所示,两个head学习到的Attention侧重点可能略有不同,这样给了模型更大的容量。

(用多个self-attention来把握住尽可能多的特征,给模型更强大的泛化能力)

Self-Attention和transformer的一些笔记_第3张图片

Self-Attention详解

self-attention的基本结构如下  (以下是来源的原文)

Self-Attention和transformer的一些笔记_第4张图片

对于self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,首先我们要计算Q与K之间的点乘,然后为了防止其结果过大,会除以一个尺度标度,其中为一个query和key向量的维度。再利用Softmax操作将其结果归一化为概率分布,然后再乘以矩阵V就得到权重求和的表示。该操作可以表示为。这里可能比较抽象,我们来看一个具体的例子(图片来源于https://jalammar.github.io/illustrated-transformer/,该博客讲解的极其清晰,强烈推荐),假如我们要翻译一个词组Thinking Machines,其中Thinking的输入的embedding vector用表示,Machines的embedding vector用表示。

(Q表示当前的x,K表示输入单词中的所有单词,包括x本身,V表示一个权重矩阵)

Self-Attention和transformer的一些笔记_第5张图片

当我们处理Thinking这个词时,我们需要计算句子中所有词与它的Attention Score,这就像将当前词作为搜索的query,去和句子中所有词(包含该词本身)的key去匹配,看看相关度有多高。我们用 代表Thinking对应的query vector, 分别代表Thinking以及Machines对应的key vector,则计算Thinking的attention score的时候我们需要计算 的点乘,同理,我们计算Machines的attention score的时候需要计算的点乘。

(点乘得出两者的欧氏距离,看距离的远近来得出相关性的高低)

如上图中所示我们分别得到了 与 的点乘积,然后我们进行尺度缩放与softmax归一化,如下图所示:

Self-Attention和transformer的一些笔记_第6张图片

显然,当前单词与其自身的attention score一般最大,其他单词根据与当前单词重要程度有相应的score。然后我们在用这些attention score与value vector相乘,得到加权的向量。

Self-Attention和transformer的一些笔记_第7张图片

如果将输入的所有向量合并为矩阵形式,则所有query, key, value向量也可以合并为矩阵形式表示

Self-Attention和transformer的一些笔记_第8张图片

其中 是我们模型训练过程学习到的合适的参数。上述操作即可简化为矩阵形式

Self-Attention和transformer的一些笔记_第9张图片

而multihead就是我们可以有不同的Q,K,V表示,最后再将其结果结合起来,如下图所示:

Self-Attention和transformer的一些笔记_第10张图片

这就是基本的Multihead Attention单元,对于encoder来说就是利用这些基本单元叠加,其中key, query, value均来自前一层encoder的输出,即encoder的每个位置都可以注意到之前一层encoder的所有位置。

对于decoder来讲,我们注意到有两个与encoder不同的地方,一个是第一级的Masked Multi-head,另一个是第二级的Multi-Head Attention不仅接受来自前一级的输出,还要接收encoder的输出,下面分别解释一下是什么原理。

Self-Attention和transformer的一些笔记_第11张图片

第一级decoder的key, query, value均来自前一层decoder的输出,但加入了Mask操作,即我们只能attend到前面已经翻译过的输出的词语,因为翻译过程我们当前还并不知道下一个输出词语,这是我们之后才会推测到的。

而第二级decoder也被称作encoder-decoder attention layer,即它的query来自于之前一级的decoder层的输出,但其key和value来自于encoder的输出,这使得decoder的每一个位置都可以attend到输入序列的每一个位置

总结一下,k和v的来源总是相同的,q在encoder及第一级decoder中与k,v来源相同,在encoder-decoder attention layer中与k,v来源不同。

(在encoder与第一次decoder中k,v来源是由前面递进过来的,而在encoder-decoder attention layer中k,v需要结合前面encoder的输出)

其他细节

这里为了更好的让模型学习位置信息,所以添加了position encoding并将其叠加在word embedding上。

论文中选取了三角函数的encoding方式,其他方式也可以,该研究组最近还有relation-aware self-attention机制,可参考这篇论文[1803.02155] Self-Attention with Relative Position Representations。

Self-Attention和transformer的一些笔记_第12张图片

模型中dd & Norm模块的作用

Self-Attention和transformer的一些笔记_第13张图片

其中Add代表了Residual Connection,是为了解决多层神经网络训练困难的问题,通过将前一层的信息无差的传递到下一层,可以有效的仅关注差异部分

Self-Attention和transformer的一些笔记_第14张图片

而Norm则代表了Layer Normalization,通过对层的激活值的归一化,可以加速模型的训练过程,使其更快的收敛。

源码解读部分看来源文章。

你可能感兴趣的:(自然语言处理,transformer,深度学习,自然语言处理)