下面是对《Attention Is All You Need》这篇论文的浅读。
参考文献:
李沐论文带读
HarvardNLP
《哈工大基于预训练模型的方法》
下面是蒟蒻在阅读完这篇论文后做的一些笔记:
为什么会出现“注意力机制”?
基于循环神经网络的序列到序列模型有一个基本假设,就是原始序列的最后一个隐含状态(一个向量)包含了该序列的全部信息。然而,该假设显然不合理,尤其是当序列比较长时,要做到这一点就更困难。为了解决该问题,注意力模型应运而生。
为了解决序列到序列模型记忆长序列能力不足的问题,一个非常直观的想法是:
当要生成一个目标语言单词时,不光考虑前一个时刻的状态和已经生成的单词,还考虑当前要生成的单词和源语言句子中的哪些单词更相关,即更关注源语言的哪些词,这种做法就叫作注意力机制(Attention mechanism)。图4-14给出了一个示例,假设模型已经生成单词“我”后,要生成下一个单词,显然和源语言句子中的“love”关系最大,因此将源语言句子中“love”对应的状态乘以一个较大的权重,如0.6,而其余词的权重则较小,最
终将源语言句子中每个单词对应的状态加权求和,并用作新状态更新的一个额外输入。
式中, h s h_s hs表示源序列中s时刻的状态; h t − 1 h_{t-1} ht−1表示目标序列中前一个时刻的状态;attn是注意力计算公式,即通过两个输入状态的向量,计算一个源序列s时刻的注意力分数 α ^ s \hat \alpha_s α^s; α ^ = [ α ^ 1 , α ^ 2 , ⋯ , α ^ L ] \hat \alpha = [\hat \alpha_1,\hat \alpha_2,\cdots,\hat \alpha_L] α^=[α^1,α^2,⋯,α^L]。其中L为源序列的长度;最后对整个源序列每个时刻的注意力分数使用Softmax函数进行归一化,获得最终的注意力权重 α s \alpha_s αs。
通过引入注意力机制,使得基于循环神经网络的序列到序列模型的准确率有了大幅度的提高。
为什么会出现“自注意力机制”?
受注意力机制的启发,当要表示序列中某一时刻的状态时,可以通过该状态与其他时刻状态之间的相关性(注意力)计算,即所谓的“观其伴、知其义”,这又被称作自注意力机制(Self-attention)。
具体地,假设输入为 n n n个向量组成的序列 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots, x_n x1,x2,⋯,xn,输出为每个向量对应的新的向量表示 y 1 , y 2 , ⋯ , y n y_1,y_2,\cdots, y_n y1,y2,⋯,yn,其中所有向量的大小均为 d d d。那么 y i y_i yi的计算公式为:
式中, j j j是整个序列的索引值; α i j \alpha_{ij} αij是 x i x_i xi与 x j x_j xj之间的注意力(权重),其通过式 (4-26)中的attn函数计算,然后再经过Softmax函数进行归一化后获得。直观上的含义是如果 x i x_i xi与 x j x_j xj越相关,则它们计算的注意力值就越大,那么 x j x_j xj对 x i x_i xi对应的新的表示 y i y_i yi的贡献就越大。
**通过自注意力机制,可以直接计算两个距离较远的时刻之间的关系。**而在循环神经网络中,由于信息是沿着时刻逐层传递的,因此当两个相关性较大的时刻距离较远时,会产生较大的信息损失。虽然引入了门控机制模型,如LSTM等,可以部分解决这种长距离依赖问题,但是治标不治本。因此,基于自注意力机制的自注意力模型已经逐步取代循环神经网络,成为自然语言处理的标准模型。
为什么会出现“Transformer”?
然而,要想真正取代循环神经网络,自注意力模型还需要解决如下问题:
下面分别就这些问题给出相应的解决方案,融合了以下方案的自注意力模型拥有一个非常炫酷的名字——Transformer。
(1)融入位置信息
位置信息对于序列的表示至关重要,原始的自注意力模型没有考虑输入向量的位置信息,导致其与词袋模型类似,两个句子只要包含的词相同,即使顺序不同,它们的表示也完全相同。为了解决这一问题,需要为序列中每个输入的向量引入不同的位置信息以示区分。有两种引入位置信息的方式:
式中, p p p为序列中的位置索引值; 0 ≤ i < d 0\leq i< d 0≤i<d是位置编码向量中的索引值。
无论是使用位置嵌入还是位置编码,在获得一个位置对应的向量后,再与该位置对应的词向量进行相加,即可表示该位置的输入向量。这样即使词向量相同,但是如果它们所处的位置不同,其最终的向量表示也不相同,从而解决了原始自注意力模型无法对序列进行建模的问题。
(2)输入向量角色信息
原始的自注意力模型在计算注意力时直接使用两个输入向量,然后使用得到的注意力对同一个输入向量加权,这样导致**一个输入向量同时承担了三种角色:查询(Query)、 键(Key)和值(Value)。**更好的做法是,对不同的角色使用不同的向量。为了做到这一点,可以使用不同的参数矩阵对原始的输入向量做线性变换,从而让不同的变换结果承担不同的角色。
具体地,分别使用三个不同的参数矩阵 W q , W k , W v W^q,W^k,W^v Wq,Wk,Wv将输入向量 x i x_i xi映射为三个新的向量 q i = W q x i 、 k i = W k x i 、 v i = W v x i q_i=W^qx_i、 k_i=W^kx_i 、v_i=W^vx_i qi=Wqxi、ki=Wkxi、vi=Wvxi,分别表示查询、键和值对应的向量。新的输出向量计算公式为:
式中, α ^ i = [ α ^ i 1 , α ^ i 2 , ⋯ , α ^ i L ] \hat \alpha_i=[\hat \alpha_{i1},\hat \alpha_{i2},\cdots,\hat \alpha_{iL}] α^i=[α^i1,α^i2,⋯,α^iL],其中 L L L为序列的长度。
(3)多层自注意力
原始的自注意力模型仅考虑了序列中任意两个输入序列单元之间的关系,而在实际应用中,往往需要同时考虑更多输入序列单元之间的关系,即更高阶的关系。如果直接建模高阶关系,会导致模型的复杂度过高。
因此,为了增强模型的表示能力,往往在每层自注意力计算之后,增加一个非线性的多层感知器(MLP)模型。另外, 如果将自注意力模型看作特征抽取器,那么多层感知器就是最终的分类器。同时,为了使模型更容易学习,还可以使用层归一化(Layer Normalization)、残差连接(Residual Connections)等深度学习的训练技巧。自注意力层、非线性层以及以上的这些训练技巧,构成了一个更大的Transformer层,也叫作Transformer块(Block),如图4-15所示。
(4)自注意力结果互斥
由于自注意力结果需要经过Softmax归一化,导致即使一个输入和多个其他的输入相关,也无法同时为这些输入赋予较大的注意力值,即自注意力结果之间是互斥的,无法同时关注多个输入。因此,如果能使用多组自注意力模型产生多组不同的注意力结果,则不同组注意力模型可能关注到不同的输入上,从而增强模型的表达能力。
那么如何产生多组自注意力模型呢?方法非常简单,只需要设置多组映射矩阵即可,然后将产生的多个输出向量拼接。为了将输出结果作为下一组的输入,还需要将拼接后的输出向量再经过一个线性映射,映射回d维向量。该模型又叫作多头自注意力(Multi-head Self-attention)模型。 从另一方面理解,多头自注意力机制相当于多个不同的自注意力模型的集成 (Ensemble),也会增强模型的效果。类似卷积神经网络中的多个卷积核,也可以将不同的注意力头理解为抽取不同类型的特征。
以上介绍的Transformer模型可以很好地对一个序列编码。此外,与循环神经网络类似,Transformer也可以很容易地实现解码功能,将两者结合起来,就实现了一个序列到序列的模型,于是可以完成机器翻译等多种自然语言处理任务。解码模块的实现与编码模块基本相同,不过要接收编码模块的最后一层输出作为输入,这也叫作记忆(Memory),另外还要将已经部分解码的输出结果作为输入,如图4-16所示。
与循环神经网络相比,Transformer模型的优点:
与循环神经网络相比,Transformer模型的缺点:
**参数量过于庞大。**每一层的Transformer块大部分参数集中在图4-15中的绿色方框中,即自注意力模型中输入向量的三个角色映射矩阵、多头机制导致相应参数的倍增和引入非线性的多层感知器等。 更主要的是,还需要堆叠多层Transformer块,从而参数量又扩大多倍。最终导致一个实用的Transformer模型含有巨大的参数量。以本书后续章节将要介绍的BERT模型为例, BERT-base含有12层Transformer块,参数量超过1.1亿个,而24层的BERT-large,参数量达到了3.4亿个之多。巨大的参数量导致Transformer模型非常不容易训练,尤其是当训练数据较小时。
因此,为了降低模型的训练难度,基于大规模数据的预训练模型应运而生,这也是本书将要介绍的重点内容。唯此,才能发挥Transformer模型强大的表示能力。
模型实现
新版本的PyTorch(1.2版及以上)实现了Transformer模型。其中,nn.TransformerEncoder实现了编码模块,它是由多层Transformer块构成的,每个块使用TransformerEncoderLayer实现。下面演示具体的示例。
import torch
from torch import nn
# 创建一个Transformer块,每个输入向量、输出向量的维度为4、头数为2
encoder_layer = nn.TransformerEncoderLayer(d_model=4, nhead=2)
# 三个参数分别为 序列的长度、批次大小、每个输入向量的维度
src = torch.rand(2, 3, 4) # [seq_len, batch_size, input_size]
# out向量形状为[2,3,4]
out = encoder_layer(src)
print(out)
然后,可以将多个Transformer块堆叠起来,构成一个完整的nn.TransformerEncoder。
import torch
from torch import nn
# 创建一个Transformer块,每个输入向量、输出向量的维度为4、头数为2
encoder_layer = nn.TransformerEncoderLayer(d_model=4, nhead=2)
# 三个参数分别为 序列的长度、批次大小、每个输入向量的维度
src = torch.rand(2, 3, 4) # [seq_len, batch_size, input_size]
transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)
# out向量形状为[2,3,4]
out = transformer_encoder(src)
print(out)
print(out.shape)
解码模块也类似,TransformerDecoderLayer定义了一个解码模块的Transformer块,通过多层块堆叠构成nn.TransformerDecoder,下面演示具体的调用方式。
memory = transformer_encoder(src)
decoder_layer = nn.TransformerDecoderLayer(d_model=4, nhead=2)
transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)
out_part = torch.rand(2, 3, 4)
out = transformer_decoder(out_part, memory)
# out向量形状为[2,3,4]
print(out)
主流的序列转换模型基于复杂的循环或卷积神经网络,其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,无需循环和卷积。在两项机器翻译任务上的实验表明,这些模型的质量更优,同时可并行化程度更高,所需的训练时间也大大减少。在 WMT 2014 英德翻译任务中,我们的模型达到了 28.4 BLEU,比包括集合在内的现有最佳结果提高了 2 BLEU 以上。在 WMT 2014 英法翻译任务中,我们的模型在 8 个 GPU 上进行了 3.5 天的训练后,取得了 41.8 分的单模型最新 BLEU 分数,这只是文献中最佳模型训练成本的一小部分。我们将 Transformer 成功地应用于英语成分解析,并同时使用大量和有限的训练数据,从而证明 Transformer 可以很好地泛化到其他任务中。
解读
这段论文概括了该论文的主要内容和贡献:
总体上,该论文提出了Transformer作为一个全新的序列转换模型架构,完全基于注意力,结果表明它的质量更优异,训练更高效,且可以很好地泛化到其他NLP任务,是一个划时代的进步。
循环神经网络,尤其是长短期记忆[13]和门控循环[7]神经网络,已被牢固确立为语言建模和机器翻译等序列建模和转译问题的最先进方法[35, 2, 5]。自此以后,许多人继续努力推动循环语言模型和编码器-解码器架构的发展[38, 24, 15]。
循环模型通常沿着输入和输出序列的符号位置进行因子计算。将位置与计算时间的步长对齐,它们会生成隐藏状态 h t h_t ht的序列,作为前一个隐藏状态 h t − 1 h_{t-1} ht−1和位置 t t t的输入的函数。这种固有的序列性质排除了训练实例内的并行化,这在较长的序列长度中变得至关重要,因为内存约束限制了跨实例的批处理。最近的研究通过因式分解技巧[21]和条件计算[32]显著提高了计算效率,同时也改善了后者的模型性能。然而,顺序计算的基本限制仍然存在。
在各种任务中,注意力机制已成为引人注目的序列建模和转换模型的一个组成部分,它可以对依赖关系进行建模,而无需考虑其在输入或输出序列中的距离[2, 19]。然而,除了少数情况[27],这种注意力机制都是与循环网络结合使用的。
在这项工作中,我们提出了 Transformer 模型架构,它摒弃了循环,而是完全依赖注意力机制来绘制输入和输出之间的全局依赖关系。Transformer 可以大大提高并行化程度,在 8 个 P100 GPU 上只需训练 12 个小时,翻译质量就能达到新的水平。
解读
这段论文介绍了使用循环神经网络(尤其是LSTM和GRU)在序列建模和序列转录任务(如语言模型和机器翻译)上的发展历程,以及最新使用注意力机制提升模型性能的研究进展。主要概括如下:
总体上,这段概括总结了循环网络在序列建模中的发展,以及注意力机制的引入带来的突破,以及本文提出的全新的完全依赖注意力的Transformer架构。
减少顺序计算的目标也是 Extended Neural GPU[16]、ByteNet[18]和 ConvS2S[9]的基础,它们都使用卷积神经网络作为基本构建模块,并行计算所有输入和输出位置的隐藏表示。在这些模型中,将两个任意输入或输出位置的信号联系起来所需的运算次数随位置间距离的增加而增加,ConvS2S 是线性增加,ByteNet 是对数增加。这使得学习远距离位置之间的依赖关系变得更加困难[12]。在 Transformer 中,这将被减少到一个恒定的操作数,但代价是由于平均注意力加权位置而降低了有效分辨率,我们在 3.2 节中介绍了多头注意力来抵消这一影响。
Self-attention(有时也称为intra-attention)是一种注意机制,它将单个序列的不同位置联系起来,以计算序列的表征。Self-attention已成功应用于多种任务中,包括阅读理解、抽象概括、文本蕴含和学习与任务无关的句子表征 [4,27,28,22]。
端到端记忆网络基于循环注意力机制,而非序列对齐循环,在简单语言问题解答和语言建模任务中表现出色[34]。
然而,据我们所知,Transformer 是第一个完全依靠自注意力来计算输入和输出表示而不使用序列对齐 RNNs 或卷积的转换模型。在下面的章节中,我们将描述 Transformer,激发自注意力,并讨论它与 [17, 18] 和 [9] 等模型相比的优势。
解读
这段论文主要概括了以下内容:
总之,这段概括阐明了自注意力在多个NLP任务中的应用,以及Transformer如何利用自注意力来克服基于循环或卷积的模型的局限性。
大多数具有竞争力的神经序列转换模型都具有编码器-解码器结构 [5, 2, 35]。在这里,编码器将输入的符号表示序列 ( x 1 , ⋯ , x n ) (x_1,\cdots,x_n) (x1,⋯,xn)映射为连续表示序列 z = ( z 1 , ⋯ , z n ) z=(z_1,\cdots,z_n) z=(z1,⋯,zn)。给定 z z z后,解码器会逐个元素生成一个符号输出序列 ( y 1 , ⋯ , y m ) (y_1,\cdots,y_m) (y1,⋯,ym)。在每一步中,模型都是自回归的[10],在生成下一步时,将先前生成的符号作为额外输入。
Transformer model遵循这种整体架构,图 1 的左半部分和右半部分分别显示了编码器和解码器采用堆叠式自注意力和点式全连接层的整体架构。
Encoder
编码器由 N = 6 层相同的层堆叠组成。每一层都有两个子层。第一个是多头自注意机制,第二个是简单的位置全连接前馈网络。我们在两个子层的每个周围都采用了残差连接[11],然后进行层归一化[1]。也就是说,每个子层的输出都是 L a y e r N o r m ( x + S u b l a y e r ( x ) ) LayerNorm(x + Sublayer(x)) LayerNorm(x+Sublayer(x)),其中 S u b l a y e r ( x ) Sublayer(x) Sublayer(x)是子层本身实现的函数。为了方便这些残差连接,模型中的所有子层以及嵌入层都会产生维数为 d m o d e l = 512 d_{model}=512 dmodel=512的输出。
Decoder
解码器也由 N = 6 层相同的层堆叠组成。除了每个编码器层中的两个子层外,解码器还插入了第三个子层,对编码器堆叠的输出执行多头注意力。与编码器类似,我们在每个子层周围采用残差连接,然后进行层归一化。我们还修改了解码器堆叠中的自注意力子层,以防止位置关注到后续位置。这种掩蔽,结合输出词嵌入偏移一个位置的事实,确保了对位置 i i i的预测只能依赖小于 i i i位置的已知输出。
注意力函数可以描述为将一个查询和一组键值对映射到一个输出,其中查询、键、值和输出都是向量。输出是以值的加权和来计算的,其中分配给每个值的权重是通过查询与相应键的兼容函数来计算的。
我们将这种特殊的注意力称为 “Scaled Dot-Product Attention(缩放点积注意力)”(图 2)。输入包括维度为 d k d_k dk的查询queries 、键keys和维度为 d v d_v dv的值values。我们计算查询与所有键的点积,将每个点积除以 d k \sqrt {d_k} dk,然后应用softmax函数来获得值的权重。
实际上,我们同时对一组查询计算注意力函数,这些查询被打包成一个矩阵 Q Q Q。我们计算的输出矩阵为:
最常用的两种注意力函数是加法注意力[2]和点积(乘法)注意力。点积注意力与我们的算法相同,只是缩放因子为 1 d k \dfrac {1}{\sqrt {d_k}} dk1。加法注意力使用单隐层前馈网络计算相容函数。虽然两者的理论复杂度相似,但点积注意力在实际应用中速度更快,空间效率更高,因为它可以使用高度优化的矩阵乘法代码来实现。虽然在 d k d_k dk值较小的情况下,这两种机制的表现类似,但在 d k d_k dk值较大的情况下,加法注意力在不缩放的情况下优于点积注意力[3]。我们猜测,对于较大的 d k d_k dk值,点积的幅度会越来越大,从而将softmax函数推向梯度极小的区域。为了消除这种影响,我们将点乘缩放 1 d k \dfrac {1}{\sqrt {d_k}} dk1。(论文中的这段解释了为什么要乘上 1 d k \dfrac {1}{\sqrt {d_k}} dk1)
我们发现,与其使用 d m o d e l d_{model} dmodel维度的键、值和查询来执行单一的注意力函数,不如将查询、键和值分别线性投影到 d k , d k , d v d_k,d_k,d_v dk,dk,dv维度,并将不同的已经学习过的线性投影进行 h h h次投影。然后,我们对每个投影版本的查询、键和值并行执行注意力函数,得到 d v d_v dv维度的输出值。(论文中的这段解释了为什么要将 d m o d e l d_{model} dmodel维度的键、值和查询线性投影到 d k , d k , d v d_k,d_k,d_v dk,dk,dv维度)
如图 2 所示,这些值被串联拼接起来并再次投影,从而得到最终值。
多头注意力机制允许模型在不同位置共同关注来自不同表征子空间的信息。而在单头注意力机制的情况下,平均化会抑制这一点。(论文中的这段解释了为什么要使用Multi-head attention而不是single attention head)
在这项工作中,我们采用了 h = 8 h=8 h=8个并行注意力层,或称为 “头”。其中,我们使用 d k = d v = d m o d e l / h = 64 d_k=d_v=d_{model}/h=64 dk=dv=dmodel/h=64。由于减少了每个头的维度,总计算成本与全维度的单头注意力相似。
Transformer 模型以三种不同的方式使用多头注意力:
除了注意力子层外,我们的编码器和解码器中的每一层都包含一个全连接的前馈网络,该网络分别对每个位置进行相同的处理。这包括两个线性变换,中间有一个 ReLU 激活。
虽然不同位置的线性变换相同,但各层使用的参数不同。另一种描述方法是两个内核大小为1的卷积。输入和输出的维度为 d m o d e l = 512 d_{model}=512 dmodel=512,内层的维度为 d f f = 2048 d_{ff}=2048 dff=2048。
与其他序列转换模型类似,我们使用学习到的嵌入将输入标记和输出标记转换为维数为 d m o d e l d_{model} dmodel。我们还使用通常的学习线性变换和 softmax 函数将解码器输出转换为预测的下一个标记概率。在我们的模型中,我们在两个嵌入层和pre-softmax最大线性变换之间共享相同的权重矩阵,这与 [30] 相似。在嵌入层中,我们将这些权重乘以 d m o d e l \sqrt {d_{model}} dmodel。
**由于我们的模型不包含循环和卷积,为了让模型能够利用序列的顺序,我们必须注入一些关于序列中标记的相对或绝对位置的信息。为此,我们在编码器和解码器堆叠底部的输入嵌入层中添加了 “位置编码”。位置编码的维度 d m o d e l d_{model} dmodel与嵌入层的维度相同,因此两者可以相加。**位置编码有多种选择,包括学习编码和固定编码 [9]。(论文中的这段解释了为什么我们需要在词嵌入层中添加位置编码,以及为什么位置编码可以直接同词嵌入相加)
在这项工作中,我们使用了不同频率的正弦和余弦函数:
其中, p o s pos pos是位置, i i i是维数。也就是说,位置编码的每个维度对应一个正弦波。波长形成一个从 2 π 2\pi 2π到 10000 ⋅ 2 π 10000\cdot 2\pi 10000⋅2π的几何级数。我们之所以选择这个函数,是因为我们假设它可以让模型轻松地学习到相对位置,因为对于任何固定的偏移 k k k, P E p o s + k PE_{pos+k} PEpos+k都可以表示为 P E p o s PE_{pos} PEpos的线性函数(论文中的这段解释了为什么选择这样的函数去计算位置编码)
我们还尝试用学习到的位置嵌入[9]来代替,结果发现两个版本产生的结果几乎相同(见表 3 (E)行)。我们之所以选择正弦波版本,是因为它可以让模型推断出比训练时遇到的序列长度更长的序列。(论文中的这段解释了为什么选择正弦波版本)
解读
这篇论文中Model Architecture部分主要概括了Transformer模型架构的详细设计,括以下几点:
总体而言,这部分详细构建了Transformer的编码器-解码器架构,其独特之处在于完全依赖自注意力来学习全局依赖,并有效融入序列信息,从而克服RNN/CNN模型的局限,为更好地并行化和建模长程依赖提供可能。
在本节中,我们将比较自注意层与循环层和卷积层的各个方面,后者通常用于将一个可变长度的符号表示序列 ( x 1 , ⋯ , x n ) (x_1,\cdots, x_n) (x1,⋯,xn)映射到另一个等长序列 ( z 1 , ⋯ , z n ) (z_1,\cdots, z_n) (z1,⋯,zn),其中 x i , z i ∈ R d x_i,z_i\in \R ^{d} xi,zi∈Rd,例如典型序列转换编码器或解码器中的隐藏层。我们使用自注意力的动机有三个。
一个是每层的总计算复杂度。另一个是可并行化的计算量,以所需的最小顺序运算次数来衡量。
第三是网络中长距离依赖关系之间的路径长度。学习长程依赖关系是许多序列转换任务的关键挑战。影响学习此类依赖关系能力的一个关键因素是前向和后向信号在网络中必须穿越的路径长度。输入和输出序列中任意位置组合之间的路径越短,学习远距离依赖关系就越容易[12]。因此,我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。
如表 1 所示,自注意层连接所有位置的连续操作数不变,而循环层则需要 O ( n ) O(n) O(n)次连续操作。就计算复杂度而言,当序列长度 n n n小于表示维度 d d d时,自注意层的计算速度要快于循环层,机器翻译中最先进的模型所使用的句子表示,如单词片[38]和字节对[31]表示,通常就是这种情况。为了提高涉及超长序列任务的计算性能,可以限制自注意力只考虑输入序列中以相应输出位置为中心的大小为 r r r的邻域。这将把最大路径长度增加到 O ( n / r ) O(n/r) O(n/r)。我们计划在今后的工作中进一步研究这种方法。
核宽 k < n k
作为附带的好处,自注意力可以产生更多可解释的模型。我们从模型中检查了注意力分布,并在附录中介绍和讨论了一些例子。各个注意力头不仅明显学会执行不同的任务,而且许多注意力头似乎还表现出与句子的句法和语义结构有关的行为。
解读
这篇论文中Why Self-Attention部分主要从以下几个方面阐释了自注意力层的优势:
综上,自注意力机制在计算效率、并行化程度和建模远距离依赖方面都优于RNN和CNN,更适合作为序列转录任务的基本组成模块,这是Transformer选择自注意力的原因。
本节将介绍我们模型的训练机制。
我们在标准的 WMT 2014 英德数据集上进行了训练,该数据集包含约 450 万个句子对。句子使用字节对编码[3]进行编码,其中有大约 37000 个共享的源目标词汇。对于英语-法语,我们使用了规模更大的 WMT 2014 英语-法语数据集,该数据集包含 3600 万个句子,并将标记拆分为 32000 个词块词汇[38]。句子对按近似序列长度分组。每个训练批包含一组句子对,其中包含约 25000 个源词块和 25000 个目标词块。
我们在一台配备 8 个英伟达 P100 GPU 的机器上训练模型。对于我们的基础模型,使用本文所述的超参数,每个训练步骤耗时约 0.4 秒。我们总共训练了 100,000 步或 12 个小时的基础模型。对于我们的大型模型(如表 3 底行所述),每步训练时间为 1.0 秒。大型模型的训练时间为 300,000 步(3.5 天)。
我们使用了Adam优化器[20], β 1 = 0.9 , β 2 = 0.98 \beta_1=0.9, \beta_2=0.98 β1=0.9,β2=0.98和 ϵ = 1 0 − 9 \epsilon = 10^{-9} ϵ=10−9。在训练过程中,我们根据公式改变学习率:
这相当于在第一个warmup_steps训练步数中线性增加学习率,此后学习率按步数的平方反比例递减。我们使用的是 warmup_steps = 4000。
我们在训练中使用三种类型的正则化:
Residual Dropout
我们将dropout [33]应用于每个子层的输出,然后再将其添加到子层输入中并进行归一化处理。此外,我们将dropout应用于编码器和解码器堆叠中的词嵌入层和位置编码层之和。在基础模型中,我们使用 P d r o p = 0.1 P_{drop}=0.1 Pdrop=0.1的比率。
Label Smoothing
在训练过程中,我们采用了值 ϵ l s = 0.1 \epsilon_{ls} = 0.1 ϵls=0.1的标签平滑[36]。这降低了困惑度,因为这样做会增加模型的不确定性,但却提高了准确度和 BLEU 得分。
在 WMT 2014 英译德翻译任务中,大Transformer模型(表 2 中的Transformer(big))的 BLEU 值比之前报道的最佳模型(包括集合)高出 2.0 以上,达到了 28.4 的新的最先进 BLEU 值。该模型的配置见表 3 底行。在 8 个 P100 GPU 上的训练耗时 3.5 天。即使是我们的基本模型,也超越了之前发布的所有模型和集合,而训练成本只是任何竞争模型的一小部分。
在 WMT 2014 英语到法语的翻译任务中,我们的大模型获得了 41.0 的 BLEU 分数,超过了之前发布的所有单一模型,而训练成本还不到之前最先进模型的 1/4。为英译法而训练的 Transformer(大)模型使用了 P d r o p = 0.1 P_{drop}=0.1 Pdrop=0.1,而不是 0.3。
对于基本模型,我们使用的是通过平均最近 5 个检查点得到的单一模型,这些检查点以 10 分钟的间隔写入。对于大型模型,我们取最后 20 个检查点的平均值。我们使用波束搜索,波束大小为 4,长度惩罚 α = 0.6 \alpha=0.6 α=0.6[38]。这些超参数是在开发集上实验后选择的。我们将推理过程中的最大输出长度设定为输入长度 + 50,但尽可能提前终止推理 [38]。
表 2 总结了我们的结果,并将我们的翻译质量和训练成本与文献中的其他模型架构进行了比较。我们通过将训练时间、使用的 GPU 数量和每个 GPU 的持续单精度浮点运算能力的估计值相乘,估算出训练一个模型所使用的浮点运算次数。
为了评估 Transformer 不同组件的重要性,我们以不同方式改变了基础模型,测量了开发集 newstest2013 上英译德性能的变化。我们使用了上一节所述的波束搜索,但没有使用检查点平均法。表 3 列出了这些结果。
如 3.2.2 节所述,在表 3 行(A)中,我们改变了注意力头的数量以及注意力键和值的维度,但计算量保持不变。虽然单头注意力比最佳设置差 0.9 BLEU,但注意力头数过多也会导致质量下降。
在表 3 行(B)中,我们发现减小注意力的大小 d k d_k dk会降低模型质量。这表明,确定兼容性并不容易,比点积更复杂的兼容性函数可能更有益处。在第(C)行和第(D)行中,我们进一步观察到,正如我们所预期的那样,模型越大越好,而 dropout 对避免过度拟合很有帮助。在第(E)行中,我们用学习到的位置嵌入[9]替换了正弦位置编码,观察到的结果与基础模型几乎完全相同。
为了评估Transformer是否能推广到其他任务,我们进行了英语成分解析实验。这项任务具有特殊的挑战性:输出结果受到强大的结构约束,而且比输入结果要长得多。此外,RNN 序列到序列模型在小数据环境下也无法达到最先进的结果 [37]。
我们在宾夕法尼亚大学树库(Penn Treebank)[25] 中的《华尔街日报》(WSJ)部分(约 4 万个训练句子)上训练了 d m o d e l = 1024 d_{model}=1024 dmodel=1024的 4 层Transformer。我们还在半监督环境下使用更大的高置信度语料库和 BerkleyParser 语料库(约有 177 个句子)[37]对其进行了训练。在仅使用 WSJ 的情况下,我们使用了 16K 个词组的词汇量,而在半监督情况下,我们使用了 32K 个词组的词汇量。
我们仅在第 22 节开发集上进行了少量实验,以选择dropout,注意力和残差(第 5.4 节)、学习率和波束大小,所有其他参数均与英译德基础翻译模型保持一致。在推理过程中,我们将最大输出长度增加到输入长度 + 300。在仅 WSJ 和半监督设置中,我们使用的波束大小均为 21, α = 0.3 \alpha=0.3 α=0.3。
表 4 中的结果表明,尽管缺乏针对特定任务的调整,但我们的模型表现出人意料的好,其结果优于除循环神经网络语法 [8] 以外的所有以前报道过的模型。
与 RNN 序列到序列模型[37]相比,Transformer 的表现优于 BerkeleyParser [29],即使仅在由 40K 个句子组成的 WSJ 训练集上进行训练也是如此。
解读
这篇论文中的Result部分报告了在机器翻译任务上的实验结果,主要概括如下:
总之,Result部分全面报告了Transformer在机器翻译任务取得的显著进步,超过多种先前模型,并分析了各组件的作用,证明了该架构的有效性。
在这项工作中,我们提出了 “Transformer”,这是第一个完全基于注意力的序列转换模型,用多头自我注意力取代了编码器-解码器架构中最常用的循环层。
在翻译任务中,Transformer 的训练速度明显快于基于循环层或卷积层的架构。在 WMT 2014 英译德和 WMT 2014 英译法翻译任务中,我们都达到了新的技术水平。在前一项任务中,我们的最佳模型甚至优于之前报告的所有集合。
我们对基于注意力的模型的未来充满期待,并计划将其应用于其他任务。我们计划将 Transformer 扩展到涉及文本以外的输入和输出模式的问题上,并研究局部的、受限的注意力机制,以有效处理大型输入和输出,如图像、音频和视频。我们的另一个研究目标是减少生成的顺序。
我们用于训练和评估模型的代码可在github上获取。
先解读一下**class Transformer(Module)**
这个类。
在PyTorch实现的Transformer源码中:
class Transformer(Module):
下面是对__init()__
方法的解读:
这段代码是构造Transformer模型的初始化方法。它包含以下几个部分:
所以这段代码主要工作是构造transformer模型的编码器和解码器,同时提供了使用自定义编码器和解码器的接口。它初始化了transformer模型最核心的组成部分。
下面是对forward()
方法的解读:
这段代码实现了Transformer的前向传播逻辑。详细解读如下:
其中:
mask相关参数用于指定在注意力计算时哪些位置不参与Softmax运算。key_padding_mask用于指定哪些key在注意力计算时被遮蔽。
总之,这段代码实现了Transformer的基本流程,并进行了必要的输入合法性检查。
下面是对**class TransformerEncoderLayer(Module)**
这个类的解读:
先来对__init__()
方法进行解读:
再来对forward()
方法进行解读:
再对forward()
方法进行解读:
先来对__init()__
方法进行解读:
下面对self-attention block
进行解读:
下面对Encoder-Decoder attention进行解读:
先来对__init__()
方法进行解读:
再来对forward()
方法进行解读:
以上是本篇博客的主要内容,欢迎点赞+关注~