十分钟读完 Transformer 经典论文- Attention is all you need

打破传统束缚!全新神经网络架构Transformer,用自注意力机制颠覆序列转换模型

引言:自注意力机制的崛起

在过去的几年中,序列转换模型的领域一直由基于复杂的循环神经网络(RNN)或卷积神经网络(CNN)的架构所主导。这些模型通常包含一个编码器(encoder)和一个解码器(decoder),并且最优秀的模型还会通过注意力机制将编码器和解码器连接起来。然而,这种架构的一个主要缺点是它们的计算是按照输入和输出序列的符号位置顺序进行的,这种固有的序列性质限制了模型在训练样本内部的并行化能力。随着序列长度的增加,内存约束限制了跨样本的批处理能力,这在长序列处理中变得尤为关键。

注意力机制的引入为模型提供了一种不受输入或输出序列距离限制的依赖关系建模方式,它已经成为多种序列建模和转换任务中不可或缺的一部分。然而,在大多数情况下,注意力机制都是与循环网络结合使用的。为了克服这些限制,研究者们提出了一种全新的网络架构——Transformer,它完全基于注意力机制,彻底摒弃了循环和卷积操作。Transformer模型不仅在质量上超越了现有的最佳模型,而且由于其更高的并行化能力,训练时间大幅缩短。

Transformer模型在两项机器翻译任务上的实验表明,它们在质量上更为优越,同时更加可并行化,并且训练所需时间显著减少。该模型在WMT 2014英德翻译任务上达到了28.4 BLEU分数,比现有最佳结果(包括集成模型)提高了超过2 BLEU。在WMT 2014英法翻译任务上,该模型在训练3.5天后,仅使用八个GPU,就创造了新的单模型最佳BLEU分数41.8,这只是文献中最佳模型训练成本的一小部分。此外,Transformer模型在英语成分句法分析任务上的应用也证明了其良好的泛化能力,无论是在大规模训练数据还是有限训练数据的情况下都取得了成功。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

论文标题、机构、论文链接和项目地址**

  • 论文标题:Attention Is All You Need
  • 机构:Google Brain, Google Research, University of Toronto
  • 论文链接:https://arxiv.org/pdf/1706.03762.pdf
  • 项目地址:https://github.com/tensorflow/tensor2tensor

转型者:Transformer模型架构介绍

1. 编码器和解码器的堆叠结构

Transformer模型是一种新型的神经网络架构,它完全基于注意力机制,摒弃了传统的递归和卷积结构。在Transformer中,编码器和解码器都是由多个相同的层堆叠而成,每个层都包含了自注意力机制和前馈全连接网络。编码器由N=6个这样的层组成,每层都有两个子层:一个多头自注意力机制和一个简单的逐位置的全连接前馈网络。解码器同样由N=6个层组成,除了编码器层中的两个子层外,解码器还增加了第三个子层,用于对编码器的输出进行多头注意力处理。为了保持信息流的一致性,编码器和解码器中的每个子层都采用了残差连接,随后是层归一化操作。

2. 自注意力机制的核心作用

自注意力机制,也称为内部注意力,是一种将单个序列的不同位置联系起来以计算序列表示的机制。在Transformer模型中,自注意力允许模型在不考虑输入或输出序列中依赖关系的距离的情况下,捕捉全局依赖关系。这种机制使得模型能够并行处理数据,显著提高了训练效率。

3. 多头注意力:并行处理的创新

多头注意力是Transformer的一个创新点,它将查询、键和值通过不同的线性投影,分别映射到不同的表示子空间中。然后,模型并行地在这些投影后的版本上执行注意力函数,得到不同子空间的输出值。这些输出值被拼接起来,并通过另一个线性投影得到最终的输出。通过这种方式,多头注意力允许模型在不同位置联合处理来自不同表示子空间的信息,从而更好地捕捉序列内的多样性信息。

自注意力与传统RNN和CNN的比较

1. 计算复杂性的对比

自注意力层的计算复杂度与序列长度n和表示维度d有关。与传统的递归层相比,当序列长度n小于表示维度d时,自注意力层的计算更快。与卷积层相比,自注意力层加上逐点前馈层的组合在计算上更为高效,尤其是当使用可分离卷积时,复杂度可以大幅降低。

2. 并行化能力的分析

自注意力层的一个显著优势是其并行化能力。与递归网络结构相比,自注意力层可以在执行少量序列操作的情况下连接所有位置,这大大减少了必须顺序执行的操作数量,从而使得并行化成为可能。这一点对于长序列数据的处理尤为重要,因为它可以显著减少训练时间。

3. 长距离依赖的路径长度问题

在学习序列转换任务中的长距离依赖关系时,网络中输入和输出位置之间的路径长度是一个关键因素。自注意力层通过常数数量的操作连接所有位置,从而提供了最短的路径长度。相比之下,递归层需要O(n)的序列操作,而卷积层则需要O(n/k)或O(logk(n))的层堆叠来连接所有输入和输出位置对。因此,自注意力层在学习长距离依赖方面具有明显的优势。

Transformer模型的实验验证

1. 训练数据和批处理方法

在Transformer模型的实验验证中,训练数据采用了标准的WMT 2014英德数据集,包含约450万个句子对。这些句子通过字节对编码(byte-pair encoding)进行编码,共享源语言和目标语言的词汇表大约有37000个词条。对于英法翻译任务,使用了更大的WMT 2014英法数据集,包含3600万句子,并将词条分割成32000个单词片段的词汇表。在批处理方面,句子对根据大致的序列长度进行批次组合,每个训练批次包含了大约25000个源语言词条和25000个目标语言词条。

2. 硬件配置和训练时间表

Transformer模型在一台配备了8个NVIDIA P100 GPU的机器上进行训练。对于基础模型,每个训练步骤大约需要0.4秒,总共训练了100,000步,即大约12小时。对于更大的模型,每个训练步骤需要1.0秒,总共训练了300,000步,即3.5天。

3. 优化器选择和学习率调整

在优化器的选择上,使用了Adam优化器,参数设置为β1=0.9,β2=0.98,ϵ=10^-9。学习率在训练过程中进行了调整,遵循以下公式:在前warmup_steps训练步骤中线性增加学习率,之后按照步骤数的平方根的倒数进行减少。这里的warmup_steps设置为4000。

4. 正则化技术的应用

为了正则化,模型在每个子层的输出上应用了dropout,然后再将其加到子层输入并进行归一化。此外,在编码器和解码器堆栈中,对嵌入和位置编码的总和也应用了dropout。对于基础模型,dropout率设置为Pdrop=0.1。在训练过程中,还采用了标签平滑技术,其值为ϵls=0.1,这虽然增加了困惑度,但提高了准确性和BLEU分数。

翻译任务上的突破性成果

1. 英德翻译任务的新记录

在WMT 2014英德翻译任务中,大型Transformer模型(表2中的Transformer (big))比之前报道的最佳模型(包括集成模型)提高了2.0以上的BLEU分数,创下了28.4的新记录。该模型的配置在表3的底部列出。训练耗时3.5天,使用了8个P100 GPU。即使是基础模型也超过了所有之前发布的模型和集成模型,并且训练成本只是竞争模型的一小部分。

2. 英法翻译任务的显著提升

在WMT 2014英法翻译任务中,大型模型实现了41.0的BLEU分数,超过了所有之前发布的单一模型,并且训练成本不到之前最先进模型的四分之一。用于英法翻译的Transformer (big)模型使用的dropout率为Pdrop=0.1,而不是0.3。

模型变体的探索与分析

1. 注意力头数量的影响

在探索Transformer模型变体时,注意力头的数量对模型性能有显著影响。在实验中,研究者们保持计算量不变,改变了注意力头的数量。结果显示,使用单个注意力头的模型在BLEU评分上比最佳设置低了0.9分,而过多的注意力头也会导致性能下降。这表明在选择合适的注意力头数量时,需要在模型容量和性能之间找到平衡点。

2. 键值尺寸对模型质量的影响

键值尺寸(dk)对模型的质量同样有重要影响。减少键值尺寸会损害模型的质量,这暗示了确定查询和键之间的兼容性并非易事,可能需要比简单的点积更复杂的兼容性函数。这一发现强调了在设计模型时,键值尺寸的选择对于模型性能至关重要。

3. 大模型与Dropout的效果

在Transformer模型的变体中,大型模型和Dropout技术的应用也被证明是有效的。大型模型在性能上通常优于基础模型,而Dropout则有助于防止过拟合。例如,在WMT 2014英德翻译任务中,大型Transformer模型(使用Dropout率为0.1)在BLEU评分上达到了28.4,超过了之前所有模型,包括集成模型。这一结果表明,适当的正则化技术对于维持模型的泛化能力至关重要。

Transformer模型在其他任务上的泛化能力

1. 英语成分句法分析的应用

Transformer模型不仅在机器翻译任务上表现出色,还成功地泛化到了英语成分句法分析任务。在这项任务中,输出受到强烈的结构约束,且通常比输入长得多。研究者们在Wall Street Journal (WSJ) 数据集上训练了一个4层的Transformer模型,模型表现出色,超过了之前所有的模型,除了Recurrent Neural Network Grammar。这一成果证明了Transformer模型在处理结构化输出方面的潜力。

2. 小数据和半监督学习环境下的性能

在小数据集和半监督学习环境下,Transformer模型同样展现了良好的性能。使用WSJ数据集的40K训练句子,Transformer模型的表现超过了BerkeleyParser。在半监督学习设置中,使用了大约1700万句高置信度数据,模型的表现进一步提升。这些实验结果表明,Transformer模型能够有效地利用有限的数据,并且在半监督学习环境下仍能保持较高的性能水平。

结论与未来展望

1. Transformer模型的总结

Transformer模型,作为一种新型的网络架构,完全基于注意力机制,摒弃了递归和卷积操作。这种设计使得模型在处理序列转换任务时,能够显著提高并行化程度,并缩短训练时间。在机器翻译任务上,Transformer模型不仅在质量上超越了以往的模型,还创造了新的最佳成绩,例如在WMT 2014英德翻译任务上达到了28.4 BLEU分数,在英法翻译任务上则达到了41.8 BLEU分数。此外,Transformer模型还表现出良好的泛化能力,成功应用于英语成分句法分析任务。

Transformer的核心是自注意力机制,它允许模型在不考虑输入和输出序列中元素位置的情况下,捕捉全局依赖关系。这种机制通过多头注意力的形式实现,每个头处理不同的表示子空间,从而能够同时关注序列中不同位置的信息。此外,Transformer还引入了位置编码,以补健模型中缺失的顺序信息,使得模型能够理解序列中的顺序关系。

2. 对未来研究方向的期待

尽管Transformer模型已经取得了显著的成就,但未来的研究仍有广阔的空间。首先,研究者们期待将Transformer应用于除文本之外的其他输入和输出模态,如图像、音频和视频。这可能涉及到对模型的结构进行调整,以适应不同类型数据的特性。

其次,对于处理大规模输入和输出的能力,未来的工作可能会探索局部或受限的注意力机制。这样的机制可以在不牺牲性能的前提下,有效地处理更长的序列。

此外,生成过程的非序列化也是一个值得探索的方向。目前的生成模型大多是自回归的,即一次生成一个元素。研究如何减少生成过程中的顺序依赖,可能会进一步提高模型的效率和灵活性。

最后,Transformer模型的可解释性也是一个重要的研究领域。尽管注意力机制本身提供了一定程度的可视化和解释能力,但如何更好地理解和解释模型的决策过程,仍然是一个开放的问题。

综上所述,Transformer模型开辟了序列建模和转换的新途径,未来的研究将继续拓展其应用范围,提高其性能,以及增强其可解释性。随着研究的深入,我们有理由相信,注意力机制将在人工智能领域扮演越来越重要的角色。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

你可能感兴趣的:(transformer,深度学习,人工智能,机器学习,语言模型,大模型)