Transformer 最初是作为机器翻译的序列到序列模型提出的,而后来的研究表明,基于 Transformer 的预训练模型(PTM) 在各项任务中都有最优的表现。因此,Transformer 已成为 NLP 领域的首选架构,尤其是 PTM。除了语言相关的应用,Transformer 还被用于 CV、音频处理,甚至是化学和生命科学。由于取得了成功,过去几年研究者又提出了各种 Transformer 变体(又名 X-former)。这些 X-former 主要从以下三个不同的角度改进了最初的 Vanilla Transformer
模型效率。应用 Transformer 的一个关键挑战是其处理长序列时的效率低下
,这主要是由于自注意力
(self-attention)模块的计算和内存复杂度
。改进的方法包括轻量级 attention(例如稀疏 attention 变体)和分而治之的方法(例如循环和分层机制);
模型泛化。由于 Transformer 是一种灵活的架构,并且对输入数据的结构偏差几乎没有假设,因此很难在小规模数据上进行训练。改进方法包括引入结构偏差或正则化,对大规模未标记数据进行预训练等;
模型适配。这一系列工作旨在使 Transformer 适应特定的下游任务和应用程序。
Vanilla Transformer 是一个序列到序列的模型,由一个编码器和一个解码器组成,二者都是相同的块 组成的堆栈。每个编码器块主要由一个多头 self-attention 模块和一个位置前馈网络(FFN)组成。为了构建更深的模型,每个模块周围都采用了残差连接,然后是层归一化模块。
Vanilla Transformer 的整体架构如下图所示:
通常有三种不同的方式使用 Transformer 架构:
使用编码器 - 解码器,通常用于序列到序列建模,例如神经机器翻译;
仅使用编码器,编码器的输出用作输入序列的表示,通常用于分类或序列标记问题;
仅使用解码器,其中也移除了编码器 - 解码器 cross-attention 模块,通常用于序列生成,例如语言建模。
Self-attention 在 Transformer 中非常重要,但在实际应用中存在两个挑战:
复杂度。self-attention 的复杂度为 O ( T 2 ⋅ D ) O(T^2·D) O(T2⋅D)。因此,attention 模块在处理长序列时会遇到瓶颈;
结构先验。Self-attention 对输入没有假设任何结构性偏差,甚至指令信息也需要从训练数据中学习。因此,无预训练的 Transformer 通常容易在中小型数据集上过拟合。
Attention 机制的改进可以分为以下几个方向:
稀疏 attention。将稀疏偏差引入 attention 机制可以降低了复杂性;
线性化 attention。解开 attention 矩阵与内核特征图,然后以相反的顺序计算 attention 以实现线性复杂度;
原型和内存压缩。这类方法减少了查询或键值记忆对的数量,以减少注意力矩阵的大小;
低阶 self-Attention。这一系列工作捕获了 self-Attention 的低阶属性;
Attention 与先验。该研究探索了用先验 attention 分布来补充或替代标准 attention;
改进多头机制。该系列研究探索了不同的替代多头机制。
在标准的 self-attention 机制中,每个 token 都需要 attend 所有其他的 token。
然而,据观察,对于经过训练的 Transformer,学习到的 attention 矩阵 A 在大多数数据点上通常非常稀疏。因此,可以通过结合结构偏差来限制每个查询 attend 的查询键对的数量来降低计算复杂度。
从另一个角度来看,标准 attention 可以被视为一个完整的二部图,其中每个查询从所有内存节点接收信息并更新其表示。而稀疏 attention 可以看成是一个稀疏图,其中删除了节点之间的一些连接。
基于位置的稀疏:
基于位置的稀疏 attention 之一是原子稀疏 attention,如下图所示主要有五种模式。彩色方块表示计算的 attention 分数,空白方块表示放弃的 attention 分数。
而另一种基于位置的稀疏 attention 是复合稀疏 attention,下图显示了其五种主要模式,其中红色框表示序列边界。
除了上述模式,一些现有的研究已经针对特定数据类型探索了扩展稀疏模式。
还有一些视觉数据的扩展。Image Transformer 探索了两种类型的 attention:
视觉数据稀疏模式的另一个例子,Axial Transformer 在图像的每个轴
上应用独立的 attention 模块。每个 attention 模块沿一个轴混合信息,同时保持另一个轴的信息独立,如上图 © 所示。这可以理解为按光栅扫描顺序水平和垂直展平图像像素,然后分别应用具有图像宽度和高度间隙的跨步 attention。
层归一化 ( Layer Normalization, LN) 以及残差连接被认为是一种稳定深度网络训练的机制(如减轻不适定梯度和模型退化)。
在 Vanilla Transformer 中,LN 层位于残差块之间,被称为 post-LN
。
后来的 Transformer 实现将 LN 层放在 attention 或 FFN 之前的残差连接内,在最后一层之后有一个额外的 LN 来控制最终输出的大小,即 pre-LN
。Pre-LN 已被许多后续研究和实现所采用。pre-LN 和 post-LN 的区别如下图所示。
与大多数神经模型一样,Vanilla Transformer 使用固定(学习的)计算程序来处理每个输入。一个有趣且有发展潜力的修改是使计算时间以输入为条件,即在 Transformer 模型中引入自适应计算时间(Adaptive Computation Time, ACT)。
如下图 12(a-)所示,Universal Transformer (UT) 结合了深度循环(recurrence-over-depth)机制,该机制使用一个在深度上共享的模块来迭代地改进所有符号的表示;
图 12(b)中,Conditional Computation Transformer (CCT) 在每个自注意力和前馈层添加一个门控模块来决定是否跳过当前层;
图 12(c)中,与 UT 中使用的动态停机机制类似,有一条工作线专门用于调整每个输入的层数以实现良好的速度 - 准确率权衡,这称为「提前退出机制」(early exit mechanism)。
自注意力对序列长度的二次复杂度会显著限制一些下游任务的性能。
循环
和层级 Transformer
循环Transformer:
在循环 Transformer 中,维护一个高速缓存(cache memory)
用来合并历史信息。在处理一段文本时,该网络从缓存中的读取作为额外输入。处理完成后,网络通过简单地复制隐藏状态或使用更复杂的机制来写入内存。
层级 Transformer:
层级 Transformer 将输入分层分解为更细粒度的元素。
低级特征首先被馈入到 Transformer 编码器,产生输出表示,然后使用池化或其他操作来聚合以形成高级特征,然后通过高级 Transformer 进行处理。
xTransformer综述论文链接