Sparse Transformers

1 简介

本文根据2019年《Generating Long Sequences with Sparse Transformers》翻译总结的。文中提出了Sparse Transformers,即稀疏Transformers。

通过将完整的注意力计算分成多个快速的注意力操作(当他们结合时,近似于密集注意力操作)。我们使用这种方法将自注意力机制应用到前所未有的序列长度。

此外,我们引入了对transformer的其他几个改变:
一个重建的残差模块和权重初始化来改善深度神经网络的训练;
一组稀疏注意力核有效的计算注意力矩阵子集。
在向后传输时注意力权重的重计算来减少内存的使用。

在这里插入图片描述

2 背景

主要讲自回归模型,如下面公式,前i-1个元素预测第i个元素,模型θ的一个简单有力的选择的是transformer 解码器(其对将来元素掩码) :
Sparse Transformers_第1张图片

3 Factorized Self-Attention

在这里插入图片描述

Sparse Transformers_第2张图片

下面我们主要考虑p=2的情况,即两维Factorized Attention。

3.1 两维Factorized Attention

下图的a是全自注意力。下图b、c是两维Factorized Attention。两维Factorized Attention是其中一个头关注前面l个位置,另一个头关注每个第l位置。我们考虑了下面两种情况,分别是strided attention,fixed attention。strided attention有步长l。公式不是太好理解,从下图b、c大体能看出来strided attention,fixed attention的样子吧。

Sparse Transformers_第3张图片

4 Sparse Transformer

Sparse transformer的一个残差模块示意图如下:
Sparse Transformers_第4张图片

Sparse Transformers_第5张图片

4.1 扩展到几百层

Sparse Transformers_第6张图片

4.2 不同数据类型建模

Sparse Transformers_第7张图片

5 实验

从下表可以看出来sparse transformer的效果超越了以前的模型。在文本、图片、语音都表现好。
Sparse Transformers_第8张图片

从下表可以看出来sparse transformer的运行速度很快。

Sparse Transformers_第9张图片

你可能感兴趣的:(transformer,人工智能,深度学习,人工智能,自然语言处理)