“芝麻街”喜添新成员——Big bird

“芝麻街”喜添新成员——Big bird

0. 背景

题目:
Big Bird: Transformers for Longer Sequences
机构:Google Research
作者:Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed
论文地址:https://arxiv.org/abs/2007.14062

摘要

当下号称地表最强的NLP模型都基于Transformer,但Transformer的全注意力机制带来的序列长度二次依赖问题导致这些模型处理长文本时候显得黔驴技穷(主要是内存消耗太多了)。为解决序列长度二次依赖限制这个问题,且保持原有网络的表现力和灵活性,Google Research提出Big Bird,其核心是使用稀疏注意力机制将二次依赖降至线性。文中证明Big Bird是一个通用的序列函数近似器且是图灵完备的,从而能够保持二次全注意力模型的性质。另外,图灵完备也就意味着,一切可以计算的问题,Big Bird都能计算,理论上,它能够用来解决任何算法。
在相同的硬件配置下,Big Bird所能够处理的序列长度是BERT的8倍。由于能够处理较长的上下文,Big Bird在多个NLP任务数据集如问答和文本摘要上取得了SOTA的结果。比如Big Bird 在 TriviaQA上的最新排名:
“芝麻街”喜添新成员——Big bird_第1张图片

Big Bird 架构

由于BERT使用的是完全的自注意力机制,即每个token都需要attend到其他每个token,所以内存消耗就是序列长度的二次方。Big Bird模型中引入了通用化的注意力(即稀疏注意力机制)将二次依赖降至线性。Big Bird中的注意力机制主要有3个方面:
(1)Random attention,即随机注意力。每个query token随机attend到 r 个 token,比如 当 r=2,则会得到稀疏的attention。
(2)Sliding window attention,即局部注意力。一个token会attend到窗口大小为w(w=3)的token,这与Longformer使用局部滑动窗口mask降低计算量从而使BERT能够处理更长的序列很类似。
(3)Global attention,即全局注意力。使用Global tokens进行全局的attend。Global tokens会attend到全部的token,同时全部的token也会attend到这些Global tokens。这些Global tokens的定义有两种方式:ITC(internal transformer construction)和ETC(extended transformer construction)。ITC选用现有的一些token作为“global” token,而ETC则是通过添加一些token(比如 CLS) 作为
“global” token。
“芝麻街”喜添新成员——Big bird_第2张图片

Figure 1中的白色区域表示没有attention。(a)r=2的random attention,(b)w=3的sliding window attention, ©g=2的 global attention, (d)Big Bird中联合使用的注意力
从下图Table 1 可以看出无论是单一采用随机注意力机制、局部注意力机制,还是二者结合的方式,都没有三者联合的效果好。换句话说,随机+局部+全局的注意力机制融合,能够最大程度上接近BERT-base的各项指标。
“芝麻街”喜添新成员——Big bird_第3张图片
PS:整体来说,Big Bird和 Longformer 或者 ETC模型还是很类似的。

实验结果

使用文中的稀疏注意力机制能够处理的文本长度是BERT的8倍。以下是在各个NLP数据集上的实验结果。

Pretraining & MLM

使用MLM目标进行预训练,从Table 3的结果可以看出,Big Bird和 Longformer表现均优于RoBERTa。
“芝麻街”喜添新成员——Big bird_第4张图片

问答任务:

各模型在问答任务的dev数据集上的表现如 Table 4所示。可以看出,在各个任务数据集的各项指标上,BigBird的两个模型都优于与RoBERTa和Longformer。
“芝麻街”喜添新成员——Big bird_第5张图片

在对模型进行微调后,在Test数据集上的对比结果如 Table 5所示。BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。需要指出的是这里的Big Bird是单模型,而Natural Questions任务排行榜top 3模型是多个模型集成的结果。
“芝麻街”喜添新成员——Big bird_第6张图片

一句话,BigBird-ETC在问答任务上技压群雄。

文本分类任务

长文档分类实验效果如 Table 6所示。可以看出训练样本量较少时,Big Bird效果提升更显著。比如对于Arxiv数据集Big Bird能够高出此前最优结果5%。
“芝麻街”喜添新成员——Big bird_第7张图片

文本摘要任务

Big Bird在文本摘要任务中的实验结果如 Table 8所示。
“芝麻街”喜添新成员——Big bird_第8张图片

看到了吗, 天马模型(Pegasus)加持BigBird之后简直逆天,再次刷爆了新记录,地表最强,没有之一。

最后,文中还秀了一波Big Bird在基因组数据处理方面的效用,极具潜力。

总结:

BigBird模型中使用稀疏注意机制,使得二次依赖问题降为线性。此外BigBird满足了一些理论结果:(1)是序列函数的普遍逼近器(2)也是图灵完备的。BigBird在一些NLP任务上比如问答和文本摘要上刷新了记录。进一步介绍将基于注意力的上下文语言模型应用到NDA中的效果,在对模型微调,可以实现诸如启动子区域预测和非编码变异的预测等下游任务。

你可能感兴趣的:(文献阅读,语言模型,NLP,人工智能,nlp)