NLP预训练模型综述

文章目录

  • 文章
  • 介绍
  • 背景
    • 2.1语言表示学习
      • 非上下文词嵌
    • 2.2 神经上下文编码器
      • 2.2.1 序列模型s
      • 2.2.2 非序列模型
      • 2.2.3 分析
    • 2.3 为什么预训练?
    • 2.4 NLP的PTMs的历史
      • 2.4.1 第一代PTM:预先训练的词嵌入将单词表示为密集的矢量已有很长的历史[60]。
      • 2.4.2 第二代PTM:预训练的上下文编码器
  • 3. PTMs总览
    • 3.1 预训练任务
      • 3.1.1 LM
      • 3.1.2 掩码语言模型(MLM)
      • 3.1.3 置换语言建模
      • 3.1.4 去噪自动编码器
      • 3.1.3 对比学习(CTL)
        • Deep InfoMax (DIM)
        • 替换令牌检测(RTD)
        • Next Sentence Prediction (NSP)
        • Sentence Order Prediction (SOP)
      • 3.1.6 其它
    • 3.2 (Taxonomy of PTMs)PTMs的分类
    • 3.3模型分析
      • 3.3.1 非上下文嵌入
      • 3.3.2 上下文嵌入
        • Linguistic Knowledge语言知识
        • 世界知识
  • 4.PTMs扩展
    • Knowledge-Enriched PTMs
    • 4.2多语言和特定语言的PTM
      • 4.2.1多语言PTM
        • 跨语言理解(XLU)
        • 跨语言生成(XLG)
      • 4.2.2 特定语言的PTMs
    • 4.3 多模PTMs
      • 视频-文本PTMs
      • 4.3.2 图像-文本PTMs
      • 4.3.3 音频-文本PTMs
    • 4.4特定领域和任务特定的PTM
    • 4.5 模型压缩
      • 4.5.1 模型修剪
      • 4.5.2 量化
      • 4.5.3 参数共享
      • 知识蒸馏
      • 4.5.5 模型替换
      • 4.5.6 其它
  • 5. 使PTM适应下游任务
    • 5.1 迁移学习
    • 5.2 怎样迁移?
      • 5.2.1 选择适当的预训练任务,模型架构和语料库
      • 5.2.2 选择合适的层
      • 5.2.3 调还是不调?
    • 5.3 微调策略
        • 两阶段精调
        • 多任务微调
        • 使用额外的适配模块进行细调
        • 其他
  • 6. PTMs的资源
  • 7. 应用
    • 7.1 一般评估基准
    • 7.2 问答
    • 7.3 情感分析
    • 7.4 命名实体识别
    • 7.5 机器翻译
    • 7.6 综述
    • 7.7 对抗攻击与防御
  • 8. 未来方向
        • (1)PTM的上限
        • (2)PTM的体系结构
        • (3)面向任务的预训练和模型压缩
        • (4)超越微调的知识转移
        • (5)PTM的可解释性和可靠性
  • 9 结论
  • 参考文献

文章

Pre-trained Models for Natural Language Processing: A Survey

介绍

随着深度学习的发展,各种神经网络已广泛用于解决自然语言处理(NLP)任务,例如卷积神经网络(CNN)[80,86,49],递归神经网络(RNN) [173,109],基于图的神经网络(GNN)[159,174,124]和注意力机制[7,184]。 这些神经模型的优点之一是它们减轻特征工程问题的能力。 非神经NLP方法通常很大程度上依赖于离散的手工特征,而神经方法通常使用低维和密集向量(又称为分布式表示)来隐式表示语言的语法语义特征。 这些表示是在特定的NLP任务中学习的。 因此,神经方法使人们易于开发各种NLP系统。

尽管用于NLP任务的神经模型取得了成功,但与计算机视觉(CV)领域相比,性能改进的重要性可能不那么明显。 主要原因是大多数受监督的NLP任务的当前数据集很小(机器翻译除外)。 深度神经网络通常具有大量参数,这使它们过度适合这些小的训练数据,并且不能很好地推广实践。 因此,许多NLP任务的早期神经模型相对较浅,通常仅包含1-3个神经层。

最近,大量的工作表明,大型语料库上的预训练模块(PTM)可以学习通用语言表示,这对于下游NLP任务很有帮助,并且可以避免从头开始训练新模型。 随着计算能力的发展,深层模型(即Transformer [184])的出现以及培训技能的不断提高,PTM的体系结构已经从浅层发展到深层。 第一代PTM可以学习良好的单词嵌入。 由于下游任务不再需要这些模块本身,因此对于计算效率而言,它们通常很浅,例如,Skip-Gram [129]和GloVe [133]。 尽管这些预先训练的嵌入可以捕获单词的语义,但是它们没有上下文,也无法捕获上下文中的高级概念,例如多义歧义消除,句法结构,语义角色,回指。 第二代PTM专注于学习上下文词嵌入,例如CoVe [126],ELMo [135],OpenAI GPT [142]和BERT [36]。 下游任务仍然需要这些学习过的编码器来表示上下文中的单词。 此外,还提出了各种预训练任务来学习PTM,以用于不同的目的。

这项调查的贡献可以总结如下:

  • 全面审查。我们为NLP提供PTM的全面审查,包括背景知识,模型架构,预培训任务,各种扩展,适应方法和应用
  • 新的分类法。我们为NLP提出了PTM的分类法,该分类法从四个不同的角度对现有的PTM进行了分类:1)表示类型,2)模型体系结构; 3)预训练任务的类型; 4)特定类型场景的扩展。
  • 丰富的资源。我们在PTM上收集了丰富的资源,包括PTM的开源实现,可视化工具,语料库和论文清单。
  • 未来方向。我们讨论并分析现有PTM的局限性。 此外,我们建议可能的未来研究方向。

其余的调查安排如下。 第2节概述了PTM的背景概念和常用符号。 第3节简要概述了PTM,并阐明了PTM的分类。 第4节提供了PTM的扩展。 第5节讨论如何将PTM的知识转移到下游任务。 第6节提供了有关PTM的相关资源。 第7节介绍了各种NLP任务中的应用程序集合。 第8节讨论了当前的挑战并提出了未来的方向。 第9节总结了论文。

背景

2.1语言表示学习

正如Bengio等人所建议的。 [13],一个好的表示应该表达不是特定于任务的通用先验,但是对于学习机解决AI任务可能很有用。 在语言方面,一个好的表述应该捕捉隐藏在文本数据中的隐含语言规则和常识知识,例如词汇含义,句法结构,语义角色,甚至语用学。
分布式表示的核心思想是通过低维实值向量来描述一段文本的含义。 向量的每个维度没有相应的意义,而整体则代表一个具体的概念。 图1说明了NLP的通用神经体系结构。 词嵌入有两种:非上下文嵌入和上下文嵌入。 它们之间的区别在于,单词的嵌入是否根据其出现的上下文而动态变化。
NLP预训练模型综述_第1张图片

非上下文词嵌

表示语言的第一步是将离散的语言符号映射到分布式嵌入空间中。 形式上,对于词汇表V中的每个单词(或子单词)x,我们将其映射到具有查找表E∈RDe×| V |的向量e_x∈RDe,其中De是指示令牌嵌入维数的超参数。 这些嵌入连同其他模型参数一起在任务数据上训练。
这种嵌入有两个主要限制。
第一个问题是嵌入是静态的。 单词的嵌入与上下文无关,总是相同的。 因此,这些非上下文嵌入无法建模多义词。 第二个问题是语外问题。 为了解决这个问题,字符级单词表示或子单词表示被广泛用于许多NLP任务中,例如CharCNN [87],FastText [14]和Byte-Pair Encoding(BPE)[154]。
上下文嵌入为了解决多义性和单词的上下文相关性质的问题,我们需要区分不同上下文中单词的语义。 给定一个文本x1,x2,…,xT,其中每个标记xt∈V是一个单词或子单词,则xt的上下文表示取决于整个文本。
在这里插入图片描述
其中fenc(·)是神经编码器(在2.2节中进行了描述),由于其中包含上下文信息,因此ht被称为令牌xt的上下文嵌入或动态嵌入。

NLP预训练模型综述_第2张图片

2.2 神经上下文编码器

大多数神经上下文编码器可以分为两类:序列模型和基于图的模型。图2说明了这些模型的体系结构。

2.2.1 序列模型s

序列模型通常按顺序捕获单词的局部上下文。
卷积模型卷积模型将单词嵌入到输入句子中,并通过卷积运算汇总来自邻居的局部信息来捕获单词的含义[86]。
递归模型递归模型捕获具有短记忆的单词的上下文表示,例如LSTM [64]和GRU [23]。 在实践中,双向LSTM或GRU用于从单词的两侧收集信息,但是其性能通常受长期依赖性问题的影响。

2.2.2 非序列模型

非序列模型通过单词之间的预定义树或图结构(例如语法结构或语义关系)来学习上下文表示。 一些流行的非序列模型包括递归神经网络[159],TreeLSTM [174、222]和GCN [88]。
尽管语言感知图结构可以提供有用的归纳偏差,但是如何构建良好的图结构也是一个具有挑战性的问题。 此外,该结构在很大程度上取决于专家知识或外部NLP工具,例如依赖项解析器。
完全连接的自我注意模型在实践中,一种更直接的方法是使用完全连接的图对每两个单词的关系进行建模,并让模型自己学习结构。 通常,连接权重是通过自我关注机制动态计算的,它自动隐含了单词之间的联系。 完全连接的自我注意模型的成功实例是Transformer [184],它还需要其他补充模块,例如位置嵌入,层归一化,残差连接和位置方式前馈网络(FFN)层。

2.2.3 分析

序列模型学习具有局部偏差的单词的上下文表示,并且很难捕获单词之间的远程交互。 但是,序列模型通常易于训练,并且可以针对各种NLP任务获得良好的结果。
相比之下,作为实例化的全连接自我注意模型,Transformer可以直接对序列中每两个单词之间的依赖关系进行建模,这更强大并且更适合对语言的长期依赖关系进行建模。
但是,由于其笨重的结构和较少的模型偏差,因此Transformer通常需要较大的训练语料库,并且容易在较小或中等大小的数据集上进行拟合[142,53]。
目前,由于其强大的功能,Transformer已成为PTM的主流体系结构。

2.3 为什么预训练?

随着深度学习的发展,模型参数的数量迅速增加。 要完全训练模型参数并防止过度拟合,需要更大的数据集。 但是,由于注释成本极其昂贵,因此对于大多数NLP任务而言,构建大规模的标记数据集是一项巨大的挑战,特别是对于语法和语义相关的任务。
相反,大规模的未标记语料库相对容易构建。 为了利用巨大的未标记文本数据,我们可以首先从中学习良好的表示形式,然后将这些表示形式用于其他任务。 最近的研究表明,借助于从大型无注释语料库中的PTM提取的表示形式,许多NLP任务的性能都有显着提高。
预训练的优势可以总结如下:

  • 1.在庞大的文本语料库上进行预培训可以学习通用的语言表示形式,并帮助完成下游任务。

  • 2.预训练提供了更好的模型初始化,通常可以带来更好的泛化性能并加快目标任务的收敛速度。

  • 3.可以将预训练视为一种正则化,以避免对小数据过度拟合[43]。

2.4 NLP的PTMs的历史

预训练一直是学习深度神经网络参数的有效策略,然后对下游任务进行微调。 早在2006年,深度学习的突破就出现了贪婪的逐层无监督预训练,然后是有监督的微调[62]。 在CV中,实际上已经在庞大的ImageNet语料库上对模型进行了预训练,然后在较小的数据上进行微调以完成不同的任务。 这比随机初始化好得多,因为该模型可以学习一般的图像特征,然后可以将其用于各种视觉任务。
在NLP中,从浅层词嵌入到深层神经模型,大型语料库上的PTM还被证明对下游NLP任务有益。

2.4.1 第一代PTM:预先训练的词嵌入将单词表示为密集的矢量已有很长的历史[60]。

在神经网络语言模型(NNLM)的开创性工作中引入了“现代”词嵌入[12]。 Collobert等。 [26]表明,将预训练词嵌入到未标记的数据上可以显着改善许多NLP任务。
为了解决计算复杂性,他们使用成对排名任务而不是语言建模来学习单词嵌入。 他们的工作是从未标记的数据中获得对其他任务有用的通用词嵌入的第一次尝试。
Mikolov等。 [129]表明没有必要使用深度神经网络来构建良好的单词嵌入。 他们提出了两种浅层架构:连续词袋(CBOW)和Skip-Gram(SG)模型。 尽管它们很简单,但是他们仍然可以学习高质量的词嵌入,以捕获词之间潜在的句法和语义相似性。 Word2vec是这些模型中最流行的实现之一,并使NLP中的不同任务可以访问经过预训练的单词嵌入。 此外,GloVe [133]也是一种广泛使用的模型,用于获取预训练词嵌入,该词嵌入是通过从大型语料库中进行的全局词-词共现统计来计算的。
尽管已显示出预训练的单词嵌入在NLP任务中有效,但它们与上下文无关,并且大多由浅层模型训练。 当用于下游任务时,整个模型的其余部分仍需要从头开始学习。
在同一时期,许多研究人员还尝试学习段落,句子或文档的嵌入,例如段落向量[96],跳过思想向量[89],Context2Vec [127]。 与现代继任者不同,这些句子嵌入模型尝试将输入的句子编码为固定维的矢量表示形式,而不是每个标记的上下文表示形式。

2.4.2 第二代PTM:预训练的上下文编码器

由于大多数NLP任务都超出单词级别,因此很自然地将神经编码器预训练为句子级别或更高级别。 神经编码器的输出向量也称为上下文词嵌入,因为它们根据其上下文表示单词语义。
Dai和Le [30]提出了NLP的第一个成功的PTM实例。 他们用语言模型(LM)或序列自动编码器初始化了LSTM,发现预训练可以改善LSTM在许多文本分类任务中的训练和泛化。 刘等。 [109]用LM预训练了共享LSTM编码器,并在多任务学习(MTL)框架下对其进行了微调。 他们发现预训练和微调可以进一步提高MTL在某些文本分类任务中的性能。 Ramachandran等。 [146]发现通过无监督的预训练可以显着改善Seq2Seq模型。 编码器和解码器的权重均使用两种语言模型的预训练权重进行初始化,然后使用标记数据进行微调。 除了用LM预训练上下文编码器外,McCann等人。
[126]从带有机器翻译(MT)的注意序列到序列模型中预先训练了一个深LSTM编码器。
预训练编码器输出的上下文向量(CoVe)可以改善各种常见NLP任务的性能。
由于具有这些前体PTM,因此通常会使用更大的语料库,更强大或更深入的架构(例如Transformer)以及新的预训练任务来训练现代PTM。
彼得斯等。 [135]具有双向语言模型(BiLM)的预训练2层LSTM编码器,由前向LM和后向LM组成。 预训练的BiLM ELMo(语言模型的嵌入)输出的上下文表示显示出对各种NLP任务的改进。 Akbik等。 [1]通过使用字符级LM预训练的上下文字符串嵌入来捕获单词的含义。 但是,这两个PTM通常用作特征提取器来生成上下文词嵌入,这些词嵌入到下游任务的主模型中。 固定了它们的参数,并且仍从头开始训练主要模型的其余参数。
ULMFiT(通用语言模型微调)[67]尝试微调用于文本分类(TC)的预训练LM,并在六个广泛使用的TC数据集上取得了最新的结果。 ULMFiT包含三个阶段:1)在通用域数据上进行LM预训练; 2)对目标数据进行微调; 3)对目标任务进行微调。 ULMFiT还研究了一些有效的微调策略,包括判别式微调,倾斜的三角形学习率和逐渐解冻。
最近,非常深入的PTM在学习通用语言表示中表现出了强大的能力:例如,OpenAI GPT(生成式预训练)[142]和BERT(来自变压器的双向编码器表示)[36]。
除了LM外,还提出了越来越多的自我监督任务(请参阅第3.1节),以使PTM从大型文本语料库中获取更多知识。
自从ULMFiT和BERT以来,微调已成为使PTM适应下游任务的主流方法。

3. PTMs总览

PTM之间的主要区别是上下文编码器的用法,预训练任务和目的。 在第2.2节中,我们简要介绍了上下文编码器的体系结构。 在本节中,我们重点介绍预训练任务,并给出PTM的分类法。

3.1 预训练任务

预培训任务对于学习语言的通用表示形式至关重要。 通常,这些预培训任务应具有挑战性,并具有大量的培训数据。 在本节中,我们将预训练任务概括为三类:监督学习,无监督学习和自我监督学习。

1.监督学习(SL)是要学习一种功能,该功能基于包含输入输出对的训练数据将输入映射到输出。
2.无监督学习(UL)是从未标记的数据中找到一些内在知识,例如聚类,密度,潜在表示。
3.自我监督学习(SSL)是监督学习和非监督学习的结合1)。 SSL的学习范式与监督学习完全相同,但是训练数据的标签是自动生成的。 SSL的关键思想是以某种形式预测来自其他部分的输入的任何部分。 例如,掩蔽语言模型(MLM)是一种自我监督的任务,它试图在给定其余单词的情况下预测句子中的掩蔽词。

在CV中,许多PTM都是在大型监督训练集(如ImageNet)上训练的。 但是,在NLP中,大多数受监督任务的数据集不足以训练一个好的PTM。
唯一的例外是机器翻译(MT)。 大规模的MT数据集WMT 2017由超过700万个句子对组成。 此外,MT是NLP中最具挑战性的任务之一,经过MT培训的编码器可以受益于各种下游NLP任务。 作为成功的PTM,CoVe [126]是针对MT任务进行预训练的编码器,可改进各种常见的NLP任务:情感分析(SST,IMDb),问题分类(TREC),蕴涵性(SNLI)和问题回答 (队)。
在本节中,我们将介绍一些在现有PTM中广泛使用的预培训任务。 我们可以将这些任务视为自我监督学习。 表1还总结了它们的损失函数。

3.1.1 LM

NLP中最常见的无监督任务是概率语言建模(LM),这是一个经典的概率密度估计问题。 尽管LM是一个通用概念,但在实践中,LM通常特别是指自回归LM或单向LM。
NLP预训练模型综述_第3张图片
NLP预训练模型综述_第4张图片给定一个庞大的语料库,我们可以使用最大似然估计(MLE)训练整个网络。

单向LM的一个缺点是每个令牌的表示仅编码向左上下文令牌及其本身。 但是,更好的文本上下文表示应从两个方向对上下文信息进行编码。改进的解决方案是双向LM(BiLM),它由两个单向LM组成:向前的从左到右的LM和向后的从右到左的LM。 对于BiLM,Baevski等人[6]提出了一个两塔模型,即前塔操作左向右LM,而后塔操作右向左LM。
NLP预训练模型综述_第5张图片

3.1.2 掩码语言模型(MLM)

掩码语言建模(MLM)是由Taylor [178]在文献中首次提出的,他将其称为Cloze任务。
Devlin等。 [36]将该任务改编为一种新颖的预训练任务,以克服标准单向LM的缺点。
松散地说,MLM首先从输入语句中屏蔽掉一些标记,然后训练模型以预测其余标记所掩盖的标记。 但是,这种预训练方法会在预训练阶段和微调阶段之间产生不匹配,因为在微调阶段没有出现掩码标记。 为了解决这个问题,Devlin等人从经验上讲。 [36]在80%的时间内使用特殊的[MASK]令牌,在10%的时间内使用随机令牌,在10%的时间内使用原始令牌进行屏蔽。
序列到序列MLM(Seq2Seq MLM)MLM通常作为分类问题解决。 我们将被屏蔽的序列馈送到神经编码器,其输出向量被进一步馈送到softmax分类器中以预测被屏蔽的令牌。
或者,我们可以为MLM使用编码器-解码器(也称为序列到序列)体系结构,在该体系结构中,编码器被提供了屏蔽序列,而解码器以自回归的方式顺序生成屏蔽令牌。 我们将这种MLM称为序列到序列MLM(Seq2Seq MLM),用于MASS [160]和T5 [144]。 Seq2Seq MLM可以受益于Seq2Seq样式的下游任务,例如问题解答,摘要和机器翻译。
增强的屏蔽语言建模(E-MLM)同时,有许多研究提出了不同的MLM增强版本来进一步改进BERT。 RoBERTa [117]代替了静态屏蔽,通过动态屏蔽改进了BERT。
UniLM [39,8]在三种类型的语言建模任务上扩展了掩码预测的任务:单向,双向和序列到序列的预测。 XLM [27]在称为翻译语言建模(TLM)的平行双语句子对的串联上执行MLM。 SpanBERT [77]用随机连续词掩蔽和跨度边界目标(SBO)代替了MLM,以将结构信息集成到预训练中,这要求系统根据跨度边界来预测掩蔽的跨度。 此外,StructBERT [193]引入了跨度顺序恢复任务以进一步整合语言结构。
丰富MLM的另一种方法是整合外部知识(请参阅第4.1节)。

3.1.3 置换语言建模

尽管在预训练中广泛使用MLM任务,但Yang等人。 [209]声称,当模型应用于下游任务时,MLM的预训练中使用的某些特殊标记(如[MASK])将不存在,从而导致预训练和微调之间存在差距。 为了克服这个问题,置换语言建模(PLM)[209]是取代MLM的预训练目标。 简而言之,PLM是一种对输入序列进行随机排列的语言建模任务。 从所有可能的排列中随机采样排列。 然后,将排列序列中的一些标记选择为目标,然后训练模型以预测这些目标,具体取决于标记的其余部分和目标的自然位置。 请注意,这种排列不会影响序列的自然位置,只会定义标记预测的顺序。 实际上,由于收敛速度较慢,仅预测了置换序列中的最后几个标记。 并针对目标感知表示引入了特殊的两流自我注意。

3.1.4 去噪自动编码器

去噪自动编码器(DAE)采用部分损坏的输入,旨在恢复原始的未失真输入。 特定于语言的序列到序列模型(例如标准的Transformer)用于重构原始文本。 有几种方法可以破坏文本[100]:

(1)令牌屏蔽:从输入中随机采样令牌,并将其替换为[MASK]元素。
(2)令牌删除:从输入中随机删除令牌。 与令牌屏蔽不同,该模型需要确定缺失输入的位置。
(3)文本填充:与SpanBERT一样,许多文本跨度也被采样并替换为单个[MASK]标记。 每个跨度长度均来自泊松分布(λ= 3)。 该模型需要预测跨度中缺少多少个令牌。
(4)句子排列:根据句号将文档分为多个句子,并以随机顺序将这些句子关闭。
(5)文件轮换:随机地均匀选择一个令牌并旋转文件,以使其从该令牌开始。 该模型需要标识文档的实际开始位置。

3.1.3 对比学习(CTL)

对比学习[153]假设观察到的某些文本对在语义上比随机采样的文本更相似。 学习文本对(x,y)的得分函数s(x,y)以最小化目标函数:
NLP预训练模型综述_第6张图片

在这里插入图片描述
CTL背后的想法是“通过比较学习”。 与LM相比,CTL通常具有较少的计算复杂性,因此是PTM的理想替代训练标准。
Collobert等。 [26]提出了成对排序任务,以区分真假短语。 该模型需要预测合法短语的得分要比通过用随机单词替换其中心单词而获得的不正确短语更高的分数。
Mnih和Kavukcuoglu [131]使用噪声对比估计(NCE)[55]有效地训练了词的嵌入,后者训练了一个二元分类器来区分真实样本和假样本。
NCE的思想也用于著名的word2vec嵌入[129]。
我们在以下段落中简要介绍了一些最近提出的CTL任务。

Deep InfoMax (DIM)

Deep InfoMax(DIM)[63]最初是针对图像而提出的,它通过最大化图像表示与图像局部区域之间的互信息来提高表示的质量。
NLP预训练模型综述_第7张图片

替换令牌检测(RTD)

替换令牌检测(RTD)与NCE相同,但在给定其周围上下文的情况下,它会预测是否替换了令牌。
带有负采样的CBOW(CBOW-NS)[129]可以看作是RTD的简单版本,其中通过简单的建议分布从词汇表中随机抽取负采样。
ELECTRA [24]通过利用生成器替换序列的某些标记来改进RTD。 发电机G和鉴别器D的训练遵循两个步骤:(1)仅训练具有MLM任务的发电机n1步; (2)用发生器的重量初始化鉴别器的重量。 然后用判别任务训练判别器n2步,保持G冻结。 在此,判别任务指示是否有理由用G替换输入令牌。 生成器在经过预训练后被抛出,只有鉴别器将在下游任务上进行微调。
RTD还是解决不匹配问题的替代解决方案。 在预训练期间,网络会看到[MASK],但在下游任务中进行微调时却看不到。
类似地,WKLM [202]在实体级别而不是令牌级别替换单词。 具体而言,WKLM用相同类型的其他实体的名称替换实体提及,并训练模型以区分该实体是否已被替换。

Next Sentence Prediction (NSP)

标点符号是文本数据的自然分隔符。 因此,利用它们来构建预训练方法是合理的。 下一句预测(NSP)[36]就是一个很好的例子。 顾名思义,NSP训练模型以区分两个输入句子是否是训练语料的连续片段。 具体来说,当为每个预训练示例选择句子对时,有50%的时间,第二个句子是第一个句子的实际下一个句子,而有50%的时间,它是语料库中的随机句子。 通过这样做,它能够教导模型理解两个输入句子之间的关系,从而受益于对这些信息敏感的下游任务,例如问题回答和自然语言推理。
但是,NSP任务的必要性已经受到后续工作的质疑[77,209,117,93]。 杨等。
[209]发现NSP任务的影响是不可靠的,而Joshi等人。 [77]发现没有NSP损失的单句训练优于具有NSP损失的句子对训练。
此外,刘等。 [117]对NSP任务进行了进一步分析,结果表明,在训练单个文档中的文本块时,消除NSP损失匹配项或略微提高了下游任务的性能。

Sentence Order Prediction (SOP)

为了更好地模拟句子连贯性,ALBERT [93]用句子顺序预测(SOP)损失代替了NSP损失。 正如兰等人的推测。 [93],NSP在单个任务中包含主题预测和一致性预测。 因此,允许模型仅依靠较容易的任务即主题预测来进行预测。
与NSP不同,SOP使用同一文档中的两个连续段作为肯定示例,而使用相同的两个连续段,但顺序互换为否定示例。 因此,ALBERT在各种下游任务上始终优于BERT。
StructBERT [193]和BERTje [33]也将SOP作为他们的自我监督学习任务。

3.1.6 其它

除上述任务外,还有许多其他辅助的预培训任务,这些任务旨在吸收事实知识(请参阅第4.1节),改进跨语言任务(请参阅第4.2节),多模式应用程序(请参阅第4.3节)或其他特定的任务。 任务(请参阅第4.4节)。

3.2 (Taxonomy of PTMs)PTMs的分类

为了阐明NLP中现有PTM的关系,我们建立了PTM的分类法,从四个不同的角度对现有PTM进行了分类:1.表示类型:根据用于下游任务的表示,我们可以将PTM分为非上下文和上下文 楷模。
2.体系结构:PTM使用的骨干网,包括LSTM,Transformer编码器,Transformer解码器和完整的Transformer体系结构。 “变压器”是指标准的编码器-解码器体系结构。 “ Transformer编码器”和“ Transformer解码器”分别表示标准Transformer体系结构的编码器和解码器部分。 它们的不同之处在于,解码器部分使用带有三角矩阵的蒙版自我注意来防止令牌进入其未来(正确)位置。
3.预培训任务类型:PTM使用的预培训任务的类型。 我们已经在3.1节中讨论了它们。
4.扩展:针对各种情况而设计的PTM,包括知识丰富的PTM,多语言或语言特定的PTM,多模型PTM,领域特定的PTM和压缩的PTM。 我们将在第4节中特别介绍这些扩展。
图3显示了分类法以及一些相应的代表性PTM。 此外,表2更详细地区分了一些代表性的PTM。

NLP预训练模型综述_第8张图片
NLP预训练模型综述_第9张图片
NLP预训练模型综述_第10张图片

3.3模型分析

由于PTM的巨大成功,重要的是要了解PTM捕获了哪些种类的知识,以及如何从中获取知识。 大量文献分析了存储在预训练的非上下文和上下文嵌入中的语言知识和世界知识。

3.3.1 非上下文嵌入

静态单词嵌入首先探究各种知识。 Mikolov等。 [130]发现,由神经网络语言模型学习的单词表示能够捕获语言的语言规律性,并且单词之间的关系可以通过关系向量来表征。 进一步的类比实验[129]证明,跳过语法模型产生的单词向量可以捕获句法和语义上的单词关系,例如vec(“中国”)-vec(“北京”)≈vec(“日本”)-vec( “东京”)。 此外,它们还发现词向量的组成性质,例如,vec(“德国”)+ vec(“资本”)接近vec(“柏林”)。 受这些工作的启发,Rubinstein等人。 [151]发现,分布词表示法擅长预测分类特性(例如,狗是动物),但无法学习定语特性(例如,天鹅是白色的)。
同样,古普塔等。 [54]表明word2vec嵌入隐式编码实体的引用属性。 分布式单词向量与简单的监督模型一起可以学习以合理的准确度预测实体的数字和二进制属性。

3.3.2 上下文嵌入

大量研究探索并诱导了上下文嵌入中不同类型的知识。 通常,知识有两种类型:语言知识和世界知识。

Linguistic Knowledge语言知识

设计了各种各样的探查任务来调查PTM中的语言知识。 Tenney等。 [180],Liu等。 [108]发现BERT在许多句法任务上表现出色,例如词性标记和成分标记。 但是,与简单的语法任务相比,BERT在语义和细粒度的语法任务方面还不够出色。
此外,Tenney等。 [179]分析了BERT层在不同任务中的作用,发现BERT以与NLP管道中相似的顺序解决任务。 此外,主语-动词一致性[50]和语义角色[44]的知识也被确认存在于BERT中。 此外,休伊特和曼宁[59],贾瓦哈尔等。 [72],Kim等。 [85]提出了几种从BERT提取依赖树和选民树的方法,证明了BERT编码语法结构的能力。 Reif等。 [148]探索了BERT中内部表示的几何结构,并找到了一些证据:1)语言特征似乎在单独的语义和句法子空间中表示; 2)注意矩阵包含语法表示; 3)BERT可以非常精细地区分单词的含义。

世界知识

除了语言知识外,PTM还可以存储训练数据中显示的世界知识。 探究世界知识的一种简单方法是用“填空”的完形填空语句查询BERT,例如“ Dante出生于[MASK]”。 Petroni等。 [138]通过从多个知识源手动创建单令牌的完形填空语句(查询),构建了LAMA(语言模型分析)任务。 他们的实验表明,BERT包含与传统信息提取方法相比具有竞争力的世界知识。 由于LAMA中查询生成过程的简单性,Jiang等人。 [74]认为,LAMA只是衡量语言模型知道的下限,并提出了更高级的方法来生成更有效的查询。 尽管发现了LAMA令人惊讶的发现,但随后的工作也对其提出质疑[141,82]。 同样,一些研究从BERT得出了下游任务的关系知识[15]和常识知识[32]。

4.PTMs扩展

Knowledge-Enriched PTMs

PTM通常从通用的大型文本语料库中学习通用语言表示,但是缺少领域特定的知识。 将外部知识库中的领域知识纳入PTM已被证明是有效的。 外部知识的范围从语言[94、83、136、191],语义[99],常识[52],事实[214、136、111、202、195]到领域特定知识[58、111]。
一方面,可以在预训练期间注入外部知识。 早期的研究[197,217,201,205]集中于共同学习知识图嵌入和词嵌入。 自BERT以来,便设计了一些辅助预训练任务,以将外部知识整合到深层的PTM中。
LIBERT [94](语言知情的BERT)通过附加的语言约束任务来整合语言知识。
Ke等。 [83]集成了每个单词的情感极性,以将MLM扩展到可识别标签的MLM(LA-MLM)。 结果,他们提出的模型SentiLR在几个句子和方面级别的情感分类任务上都达到了最先进的性能。 莱文等。 [99]提出了SenseBERT,它经过预训练,不仅可以预测被屏蔽的令牌,还可以预测WordNet中的超级令牌。 ERNIE(THU)[214]将在知识图上预先训练的实体嵌入与文本中的相应实体提及进行集成,以增强文本表示。 同样,KnowBERT [136]与实体链接模型一起训练BERT,以端到端的方式合并实体表示。 Wang等。 [195]提出了KEPLER,它共同优化了知识嵌入和语言建模目标。 这些工作通过实体嵌入来注入知识图的结构信息。 相反,K-BERT [111]将从KG提取的相关三元组显式地注入句子中,以获得BERT的扩展树形输入。 此外,熊等。 [202]采用实体替代识别来鼓励模型更多地了解事实知识。 但是,这些方法中的大多数在注入知识时都会更新PTM的参数,这可能会导致在注入多种知识时造成灾难性的遗忘。 为了解决这个问题,K-Adapter [191]通过针对不同的预训练任务独立地训练不同的适配器来注入多种知识,从而可以连续地注入知识。
另一方面,人们可以将外部知识整合到预训练的模型中,而无需从头开始对其进行再训练。
例如,K-BERT [111]允许在对下游任务进行细调时注入事实知识。 关等。 [52]使用常识知识库,ConceptNet和ATOMIC来增强GPT-2的故事生成能力。 杨等。
[207]提出了一种知识-文本融合模型,以获取相关的语言和事实知识,以进行机器阅读理解。
此外,洛根四世等。 [119]和Hayashi等。 [57]分别将语言模型扩展到知识图语言模型(KGLM)和潜在关系语言模型(LRLM),两者都允许以知识图为条件的预测。 这些新颖的以KG为条件的语言模型显示了进行预训练的潜力。

4.2多语言和特定语言的PTM

4.2.1多语言PTM

学习跨语言共享的多语言文本表示形式在许多跨语言的NLP任务中发挥着重要作用。

跨语言理解(XLU)

大部分早期工作着重于学习多语言单词嵌入[45,123,158],该语言表示在单个语义空间中来自多种语言的文本。 但是,这些方法通常需要语言之间的(弱)对齐。
MLM对多语言BERT3(mBERT)进行了预培训,并在Wikipedia文本上使用来自104种主要语言的共享词汇和权重。 每个培训样本都是一个单语言文档,没有专门设计的跨语言目标,也没有任何跨语言数据。 即使这样,mBERT仍然可以很好地执行跨语言的泛化[140]。 K等。 [79]表明,语言之间的词汇重叠在跨语言成功中起着微不足道的作用。
XLM [27]通过合并跨语言任务翻译语言建模(TLM)改进了mBERT,该任务在并行双语句子对的串联上执行MLM。 Unicoder [68]进一步提出了三种新的跨语言预训练任务,包括跨语言单词恢复,跨语言释义分类和跨语言掩蔽语言模型(XMLM)。
XLM-RoBERTa(XLM-R)[28]是一种按比例缩放的多语言编码器,在100种不同语言的大量训练数据,2.5TB干净的CommonCrawl数据上进行了预训练。 XLM-RoBERTa的预培训任务仅是单语言的MLM。 XLM-R在包括XNLI,MLQA和NER在内的多个跨语言基准测试中获得了最新的结果。

跨语言生成(XLG)

多语言生成是一种从输入语言中使用不同语言生成文本的任务,例如机器翻译和跨语言抽象摘要。
与用于多语言分类的PTM不同,用于多语言生成的PTM通常需要共同预编码器和解码器,而不是仅仅关注编码器。
MASS [160]在多种语言上使用单语Seq2Seq MLM预先训练了Seq2Seq模型,并在无人监督的NMT方面取得了显着的进步。 XNLG [19]为跨语言自然语言生成执行两阶段的预训练。 第一阶段通过单语言MLM和跨语言MLM(XMLM)任务对编码器进行预训练。 第二阶段通过使用单语言DAE和跨语言自动编码(XAE)任务对解码器进行预训练,同时保持编码器固定不变。 实验表明XNLG在跨语言问题生成和跨语言抽象摘要方面的优势。 mBART [118]是BART [100]的多语言扩展,它通过25种语言的大规模单语言语料库与Seq2Seq去噪自动编码器(DAE)任务一起对编码器和解码器进行预训练。 实验表明,mBART在各种各样的机器翻译(MT)任务中都能显着提高性能。

4.2.2 特定语言的PTMs

尽管多语言PTM在许多语言上的表现都不错,但最近的工作表明,使用单语训练的PTM明显优于多语言结果[125,95,186]。对于中文,没有明确的单词边界 ,建模更大的粒度[29,37,198]和多粒度[170,171]词表示法已显示出巨大的成功。 Kuratov和Arkhipov [92]使用转移学习技术将多语言PTM改编为俄语的monolingualPTM。 另外,一些单语言的PTM已针对不同的语言发布,例如CamemBERT [125]和FlauBERT [95]法语,Fin-BERT [186]芬兰语,BERTje [33]和RobBERT [35]荷兰语,AraBERT [4] 阿拉伯语。

4.3 多模PTMs

观察到PTM在许多NLP任务中的成功,一些研究集中在获得PTM的交叉模式版本上。 这些模型中的绝大多数是为通用的视觉和语言特征编码而设计的。 这些模型在一些巨大的跨模式数据语料库上进行了预训练,例如带有口语的视频或带字幕的图像,并结合了扩展的预训练任务以充分利用多模式功能。 通常,诸如基于视觉的MLM,蒙版的视觉特征建模和视觉语言匹配之类的任务广泛用于多模式预训练中,例如VideoBERT [165],VisualBERT [103],ViLBERT [120]。

视频-文本PTMs

VideoBERT [165]和CBT [164]是联合的视频和文本模型。 为了获得用于预训练的视觉和语言标记序列,分别通过基于CNN的编码器和现成的语音识别技术对视频进行预处理。 单个Transformer编码器将在处理后的数据上进行训练,以学习视频字幕等下游任务的视觉语言表示形式。 此外,UniViLM [122]提出引入生成任务,以进一步对下游任务中使用的解码器进行预训练。

4.3.2 图像-文本PTMs

除了用于视频语言预训练的方法外,一些作品还介绍了针对图像-文本对的PTM,旨在适应诸如视觉问答(VQA)和视觉常识推理(VCR)之类的下游任务。 几个提出的模型采用两个单独的编码器分别用于图像和文本表示,例如ViLBERT [120]和LXMERT [175]。
而其他方法,如VisualBERT [103],B2T2 [2],VLBERT [163],Unicoder-VL [101]和UNITER [17]则提出了单流统一变压器。 尽管这些模型架构是不同的,但是在这些方法中引入了类似的预训练任务,例如MLM和图像文本匹配。 为了更好地利用视觉元素,在应用预训练的Transformers进行编码之前,可以通过应用RoI或边界框检索技术将图像转换为区域序列。

4.3.3 音频-文本PTMs

而且,有几种方法已经探索了在语音文本对上使用PTM的机会,例如SpeechBERT [22]。 这项工作试图通过使用单个Transformer编码器对音频和文本进行编码来构建端到端语音问题应答(SQA)模型,该编码器已在语音和文本语料库上通过MLM进行了预训练,并在Question Answering上进行了优化。

4.4特定领域和任务特定的PTM

大多数公开可用的PTM都接受了通用域语料库(例如Wikipedia)的培训,这使它们的应用限于特定的域或任务。 最近,一些研究提出了对专业语料库进行训练的PTM,例如BioBERT [98]用于生物医学文本,SciBERT [11]用于科学文本,ClinicalBERT [69,3]用于临床文本。
除了对特定领域的PTM进行预训练之外,一些工作还尝试使可用的预训练模型适应目标应用,例如生物医学实体标准化[73],专利分类[97],进度说明分类和关键字提取[176]。 。
还提出了一些面向任务的预训练任务,例如用于SentiLR的情感标签感知MLM [83]用于情感分析,用于文本摘要的Gap句子生成(GSG)[212]和用于歧义检测的嘈杂单词检测[192]。

4.5 模型压缩

由于PTM通常至少包含数亿个参数,因此很难将其部署在现实应用程序中的在线服务和资源受限的设备上。 模型压缩[16]是减少模型大小和提高计算效率的潜在方法。
有五种压缩PTM的方法[46]:(1)模型修剪,删除不太重要的参数;(2)权重量化[40],它使用较少的比特表示参数;(3)在相似模型单元之间共享参数 ,(4)知识提炼[61],它训练了一个较小的学生模型,该模型从原始模型的中间输出中学习,并且(5)模块替换,用更紧凑的替代品替换了原始PTM的模块。
表3比较了一些代表性的压缩PTM。

4.5.1 模型修剪

模型修剪是指删除神经网络的一部分(例如权重,神经元,层,通道,注意头),从而实现减小模型大小和加快推理时间的效果。
戈登等。 [51]探讨了修剪的时间(例如,预训练期间的修剪,下游的微调之后的修剪)和修剪方式。 Michel等。 [128]和Voita等。 [187]试图修剪变压器块中的整个自我注意头。

4.5.2 量化

量化是指将较高精度的参数压缩为较低精度。 沉等人的著作。 [156]和Zafrir等。 [211]仅关注此领域。 注意,量化通常需要兼容的硬件。

4.5.3 参数共享

减少参数数量的另一种众所周知的方法是参数共享,它广泛用于CNN,RNN和Transformer [34]。 ALBERT [93]使用跨层参数共享和因式分解参数化来减少PTM的参数。 尽管参数数量大大减少,但是ALBERT的训练和推理时间甚至比标准BERT还要长。
通常,参数共享不会提高推理阶段的计算效率。

知识蒸馏

知识蒸馏(KD)[61]是一种压缩技术,其中训练了一个称为学生模型的小模型以重现一个称为教师模型的大模型的行为。
在这里,教师模型可以是许多模型的集合,并且通常经过良好的训练。 与模型压缩不同,蒸馏技术通过一些优化目标从固定的教师模型中学习小型学生模型,而压缩技术旨在搜索较稀疏的体系结构。
通常,蒸馏机制可以分为三种类型:(1)从软目标概率进行蒸馏,(2)从其他知识进行蒸馏,以及(3)蒸馏至其他结构:
(1)从软目标概率中提炼出来。 Bucilua等。
[16]表明,使学生接近教师模型可以将知识从教师传授给学生。 一种常见的方法是近似教师模型的对数。
DistilBERT [152]通过对教师的软目标概率的蒸馏损失训练了学生模型,如下所示:
NLP预训练模型综述_第11张图片从软目标概率中提取出来的数据也可以用于任务特定的模型,例如信息检索[121]和序列标记[181]。

(2)从其他知识中提炼。 从软目标概率中提取出来的内容将教师模型视为一个黑匣子,仅关注其输出。 此外,分解教师模型并提取更多知识可以为学生模型带来改进。

NLP预训练模型综述_第12张图片
TinyBERT [75]使用嵌入输出,隐藏状态和自我关注分布执行层到层蒸馏。
MobileBERT [172]还使用软目标概率,隐藏状态和自我注意分布执行层到层蒸馏。 MiniLM [194]从教师模型中提取了自我注意的分布和自我注意的价值关系。
此外,其他模型还通过许多方法来提取知识。 Sun等。 [169]介绍了一种“耐心的”教师生机制,Liu等。 [113]利用KD改进了预训练的多任务深度神经网络。
(3)蒸馏至其他结构。 通常,除了较小的图层大小和较小的隐藏大小以外,学生模型的结构与教师模型相同。 但是,不仅减少参数,而且简化从Transformer到RNN [177]或CNN [20]的模型结构都可以降低计算复杂度。

4.5.5 模型替换

模块更换是减小模型尺寸的一种有趣且简单的方法,它用更紧凑的替代品替代了原始PTM的大型模块。 徐等。 [203]提出了以著名的思想实验“ These修斯之船”为动机的These修斯压缩,该实验逐渐用较少参数的模块替换了源模型中的模块。 与KD不同,These修斯压缩仅需要一个特定于任务的损失函数。 压缩模型The-theseus的速度提高了1.94倍,同时保留了源模型的98%以上的性能。

4.5.6 其它

除了减小模型大小外,还有其他方法可以在资源有限的实际情况下提高PTM的计算效率。 刘等。 [112]提出了一种实用的速度可调BERT,即FastBERT,它可以通过基于样本的自适应机制动态地减少计算步骤。

5. 使PTM适应下游任务

尽管PTM可以从大型语料库中获取通用语言知识,但是如何有效地将其知识适应下游任务仍然是关键问题。

5.1 迁移学习

转移学习[132]是使知识从源任务(或领域)适应目标任务(或领域)。 图4给出了转移学习的示意图。
NLP中有很多类型的迁移学习,例如领域适应,跨语言学习,多任务学习。
使PTM适应下游任务是顺序转移学习任务,其中任务是顺序学习的,目标任务已标记数据。
NLP预训练模型综述_第13张图片

5.2 怎样迁移?

要将PTM的知识转移到下游NLP任务,我们需要考虑以下问题:

5.2.1 选择适当的预训练任务,模型架构和语料库

不同的PTM通常在同一下游任务上具有不同的效果,因为这些PTM接受了各种预训练任务,模型体系结构和语料库的训练。
(1)目前,语言模型是最流行的预培训任务,可以更有效地解决各种NLP问题[143]。 但是,不同的预训练任务有其自身的偏见,并且会为不同的任务提供不同的效果。 例如,NSP任务[36]使PTM了解两个句子之间的关系。 因此,PTM可以受益于下游任务,例如问答(QA)和自然语言推断(NLI)。
(2)PTM的体系结构对于下游任务也很重要。 例如,尽管BERT可以帮助大多数自然语言理解任务,但是很难生成语言。
(3)下游任务的数据分布应近似于PTM。 当前,有大量现成的PTM,它们可以方便地用于各种特定于域或特定于语言的下游任务。
因此,给定目标任务,选择经过适当的预训练任务,体系结构和语料库训练的PTM始终是一个好的解决方案。

5.2.2 选择合适的层

给定一个预先训练的深度模型,不同的层应该捕获不同的信息,例如POS标记,解析,长期依赖关系,语义角色,共指。 对于基于RNN的模型,Belinkov等人。 [10]和Melamud等。
[127]表明,从多层LSTM编码器的不同层中学习到的表示将有益于不同的任务(例如,预测POS标签和理解词义)。 对于基于变压器的PTM,Tenney等人。 [179]发现BERT代表了传统NLP流水线的步骤:基本语法信息出现在网络中较早的位置,而高层语义信息则出现在较高层中。
令H(l)(1(cid:54)l(cid:54)L)表示具有L层的预训练模型的第l层表示,而g(·)表示针对该模型的任务特定模型 目标任务。
有三种选择表示​​的方法:a)仅嵌入。 一种方法是仅选择预训练的静态嵌入,而模型的其余部分仍需要从头开始训练以完成新的目标任务。
他们无法捕获可能更有用的高级信息。 词嵌入仅在捕获词的语义上有用,但是我们还需要了解词义之类的高级概念。
b)顶层。 最简单有效的方法是将顶层的表示形式馈入任务特定模型g(H(L))。
c)所有层。 一种更灵活的方法是自动选择软版本中的最佳图层,例如ELMo [135]:
NLP预训练模型综述_第14张图片

5.2.3 调还是不调?

当前,有两种常见的模型传递方式:特征提取(冻结了预训练的参数)和精调(精解了预训练的参数)。
在特征提取方法中,预训练模型被认为是现成的特征提取器。 此外,重要的是要公开内部层,因为它们通常会编码最易传递的表示形式[137]。
尽管这两种方式都可以明显受益于大多数NLP任务,但是特征提取方式却需要更复杂的任务特定体系结构。 因此,细微调整方法通常比特征提取方法更通用,更方便许多下游任务。
表4给出了适应性PTM的一些常见组合。
NLP预训练模型综述_第15张图片

5.3 微调策略

随着PTM深度的增加,它们捕获的表示形式使下游任务更加容易。 因此,整个模型的任务特定层很简单。 自ULMFit和BERT以来,微调已成为PTM的主要适应方法。 但是,微调的过程通常很脆弱:即使具有相同的超参数值,不同的随机种子也可能导致结果大不相同[38]。
除了标准的微调之外,还有一些有用的微调策略。

两阶段精调

另一种解决方案是两阶段转移,它在预训练和微调之间引入了一个中间阶段。 在第一阶段,将PTM转换为由中间任务或语料库进行精细调整的模型。 在第二阶段,将转移的模型微调到目标任务。 Sun等。 [167]表明,对相关域语料库的“进一步预训练”可以进一步提高BERT的能力,并在八个经过广泛研究的文本分类数据集上实现了最先进的性能。 Phang等。 [139]和Garg等。 [48]介绍了与目标任务相关的中间监督任务,它为BERT,GPT和ELMo带来了很大的改进。 Li等。 [106]也为故事结局预测使用了两阶段转移。
提出的TransBERT(可传输BERT)不仅可以传输来自大规模未标记数据的一般语言知识,还可以传输来自各种与语义相关的受监管任务的特定知识。

多任务微调

Liu等。 [114]在多任务学习框架下对BERT进行了微调,这表明多任务学习和预训练是互补的技术。

使用额外的适配模块进行细调

细调的主要缺点是其参数效率低下:每个下游任务都有自己的细调参数。 因此,更好的解决方案是在固定原始参数的同时,将一些微调的适配模块注入PTM。
Stickland和Murray [162]配备了一个单一的BERT模型,并带有一些小的额外的任务特定的适应模块,投影注意力层(PAL)。 与PAL共享的BERT与GLUE基准上的分别细调的模型匹配,参数减少了大约7倍。 同样,Houlsby等。 [66]通过添加适配器模块修改了预训练的BERT的体系结构。 适配器模块产生了紧凑且可扩展的模型; 它们为每个任务仅添加了几个可训练的参数,并且可以在不重新访问先前任务的情况下添加新任务。 原始网络的参数保持固定,从而实现高度的参数共享。

其他

受广泛使用的集成模型成功的推动,Xu等人。 [206]通过两种有效的机制改进了BERT的微调:自集成和自我蒸馏,这可以提高BERT在下游任务上的性能,而无需利用外部资源或显着降低培训效率。 他们将集成和蒸馏集成在一个培训过程中。 教师模型是一个集成模型,它通过对先前时间步长中的几个学生模型进行参数平均。
逐渐取消冻结[67]而不是同时对所有层进行微调,这是一种有效的方法,该方法从顶层开始逐渐冻结PTM的各层。
Chronopoulou等。 [21]提出了一种更简单的解冻方法,即顺序解冻,该方法首先仅微调随机初始化的任务特定层,然后解冻PTM的隐藏层,最后解冻嵌入层。

Li和Eisner [104]使用变体信息瓶颈来压缩ELMo嵌入,同时仅保留有助于目标任务的信息。
通常,以上工作表明,通过更好的微调策略可以进一步激发PTM的效用。

6. PTMs的资源

在线有许多PTM相关资源。
表5提供了一些受欢迎的存储库,包括第三方实现,论文列表,可视化工具以及PTM的其他相关资源。
此外,还有其他一些针对NLP的PTM的良好调查论文[196,110,150]。

7. 应用

在本节中,我们总结了PTM在一些经典的NLP任务中的一些应用。

7.1 一般评估基准

对于NLP社区来说,存在一个基本问题,那就是如何以可比较的指标评估PTM。 因此,必须进行大规模基准测试。
通用语言理解评估(GLUE)基准[190]是九种自然语言理解任务的集合,包括单句分类任务(CoLA和SST-2),成对文本分类任务(MNLI,RTE,WNLI,QQP和 MRPC),文本相似性任务(STSB)和相关排名任务(QNLI)。 GLUE基准经过精心设计,可用于评估模型的鲁棒性和通用性。 GLUE不提供测试集的标签,而是设置评估服务器。

NLP预训练模型综述_第16张图片NLP预训练模型综述_第17张图片
然而,由于近年来的进步大大削弱了GLUE基准的净空,因此提出了一种新的基准,称为SuperGLUE [189]。 与GLUE相比,SuperGLUE具有更具挑战性的任务和更多样化的任务格式(例如,共指解决和问题回答)。
相应的排行榜(4)(5)中列出了最新的PTM。
NLP预训练模型综述_第18张图片

7.2 问答

问题解答(QA)或较窄的概念机器阅读理解(MRC)是NLP社区中的重要应用程序。 从简单到困难,QA任务共有三种类型:单轮提取QA(SQuAD)[145],多轮生成QA(CoQA)[147]和多跳QA(HotpotQA)[208]。
BERT创造性地将提取的QA任务转换为可预测答案的开始范围和结束范围的范围预测任务[36]。 之后,PTM作为用于预测跨度的编码器已成为竞争基准。 对于提取质量检查,Zhang等。 [215]提出了一种追溯阅读器架构,并用PTM(例如ALBERT)初始化编码器。 对于多轮生成质量检查,Ju等人。 [78]提出了“ PTM +专家培训+理性标签+知识蒸馏”模型。 对于多跳质量检查,Tu等人。 [182]提出可解释的“选择,回答,并解释”(SAE)系统,该系统PTM充当选择模块中的编码器。
通常,建议的QA模型中的编码器参数是通过PTM初始化的,其他参数是随机初始化的。 相应的排行榜中列出了最新的模型。 (6)7)8)

7.3 情感分析

BERT通过在SST-2上进行细微调整就优于以前的最新模型,SST-2是广泛用于情感分析(SA)的数据集[36]。 Bataa和Wu [9]将BERT与迁移学习技术结合使用,并在日本SA中实现了最新技术。
尽管他们在简单的情感分类中取得了成功,但将BERT直接应用于基于方面的情感分析(ABSA)是一项细粒度的SA任务,显示出不那么显着的改进[166]。 为了更好地利用BERT的强大功能,Sun等人。 [166]通过将ABSA从单句分类任务转换为句子对分类任务来构造辅助句。 徐等。 [204]提出了后训练,以使BERT从其源域和任务适应ABSA域和任务。 此外,Rietzler等。 [149]通过分析具有ABSA性能的跨域事后训练的行为扩展了[204]的工作。 Karimi等。 [81]表明,经过对抗训练,可以进一步提高训练后的BERT的性能。 宋等。 [161]添加了一个额外的池化模块,可以实现为LSTM或关注机制,以利用BERT中间层来实现ABSA。 此外,李等。 [105]共同学习了端到端ABSA的方面检测和情感分类。 SentiLR [83]从SentiWordNet获取词性标签和先验情感极性,并采用Label-Aware MLM来利用引入的语言知识来捕获句子级情感标签和单词级情感转换之间的关系。 SentiLR在几个句子和方面级别的情感分类任务上都达到了最先进的性能。
对于情感转移,吴等。 [200]基于BERT提出了“掩码和填充”。 在掩盖步骤中,模型通过掩盖情感标记将情感与内容区分开。
在填充步骤中,它使用BERT以及目标情感嵌入到填充的掩盖位置中。

7.4 命名实体识别

在信息提取中被称为实体识别(NER),在许多NLP下游任务中扮演重要角色。
在深度学习中,大多数NER方法都在序列标记框架中。 句子中的实体信息将转换为标签序列,一个标签对应一个单词。 该模型用于预测每个单词的标签。 由于ELMo和BERT在NLP中发挥了作用,因此关于NER的预训练模型还有很多工作要做。
Akbik等。 [1]使用预训练的字符级语言模型为NER生成单词级嵌入。 TagLM [134]和ELMo [135]使用预先训练的语言模型的最后一层输出以及每一层输出的加权和作为词嵌入的一部分。 刘等。 [107]使用分层修剪和密集连接来加快ELMo对NER的推断。
Devlin等。 [36]使用第一个BPE的BERT表示来预测每个单词的标签而无需使用CRF。 Pires等。 [140]通过多语言BERT实现了零发动NER。 蔡等。
[181]利用知识提炼在单个CPU上为NER运行一个小的BERT。 此外,BERT还用于特定领域的NER,例如生物医学[56,98]等。

7.5 机器翻译

机器翻译(MT)是NLP社区中的一项重要任务,吸引了许多研究人员。 几乎所有的神经机器翻译(NMT)模型都共享编码器-解码器框架,该框架首先由编码器将输入令牌编码为隐藏表示,然后从解码器以目标语言解码输出令牌。 Ramachandran等。 [146]发现通过用两种语言模型的预训练权重初始化编码器和解码器,可以显着改善编码器-解码器模型。
Edunov等。 [41]使用ELMo在NMT模型中设置单词嵌入层。 这项工作通过使用预训练的语言模型进行源词嵌入初始化,显示了英语-土耳其语和英语-德语NMT模型的性能改进。
鉴于BERT在其他NLP任务上的出色表现,很自然地研究如何将BERT整合到NMT模型中。 Conneau和Lample [27]尝试通过多语言预训练的BERT模型初始化整个编码器和解码器,并表明可以在无监督MT和英语-罗马尼亚监督MT上取得显着改善。 同样,Clinchant等。 [25]设计了一系列不同的实验,以检验在NMT模型的编码器部分使用BERT的最佳策略。 他们通过使用BERT作为编码器的初始化实现了一些改进。 他们还发现,这些模型可以在域外数据集上获得更好的性能。 Imamura和Sumita [70]提出了NMT的两阶段BERT细调方法。
在第一阶段,通过预训练的BERT模型初始化编码器,并且它们仅在训练集上训练解码器。 在第二阶段,整个NMT模型在训练集上进行联合微调。 通过实验,他们表明这种方法可以超越一级微调方法,后者可以直接微调整个模型。 除此之外,Zhu等。
[221]建议使用预训练的BERT作为额外的内存来简化NMT模型。 具体来说,它们首先通过预训练的BERT对输入令牌进行编码,然后将最后一层的输出用作额外的内存。 然后,NMT模型可以通过编码器和解码器每一层中的额外注意模块访问内存。 他们在有监督,无监督和无监督MT方面显示出明显的改进。
不仅仅对编码器进行预训练,MASS(掩蔽序列到序列预训练)[160]还利用Seq2Seq MLM共同对编码器和解码器进行预训练。 在实验中,这种方法可以超越Conneau和Lample [27]在无监督MT和英罗马尼亚监督MT上提出的BERT样式的预训练。 与MASS不同,mBART [118]是BART [100]的多语言扩展,它在25种语言的大规模单语语料库上与Seq2Seq去噪自动编码器(DAE)任务一起对编码器和解码器进行预训练。 实验表明,mBART可以在句子级别和文档级别上显着改善有监督和无监督的机器翻译。

7.6 综述

概述旨在生成保留较长文本大部分含义的较短文本,近年来引起了NLP社区的关注。 自从PTM的广泛使用以来,这项任务已得到显着改善。 Zhong等。 [218]引入了可转让的知识(例如BERT)进行汇总,并超越了先前的模型。 张等。 [213]尝试预训练可以预测句子而不是单词的文档级模型,然后将其应用于下游任务,例如摘要。 更详细地讲,Zhang等。 [212]设计了一个用于预训练的间隙句生成(GSG)任务,其目的是从输入中生成类似摘要的文本。 此外,Liu和Lapata [116]提出了BERTSUM。 BERTSUM包括一个新颖的文档级编码器,以及一个用于提取摘要和抽象摘要的通用框架。
在编码器框架中,BERTSUM通过插入多个[CLS]令牌来学习句子表示,从而扩展了BERT。
为了进行提取摘要,BERTSUM堆叠了多个Intersentence Transformer层。 对于抽象总结,BERTSUM提出了一种使用新的细调时间表的两阶段细调方法。 Zhong等。 [219]提出了一种新颖的摘要级框架MATCHSUM,并将概念化的提取摘要作为语义文本匹配问题。 他们提出了一种Siamese-BERT架构来计算源文档和候选摘要之间的相似度,并且仅使用BERT的基本版本就在CNN / DailyMail(ROUGE-1中为44.41)上获得了最新的结果。

7.7 对抗攻击与防御

深度神经模型容易受到对抗性示例的攻击,这些示例会误导模型以产生特定的错误预测,并带有来自原始输入的不可察觉的扰动。 在CV中,对抗性攻击和防御已得到广泛研究。 然而,由于语言的离散性,对于文本来说仍然是挑战。 为文本生成对抗性样本需要具备以下素质:(1)人类判断力难以察觉,但会误导神经模型; (2)语法流利,并且在语义上与原始输入保持一致。 Jin等。 [76]通过对抗性例子,成功地攻击了针对文本分类和文本蕴涵的微调BERT。 华莱士等。 [188]定义了通用对抗触发器,当与任何输入连接时,该触发器可以促使模型产生特定目的的预测。 某些触发器甚至可能导致GPT-2模型生成种族主义文字。 Sun等。
[168]表明BERT在拼写错误方面不很可靠。
PTM也具有产生对抗性样本的巨大潜力。 Li等。 [102]提出了基于BERT的高质量有效攻击者BERT-Attack。 他们在下游任务上将BERT与另一个经过细调的BERT相对,并成功地误导了目标模型以进行错误预测,成功率和扰动百分比均超过了最新的攻击策略,而生成的对抗性样本则更加流畅并且在语义上得以保留 。
此外,针对PTM的对抗性防御也很有希望,它可以提高PTM的健壮性,并使它们对对抗攻击具有免疫力。
对抗训练旨在通过最小化嵌入空间中保留标签扰动的最大风险来提高通用性。 最近的工作[220,115]表明,对抗性的预训练或微调可以提高NTM的PTM的通用性和鲁棒性。

8. 未来方向

尽管PTM已证明可以胜任各种NLP任务,但由于语言的复杂性,仍然存在挑战。 在本节中,我们建议PTM的五个未来方向。

(1)PTM的上限

目前,PTM尚未达到上限。 当前更多的PTM可以通过更多的培训步骤和更大的语料库得到进一步改善。
可以通过增加模型的深度来进一步提高NLP的技术水平,例如Megatron-LM [157](83亿个参数,72个具有3072个隐藏头的Transformer层和32个关注头)和Turing-NLG9) (170亿个参数,78个Transformer层(隐藏大小为4256)和28个关注头)。
在这里插入图片描述
通用PTM一直是我们追求学习语言固有的普遍知识(甚至世界知识)的追求。 但是,这样的PTM通常需要更深的体系结构,更大的语料库和具有挑战性的预训练任务,这进一步导致更高的训练成本。 但是,训练庞大的模型也是一个挑战性的问题,它需要更复杂,更有效的训练技术,例如分布式训练,混合精度,梯度累积等。因此,更实际的方向是设计更有效的模型架构,自我监督的模型。 -使用现有的硬件和软件来培训任务,优化器和培训技能。 ELECTRA [24]是朝着这个方向的一个很好的解决方案。

(2)PTM的体系结构

变压器已被证明是有效的预训练架构。 但是,变压器的主要局限性在于其计算复杂度,它是输入长度的平方。 受GPU内存的限制,当前大多数PTM不能处理长度超过512个令牌的序列。 打破此限制需要改进Transformer的体系结构,例如Transformer-XL [31]。 因此,为PTM寻找更有效的模型架构对于捕获更广泛的上下文信息很重要。
深度架构的设计具有挑战性,我们可能会从一些自动方法中寻求帮助,例如神经架构搜索(NAS)[223]。

(3)面向任务的预训练和模型压缩

实际上,不同的下游任务需要PTM的不同功能。 PTM与下游任务之间的差异通常在于两个方面:模型架构和数据分发。 更大的差异可能会导致PTM的收益微不足道。 例如,文本生成通常需要特定的任务来预训练编码器和解码器,而文本匹配则需要为句子对设计的预训练任务。
此外,尽管较大的PTM通常可以带来更好的性能,但一个实际问题是如何在特殊情况下利用这些巨大的PTM,例如低容量设备和低延迟应用程序。 因此,我们可以为下游任务精心设计特定的模型体系结构和预训练任务,或者从现有的PTM中提取部分任务特定的知识。
与其从头训练任务导向的PTM,不如通过模型压缩等技术将它们与现有的通用PTM一起教(见4.5节)。
尽管在CV中对CNN的模型压缩进行了广泛的研究[18],但对NLP的PTM进行压缩才刚刚开始。
变压器的完全连接结构也使模型压缩更具挑战性。

(4)超越微调的知识转移

当前,细调是将PTM的知识转移到下游任务的主要方法,但其不足之处是其参数效率低下:每个下游任务都有自己的细调参数。 一种改进的解决方案是固定PTM的原始参数,并通过添加用于特定任务的细微可调适应模块[162,66]。 因此,我们可以使用共享的PTM服务多个下游任务。 确实,使用PTM作为外部知识[138],可以更灵活地从PTM挖掘知识,例如特征提取,知识提炼[210],数据增强[199、91]。
期望有更有效的方法。

(5)PTM的可解释性和可靠性

尽管PTM达到了令人印象深刻的性能,但其深层的非线性体系结构使决策过程变得高度透明。
最近,可解释的人工智能(XAI)[5]已成为通用AI界的热点。 与用于图像的CNN不同,由于类似Transformer的架构和语言的复杂性,解释PTM更加困难。
为了分析PTM中包含的语言和世界知识,已经进行了广泛的评估(请参阅第3.3节),这有助于我们以一定程度的透明性理解这些PMT。 但是,关于模型分析的许多工作都取决于注意力机制,并且注意力对于可解释性的有效性仍存在争议[71,155]。
此外,PTM还容易受到对抗性攻击(请参见7.7节)。 随着PTM在生产系统中的广泛使用,PTM的可靠性也成为一个令人关注的问题。 对PTM的对抗攻击的研究可通过充分暴露其漏洞来帮助我们了解其功能。 PTM的对抗性防御也很有前途,它可以提高PTM的健壮性并使它们对对抗攻击具有免疫力。
总体而言,作为许多NLP应用程序中的关键组件,PTM的可解释性和可靠性仍有很多方面需要进一步探讨,这有助于我们了解PTM的工作原理,并为更好地使用和进一步改进提供指南。

9 结论

在本次调查中,我们对NLP的PTM进行了全面的概述,包括背景知识,模型架构,预培训任务,各种扩展,适应方法,相关资源和应用程序。 基于当前的PTM,我们从四个不同的角度提出了一种新的PTM分类法。 我们还建议了PTM的几种未来研究方向。

参考文献

[1] Alan Akbik, Duncan Blythe, and Roland Vollgraf. Contextual
string embeddings for sequence labeling. In COLING, pages
1638–1649, 2018.

[2] Chris Alberti, Jeffrey Ling, Michael Collins, and David Re-
itter. Fusion of detected objects in text for visual question
answering. In EMNLP-IJCNLP, pages 2131–2140, 2019.

[3] Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung
Weng, Di Jin, Tristan Naumann, and Matthew B. A. McDer-
mott. Publicly available clinical BERT embeddings. arXiv
preprint arXiv:1904.03323, 2019.

[4] Wissam Antoun, Fady Baly, and Hazem Hajj. AraBERT:
Transformer-based model for Arabic language understanding.
arXiv preprint arXiv:2003.00104, 2020.

[5] Alejandro Barredo Arrieta, Natalia D´ıaz-Rodr´ıguez, Javier
Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado,
Salvador Garc´ıa, Sergio Gil-L´opez, Daniel Molina, Richard
Benjamins, et al. Explainable artificial intelligence (xai):
Concepts, taxonomies, opportunities and challenges toward
responsible ai. Information Fusion, 58:82–115, 2020.

[6] Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettle-
moyer, and Michael Auli. Cloze-driven pretraining of self-
attention networks. In Kentaro Inui, Jing Jiang, Vincent Ng,
and Xiaojun Wan, editors, EMNLP-IJCNLP, pages 5359–
5368, 2019.

[7] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.
Neural machine translation by jointly learning to align and
translate. In ICLR, 2014.

[8] Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang,
Xiaodong Liu, Yu Wang, Songhao Piao, Jianfeng Gao, Ming
Zhou, et al. UniLMv2: Pseudo-masked language models
arXiv preprint
for unified language model pre-training.
arXiv:2002.12804, 2020.

[9] Enkhbold Bataa and Joshua Wu. An investigation of transfer
learning-based sentiment analysis in japanese. In ACL, 2019.
[10] Yonatan Belinkov, Nadir Durrani, Fahim Dalvi, Hassan Sajjad,
and James Glass. What do neural machine translation models
learn about morphology? In ACL, pages 861–872, 2017.

[11] Iz Beltagy, Kyle Lo, and Arman Cohan. SciBERT: A pre-
trained language model for scientific text. In EMNLP-IJCNLP,
pages 3613–3618, 2019.

[12] Yoshua Bengio, R´ejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal
of machine learning research, 3(Feb):1137–1155, 2003.

[13] Yoshua Bengio, Aaron Courville, and Pascal Vincent. Rep-
resentation learning: A review and new perspectives. IEEE
transactions on pattern analysis and machine intelligence, 35
(8):1798–1828, 2013.

[14] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas
Mikolov. Enriching word vectors with subword information.
TACL, 5:135–146, 2017.

[15] Zied Bouraoui, Jos´e Camacho-Collados, and Steven Schock-
aert. Inducing relational knowledge from BERT. In AAAI,
2019.

[16] Cristian Bucilua, Rich Caruana, and Alexandru Niculescu-

Mizil. Model compression. In KDD, pages 535–541, 2006.

[17] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy,
Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu.
UNITER: learning universal image-text representations. arXiv
preprint arXiv:1909.11740, 2019.

[18] Yu Cheng, Duo Wang, Pan Zhou, and Tao Zhang. A survey of
model compression and acceleration for deep neural networks.
arXiv preprint arXiv:1710.09282, 2017.

[19] Zewen Chi, Li Dong, Furu Wei, Wenhui Wang, Xian-Ling
Mao, and Heyan Huang. Cross-lingual natural language gen-
eration via pre-training. In AAAI, 2019.

[20] Yew Ken Chia, Sam Witteveen, and Martin Andrews. Trans-
former to CNN: Label-scarce distillation for efficient text
classification. arXiv preprint arXiv:1909.03508, 2019.

[21] Alexandra Chronopoulou, Christos Baziotis, and Alexandros
Potamianos. An embarrassingly simple approach for transfer
learning from pretrained language models. In NAACL-HLT,
pages 2089–2095, 2019.

[22] Yung-Sung Chuang, Chi-Liang Liu, and Hung-yi Lee.
SpeechBERT: Cross-modal pre-trained language model for
arXiv preprint
end-to-end spoken question answering.
arXiv:1910.11559, 2019.

[23] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and
Yoshua Bengio. Empirical evaluation of gated recurrent
arXiv preprint
neural networks on sequence modeling.
arXiv:1412.3555, 2014.

[24] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christo-
pher D. Manning. ELECTRA: Pre-training text encoders as
discriminators rather than generators. In ICLR, 2020.

[25] Stephane Clinchant, Kweon Woo Jung, and Vassilina
Nikoulina. On the use of BERT for neural machine translation.
In Proceedings of the 3rd Workshop on Neural Generation
and Translation, Hong Kong, 2019.

[26] Ronan Collobert, Jason Weston, L´eon Bottou, Michael Karlen,
Koray Kavukcuoglu, and Pavel P. Kuksa. Natural language
processing (almost) from scratch. J. Mach. Learn. Res., 2011.
[27] Alexis Conneau and Guillaume Lample. Cross-lingual lan-
guage model pretraining. In NeurIPS, pages 7057–7067, 2019.
[28] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav
Chaudhary, Guillaume Wenzek, Francisco Guzm´an, Edouard
Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov.
Unsupervised cross-lingual representation learning at scale.
arXiv preprint arXiv:1911.02116, 2019.

[29] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang,
Shijin Wang, and Guoping Hu. Pre-training with whole word
masking for chinese BERT. arXiv preprint arXiv:1906.08101,
2019.

[30] Andrew M Dai and Quoc V Le. Semi-supervised sequence

learning. In NeurIPS, pages 3079–3087, 2015.

[31] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell,
Quoc Le, and Ruslan Salakhutdinov. Transformer-XL: Atten-
tive language models beyond a fixed-length context. In ACL,
pages 2978–2988, 2019.

[32] Joe Davison, Joshua Feldman, and Alexander M. Rush. Com-
In

monsense knowledge mining from pretrained models.
EMNLP-IJCNLP, pages 1173–1178, 2019.

[33] Wietse de Vries, Andreas van Cranenburgh, Arianna Bisazza,
Tommaso Caselli, Gertjan van Noord, and Malvina Nis-
arXiv preprint
sim. BERTje: A Dutch BERT model.
arXiv:1912.09582, 2019.

[34] Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob
Uszkoreit, and Lukasz Kaiser. Universal transformers. In
ICLR, 2019.

[35] Pieter Delobelle, Thomas Winters, and Bettina Berendt. Rob-
BERT: a Dutch RoBERTa-based language model. arXiv
preprint arXiv:2001.06286, 2020.

[36] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina
Toutanova. BERT: pre-training of deep bidirectional trans-
formers for language understanding. In NAACL-HLT, 2019.
[37] Shizhe Diao, Jiaxin Bai, Yan Song, Tong Zhang, and Yong-
gang Wang. ZEN: pre-training chinese text encoder enhanced
by n-gram representations. arXiv preprint arXiv:1911.00720,
2019.

[38] Jesse Dodge, Gabriel Ilharco, Roy Schwartz, Ali Farhadi,
Hannaneh Hajishirzi, and Noah Smith. Fine-tuning pretrained
language models: Weight initializations, data orders, and early
stopping. arXiv preprint arXiv:2002.06305, 2020.

[39] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu,
Yu Wang, Jianfeng Gao, Ming Zhou, and Hsiao-Wuen Hon.
Unified language model pre-training for natural language un-
derstanding and generation. In NeurIPS, pages 13042–13054,
2019.

[40] Zhen Dong, Zhewei Yao, Amir Gholami, Michael W Ma-
honey, and Kurt Keutzer. Hawq: Hessian aware quantization
of neural networks with mixed-precision. In ICCV, pages
293–302, 2019.

[41] Sergey Edunov, Alexei Baevski, and Michael Auli. Pre-trained
language model representations for language generation. In
Jill Burstein, Christy Doran, and Thamar Solorio, editors,
NAACL-HLT, pages 4052–4059, 2019.

[42] Julian Eisenschlos, Sebastian Ruder, Piotr Czapla, Marcin
Kadras, Sylvain Gugger, and Jeremy Howard. MultiFiT: Effi-
cient multi-lingual language model fine-tuning. In EMNLP-
IJCNLP, pages 5701–5706, 2019.

[43] Dumitru Erhan, Yoshua Bengio, Aaron C. Courville, Pierre-
Antoine Manzagol, Pascal Vincent, and Samy Bengio. Why
does unsupervised pre-training help deep learning? J. Mach.
Learn. Res., 11:625–660, 2010.

[44] Allyson Ettinger. What BERT is not: Lessons from a new suite
of psycholinguistic diagnostics for language models. TACL,
8:34–48, 2020.

[45] Manaal Faruqui and Chris Dyer. Improving vector space word
representations using multilingual correlation. In EACL, pages
462–471, 2014.

[46] Prakhar Ganesh, Yao Chen, Xin Lou, Mohammad Ali Khan,
Yin Yang, Deming Chen, Marianne Winslett, Hassan Sajjad,
and Preslav Nakov. Compressing large-scale transformer-
arXiv preprint
based models: A case study on BERT.
arXiv:2002.11985, 2020.

[47] Matt Gardner, Joel Grus, Mark Neumann, Oyvind Tafjord,
Pradeep Dasigi, Nelson F. Liu, Matthew Peters, Michael
Schmitz, and Luke S. Zettlemoyer. Allennlp: A deep semantic
natural language processing platform. 2017.

[48] Siddhant Garg, Thuy Vu, and Alessandro Moschitti. Tanda:
Transfer and adapt pre-trained transformer models for answer
sentence selection. In AAAI, 2019.

[49] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats,
and Yann N Dauphin. Convolutional sequence to sequence
learning. In ICML, pages 1243–1252, 2017.

[50] Yoav Goldberg. Assessing BERT’s syntactic abilities. arXiv

preprint arXiv:1901.05287, 2019.

[51] Mitchell A Gordon, Kevin Duh, and Nicholas Andrews. Com-
pressing BERT: Studying the effects of weight pruning on
transfer learning. arXiv preprint arXiv:2002.08307, 2020.

[52] Jian Guan, Fei Huang, Zhihao Zhao, Xiaoyan Zhu, and Minlie
Huang. A knowledge-enhanced pretraining model for com-
monsense story generation. arXiv preprint arXiv:2001.05139,
2020.

[53] Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xi-
angyang Xue, and Zheng Zhang. Star-transformer. In NAACL-
HLT, pages 1315–1325, 2019.

[54] Abhijeet Gupta, Gemma Boleda, Marco Baroni, and Sebastian
Pad´o. Distributional vectors encode referential attributes. In
EMNLP, pages 12–21, 2015.

[55] Michael Gutmann and Aapo Hyv¨arinen. Noise-contrastive
estimation: A new estimation principle for unnormalized sta-
tistical models. In AISTATS, pages 297–304, 2010.

[56] Kai Hakala and Sampo Pyysalo. Biomedical named entity
recognition with multilingual BERT. In BioNLP Open Shared
Tasks@EMNLP, pages 56–61, 2019.

[57] Hiroaki Hayashi, Zecong Hu, Chenyan Xiong, and Graham

Neubig. Latent relation language models. In AAAI, 2019.

[58] Bin He, Di Zhou, Jinghui Xiao, Xin Jiang, Qun Liu,
Nicholas Jing Yuan, and Tong Xu. Integrating graph contex-
tualized knowledge into pre-trained language models. arXiv
preprint arXiv:1912.00147, 2019.

[59] John Hewitt and Christopher D. Manning. A structural probe
for finding syntax in word representations. In NAACL-HLT,
pages 4129–4138, 2019.

[60] GE Hinton, JL McClelland, and DE Rumelhart. Distributed
In Parallel distributed processing: explo-
representations.
rations in the microstructure of cognition, vol. 1: foundations,
pages 77–109. 1986.

[61] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distill-
arXiv preprint

ing the knowledge in a neural network.
arXiv:1503.02531, 2015.

[62] Geoffrey E Hinton and Ruslan R Salakhutdinov. Reducing
the dimensionality of data with neural networks. Science, 313
(5786):504–507, 2006.

[63] R. Devon Hjelm, Alex Fedorov, Samuel Lavoie-Marchildon,
Karan Grewal, Philip Bachman, Adam Trischler, and Yoshua
Bengio. Learning deep representations by mutual information
estimation and maximization. In ICLR, 2019.

[64] Sepp Hochreiter and J¨urgen Schmidhuber. Long short-term

memory. Neural Computation, 1997.

[65] Benjamin Hoover, Hendrik Strobelt, and Sebastian Gehrmann.
to explore learned rep-
arXiv preprint

exbert: A visual analysis tool
resentations in transformers models.
arXiv:1910.05276, 2019.

[66] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna
Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona
Attariyan, and Sylvain Gelly. Parameter-efficient transfer
learning for NLP. In ICML, pages 2790–2799, 2019.

[67] Jeremy Howard and Sebastian Ruder. Universal language
model fine-tuning for text classification. In ACL, pages 328–
339, 2018.

[68] Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong, Linjun
Shou, Daxin Jiang, and Ming Zhou. Unicoder: A universal
language encoder by pre-training with multiple cross-lingual
tasks. In EMNLP-IJCNLP, pages 2485–2494, 2019.

[69] Kexin Huang, Jaan Altosaar, and Rajesh Ranganath. Clin-
icalBERT: Modeling clinical notes and predicting hospital
readmission. arXiv preprint arXiv:1904.05342, 2019.

[70] Kenji Imamura and Eiichiro Sumita. Recycling a pre-trained
BERT encoder for neural machine translation. In Proceedings
of the 3rd Workshop on Neural Generation and Translation,
Hong Kong, November 2019.

[71] Sarthak Jain and Byron C Wallace. Attention is not explana-

tion. In NAACL-HLT, pages 3543–3556, 2019.

[72] Ganesh Jawahar, Benoˆıt Sagot, and Djam´e Seddah. What does
BERT learn about the structure of language? In ACL, pages
3651–3657, 2019.

[73] Zongcheng Ji, Qiang Wei, and Hua Xu. BERT-based rank-
arXiv preprint
ing for biomedical entity normalization.
arXiv:1908.03548, 2019.

[74] Zhengbao Jiang, Frank F. Xu, Jun Araki, and Graham Neu-
big. How can we know what language models know? arXiv
preprint arXiv:1911.12543, 2019.

[75] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen,
Linlin Li, Fang Wang, and Qun Liu. TinyBERT: Distilling
BERT for natural language understanding. arXiv preprint
arXiv:1909.10351, 2019.

[76] Di Jin, Zhijing Jin, Joey Tianyi Zhou, and Peter Szolovits. Is
BERT really robust? natural language attack on text classifi-
cation and entailment. In AAAI, 2019.

[77] Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke
Zettlemoyer, and Omer Levy. SpanBERT: Improving pre-
training by representing and predicting spans. Transactions
of the Association for Computational Linguistics, 8:64–77,
2019.

[78] Ying Ju, Fubang Zhao, Shijie Chen, Bowen Zheng, Xuefeng
Yang, and Yunfeng Liu. Technical report on conversational
question answering. arXiv preprint arXiv:1909.10772, 2019.
[79] Karthikeyan K, Zihan Wang, Stephen Mayhew, and Dan Roth.
Cross-lingual ability of multilingual BERT: An empirical
study. In ICLR, 2020.

[80] Nal Kalchbrenner, Edward Grefenstette, and Phil Blunsom.
A convolutional neural network for modelling sentences. In
ACL, 2014.

[81] Akbar Karimi, Leonardo Rossi, Andrea Prati, and Katharina
Full. Adversarial training for aspect-based sentiment analysis
with BERT. arXiv preprint arXiv:2001.11316, 2020.

[82] Nora Kassner and Hinrich Sch¨utze. Negated LAMA: birds

cannot fly. arXiv preprint arXiv:1911.03343, 2019.

[83] Pei Ke, Haozhe Ji, Siyang Liu, Xiaoyan Zhu, and Min-
lie Huang. SentiLR: Linguistic knowledge enhanced lan-
guage representation for sentiment analysis. arXiv preprint
arXiv:1911.02493, 2019.

[84] Nitish Shirish Keskar, Bryan McCann, Lav R Varshney, Caim-
ing Xiong, and Richard Socher. CTRL: A conditional trans-
former language model for controllable generation. arXiv
preprint arXiv:1909.05858, 2019.

[85] Taeuk Kim, Jihun Choi, Daniel Edmiston, and Sang goo Lee.
Are pre-trained language models aware of phrases? simple
but strong baselines for grammar induction. In ICLR, 2020.

[86] Yoon Kim. Convolutional neural networks for sentence classi-

fication. In EMNLP, pages 1746–1751, 2014.

[87] Yoon Kim, Yacine Jernite, David Sontag, and Alexander M
Rush. Character-aware neural language models. In AAAI,
2016.

[88] Thomas N Kipf and Max Welling. Semi-supervised classifica-

tion with graph convolutional networks. In ICLR, 2017.

[89] Ryan Kiros, Yukun Zhu, Ruslan R Salakhutdinov, Richard
Zemel, Raquel Urtasun, Antonio Torralba, and Sanja Fidler.
Skip-thought vectors. In NeurIPS, pages 3294–3302, 2015.

[90] Lingpeng Kong, Cyprien de Masson d’Autume, Lei Yu, Wang
Ling, Zihang Dai, and Dani Yogatama. A mutual information
maximization perspective of language representation learning.
In ICLR, 2019.

[91] Varun Kumar, Ashutosh Choudhary, and Eunah Cho. Data
augmentation using pre-trained transformer models. arXiv
preprint arXiv:2003.02245, 2020.

[92] Yuri Kuratov and Mikhail Arkhipov. Adaptation of deep bidi-
rectional multilingual transformers for russian language. arXiv
preprint arXiv:1905.07213, 2019.

[93] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin
Gimpel, Piyush Sharma, and Radu Soricut. ALBERT: A lite
BERT for self-supervised learning of language representa-
tions. In International Conference on Learning Representa-
tions, 2020.

[94] Anne Lauscher, Ivan Vulic, Edoardo Maria Ponti, Anna Ko-
rhonen, and Goran Glavas.
Informing unsupervised pre-
training with external linguistic knowledge. arXiv preprint
arXiv:1909.02339, 2019.

[95] Hang Le, Lo¨ıc Vial, Jibril Frej, Vincent Segonne, Maximin
Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoˆıt
Crabb´e, Laurent Besacier, and Didier Schwab. FlauBERT:
Unsupervised language model pre-training for French. arXiv
preprint arXiv:1912.05372, 2019.

[96] Quoc Le and Tomas Mikolov. Distributed representations of
sentences and documents. In ICML, pages 1188–1196, 2014.
[97] Jieh-Sheng Lee and Jieh Hsiang. PatentBERT: Patent clas-
sification with fine-tuning a pre-trained BERT model. arXiv
preprint arXiv:1906.02124, 2019.

[98] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim,
Sunkyu Kim, Chan Ho So, and Jaewoo Kang. BioBERT:
a pre-trained biomedical language representation model for
biomedical text mining. Bioinformatics, 2019.

[99] Yoav Levine, Barak Lenz, Or Dagan, Dan Padnos, Or Sharir,
Shai Shalev-Shwartz, Amnon Shashua, and Yoav Shoham.
SenseBERT: Driving some sense into BERT. arXiv preprint
arXiv:1908.05646, 2019.

[100] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvinine-
jad, Abdelrahman Mohamed, Omer Levy, Veselin Stoy-
anov, and Luke Zettlemoyer. BART: denoising sequence-to-
sequence pre-training for natural language generation, transla-
tion, and comprehension. arXiv preprint arXiv:1910.13461,
2019.

[101] Gen Li, Nan Duan, Yuejian Fang, Daxin Jiang, and Ming Zhou.
Unicoder-vl: A universal encoder for vision and language by
cross-modal pre-training. In AAAI, 2020.

[102] Linyang Li, Ruotian Ma, Qipeng Guo, Xiangyang Xue, and
Xipeng Qiu. BERT-ATTACK: Adversarial attack against
BERT using BERT. arXiv preprint arXiv:2004.09984, 2020.
[103] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and
Kai-Wei Chang. VisualBERT: A simple and performant base-
line for vision and language. arXiv preprint arXiv:1908.03557,2019.

[104] Xiang Lisa Li and Jason Eisner. Specializing word embed-
dings (for parsing) by information bottleneck. In EMNLP-
IJCNLP, pages 2744–2754, 2019.

[105] Xin Li, Lidong Bing, Wenxuan Zhang, and Wai Lam. Exploit-
ing BERT for end-to-end aspect-based sentiment analysis. In
W-NUT@EMNLP, 2019.

[106] Zhongyang Li, Xiao Ding, and Ting Liu. Story ending predic-
tion by transferable bert. In IJCAI, pages 1800–1806, 2019.
[107] Liyuan Liu, Xiang Ren, Jingbo Shang, Xiaotao Gu, Jian Peng,
and Jiawei Han. Efficient contextualized representation: Lan-
guage model pruning for sequence labeling. In EMNLP, pages
1215–1225, 2018.

[108] Nelson F. Liu, Matt Gardner, Yonatan Belinkov, Matthew E.
Peters, and Noah A. Smith. Linguistic knowledge and transfer-
ability of contextual representations. In NAACL-HLT, pages
1073–1094, 2019.

[109] Pengfei Liu, Xipeng Qiu, and Xuanjing Huang. Recurrent
neural network for text classification with multi-task learning.
In IJCAI, 2016.

[110] Qi Liu, Matt J Kusner, and Phil Blunsom. A survey on con-
textual embeddings. arXiv preprint arXiv:2003.07278, 2020.
[111] Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju,
Haotang Deng, and Ping Wang. K-BERT: Enabling language
representation with knowledge graph. In AAAI, 2019.

[112] Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Haotang
Deng, and Qi Ju. FastBERT: a self-distilling BERT with
adaptive inference time. In ACL, 2020.

[113] Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng
Gao. Improving multi-task deep neural networks via knowl-
edge distillation for natural language understanding. arXiv
preprint arXiv:1904.09482, 2019.

[114] Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng
Gao. Multi-task deep neural networks for natural language
understanding. In ACL, 2019.

[115] Xiulei Liu, Hao Cheng, Peng cheng He, Weizhu Chen,
Yu Wang, Hoifung Poon, and Jianfeng Gao. Adversarial
training for large neural language models. arXiv preprint
arXiv:2004.08994, 2020.

[116] Yang Liu and Mirella Lapata. Text summarization with pre-

trained encoders. In EMNLP/IJCNLP, 2019.

[117] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Man-
dar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke
Zettlemoyer, and Veselin Stoyanov. RoBERTa: A ro-
bustly optimized BERT pretraining approach. arXiv preprint
arXiv:1907.11692, 2019.

[118] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov,
Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer.
Multilingual denoising pre-training for neural machine trans-
lation. arXiv preprint arXiv:2001.08210, 2020.

[119] Robert L. Logan IV, Nelson F. Liu, Matthew E. Peters, Matt Gardner, and Sameer Singh. Barack’s wife hillary: Using
knowledge graphs for fact-aware language modeling. In ACL,
2019.

[120] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. ViL-
BERT: Pretraining task-agnostic visiolinguistic representa-
tions for vision-and-language tasks. In NeurIPS, pages 13–23,
2019.

[121] Wenhao Lu, Jian Jiao, and Ruofei Zhang. TwinBERT: Distill-
ing knowledge to twin-structured BERT models for efficient
retrieval. arXiv preprint arXiv:2002.06275, 2020.

[122] Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan,
Tianrui Li, Xilin Chen, and Ming Zhou. UniViLM: A unified
video and language pre-training model for multimodal under-
standing and generation. arXiv preprint arXiv:2002.06353,
2020.

[123] Minh-Thang Luong, Hieu Pham, and Christopher D Manning.
Bilingual word representations with monolingual quality in
mind. In Proceedings of the 1st Workshop on Vector Space
Modeling for Natural Language Processing, pages 151–159,
2015.

[124] Diego Marcheggiani, Joost Bastings, and Ivan Titov. Ex-
ploiting semantics in neural machine translation with graph
In NAACL-HLT, pages 486–492,
convolutional networks.
2018.

[125] Louis Martin, Benjamin M¨uller, Pedro Javier Ortiz Su´arez,
Yoann Dupont, Laurent Romary, ´Eric Villemonte de la Clerg-
erie, Djam´e Seddah, and Benoˆıt Sagot. CamemBERT: a tasty
French language model. arXiv preprint arXiv:1911.03894,
2019.

[126] Bryan McCann, James Bradbury, Caiming Xiong, and Richard
Socher. Learned in translation: Contextualized word vectors.
In NeurIPS, 2017.

[127] Oren Melamud, Jacob Goldberger, and Ido Dagan. Con-
text2Vec: Learning generic context embedding with bidirec-
tional LSTM. In CoNLL, pages 51–61, 2016.

[128] Paul Michel, Omer Levy, and Graham Neubig. Are sixteen
heads really better than one? In NeurIPS, pages 14014–14024,
2019.

[129] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Cor-
rado, and Jeffrey Dean. Distributed representations of words
and phrases and their compositionality. In NeurIPS, 2013.

[130] Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. Linguis-
tic regularities in continuous space word representations. In
HLT-NAACL, pages 746–751, 2013.

[131] Andriy Mnih and Koray Kavukcuoglu. Learning word embed-
dings efficiently with noise-contrastive estimation. In NeurIPS,
pages 2265–2273, 2013.

[132] Sinno Jialin Pan and Qiang Yang. A survey on transfer learn-
ing. IEEE Transactions on knowledge and data engineering,
22(10):1345–1359, 2009.

[133] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global vectors for word representation. In EMNLP, 2014.

[134] Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula,
and Russell Power. Semi-supervised sequence tagging with
bidirectional language models. In ACL, pages 1756–1765,
2017.

[135] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gard-
ner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer.
Deep contextualized word representations. In NAACL-HLT,
2018.

[136] Matthew E. Peters, Mark Neumann, Robert L. Logan IV, Roy
Schwartz, Vidur Joshi, Sameer Singh, and Noah A. Smith.
Knowledge enhanced contextual word representations.
In
EMNLP-IJCNLP, 2019.

[137] Matthew E. Peters, Sebastian Ruder, and Noah A. Smith. To
tune or not to tune? adapting pretrained representations to
diverse tasks. In Proceedings of the 4th Workshop on Repre-
sentation Learning for NLP, RepL4NLP@ACL 2019, Florence,
Italy, August 2, 2019, pages 7–14, 2019.

[138] Fabio Petroni, Tim Rockt¨aschel, Sebastian Riedel, Patrick
S. H. Lewis, Anton Bakhtin, Yuxiang Wu, and Alexander H.
Miller. Language models as knowledge bases? In EMNLP-
IJCNLP, pages 2463–2473, 2019.

[139] Jason Phang, Thibault F´evry, and Samuel R Bowman. Sen-
tence encoders on STILTs: Supplementary training on inter-
mediate labeled-data tasks. arXiv preprint arXiv:1811.01088,
2018.

[140] Telmo Pires, Eva Schlinger, and Dan Garrette. How multi-
lingual is multilingual BERT? In ACL, pages 4996–5001,
2019.

[141] Nina P¨orner, Ulli Waltinger, and Hinrich Sch¨utze. BERT is not
a knowledge base (yet): Factual knowledge vs. name-based
reasoning in unsupervised QA. CoRR, abs/1911.03681, 2019.
[142] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya
Sutskever. Improving language understanding by generative
pre-training. 2018. URL https://s3-us-west-2.amazonaws.
com/openai-assets/researchcovers/languageunsupervised/
languageunderstandingpaper.pdf.

[143] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario
Amodei, and Ilya Sutskever. Language models are unsuper-
vised multitask learners. OpenAI Blog, 2019.

[144] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee,
Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Pe-
ter J. Liu. Exploring the limits of transfer learning with a uni-
fied text-to-text transformer. arXiv preprint arXiv:1910.10683,
2019.

[145] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy
Liang. Squad: 100, 000+ questions for machine comprehen-
sion of text.
In Jian Su, Xavier Carreras, and Kevin Duh,
editors, EMNLP, pages 2383–2392, 2016.

[146] Prajit Ramachandran, Peter J Liu, and Quoc Le. Unsupervised
pretraining for sequence to sequence learning. In EMNLP,
pages 383–391, 2017.

[147] Siva Reddy, Danqi Chen, and Christopher D. Manning. CoQA:
A conversational question answering challenge. TACL, 7:249–
266, 2019.

[148] Emily Reif, Ann Yuan, Martin Wattenberg, Fernanda B Vie-
gas, Andy Coenen, Adam Pearce, and Been Kim. Visualizing
and measuring the geometry of BERT. In NeurIPS, pages
8592–8600, 2019.

[149] Alexander Rietzler, Sebastian Stabinger, Paul Opitz, and Ste-
fan Engl. Adapt or get left behind: Domain adaptation through
BERT language model finetuning for aspect-target sentiment
classification. arXiv preprint arXiv:1908.11860, 2019.

[150] Anna Rogers, Olga Kovaleva, and Anna Rumshisky. A primer
in BERTology: What we know about how BERT works. arXiv
preprint arXiv:2002.12327, 2020.

[151] Dana Rubinstein, Effi Levi, Roy Schwartz, and Ari Rappoport.
How well do distributional models capture different types of
semantic knowledge? In ACL, pages 726–730, 2015.

[152] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas
Wolf. DistilBERT, a distilled version of BERT: smaller, faster,
cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019.
[153] Nikunj Saunshi, Orestis Plevrakis, Sanjeev Arora, Mikhail
Khodak, and Hrishikesh Khandeparkar. A theoretical analysis
of contrastive unsupervised representation learning. In ICML,
pages 5628–5637, 2019.

[154] Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural
machine translation of rare words with subword units. In ACL,
2016.

[155] Sofia Serrano and Noah A Smith. Is attention interpretable?

In ACL, pages 2931–2951, 2019.

[156] Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao,
Amir Gholami, Michael W Mahoney, and Kurt Keutzer. Q-
BERT: Hessian based ultra low precision quantization of
BERT. In AAAI, 2020.

[157] Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick
LeGresley, Jared Casper, and Bryan Catanzaro. Megatron-
LM: Training multi-billion parameter language models using
gpu model parallelism. arXiv preprint arXiv:1909.08053,
2019.

[158] Karan Singla, Do˘gan Can, and Shrikanth Narayanan. A multi-
In

task approach to learning multilingual representations.
ACL, pages 214–220, 2018.

[159] Richard Socher, Alex Perelygin, Jean Y Wu, Jason Chuang,
Christopher D Manning, Andrew Y Ng, and Christopher Potts.
Recursive deep models for semantic compositionality over
a sentiment treebank. In EMNLP, pages 1631–1642. ACL,
2013.

[160] Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and Tie-Yan
Liu. MASS: masked sequence to sequence pre-training for
language generation. In ICML, volume 97 of Proceedings of
Machine Learning Research, pages 5926–5936, 2019.

[161] Youwei Song, Jiahai Wang, Zhiwei Liang, Zhiyue Liu, and
Tao Jiang. Utilizing BERT intermediate layers for aspect based sentiment analysis and natural language inference. arXiv
preprint arXiv:2002.04815, 2020.

[162] Asa Cooper Stickland and Iain Murray. BERT and PALs:
Projected attention layers for efficient adaptation in multi-task
learning. In ICML, pages 5986–5995, 2019.

[163] Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu
Wei, and Jifeng Dai. VL-BERT: Pre-training of generic visual-
linguistic representations. In ICLR, 2020.

[164] Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia
Schmid. Contrastive bidirectional transformer for temporal
representation learning. arXiv preprint arXiv:1906.05743,
2019.

[165] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and
Cordelia Schmid. VideoBERT: A joint model for video and
language representation learning. In ICCV, pages 7463–7472.
IEEE, 2019.

[166] Chi Sun, Luyao Huang, and Xipeng Qiu. Utilizing BERT
for aspect-based sentiment analysis via constructing auxiliary
sentence. In NAACL-HLT, 2019.

[167] Chi Sun, Xipeng Qiu, Yige Xu, and Xuanjing Huang. How
to fine-tune BERT for text classification? In China National
Conference on Chinese Computational Linguistics, pages 194–
206, 2019.

[168] Lichao Sun, Kazuma Hashimoto, Wenpeng Yin, Akari Asai,
Jia Li, Philip Yu, and Caiming Xiong. Adv-BERT: BERT
is not robust on misspellings! generating nature adversarial
samples on BERT. arXiv preprint arXiv:2003.04985, 2020.
[169] Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. Patient knowl-
edge distillation for BERT model compression. In EMNLP-
IJCNLP, pages 4323–4332, 2019.

[170] Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen,
Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, and Hua
Wu. ERNIE: enhanced representation through knowledge
integration. arXiv preprint arXiv:1904.09223, 2019.

[171] Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian,
Hua Wu, and Haifeng Wang. ERNIE 2.0: A continual pre-
In AAAI,
training framework for language understanding.
2019.

[172] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yim-
ing Yang, and Denny Zhou. MobileBERT: a compact task-
agnostic BERT for resource-limited devices. arXiv preprint
arXiv:2004.02984, 2020.

[173] Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to
sequence learning with neural networks. In NeurIPS, pages
3104–3112, 2014.

[174] Kai Sheng Tai, Richard Socher, and Christopher D. Manning.
Improved semantic representations from tree-structured long
In ACL, pages 1556–1566,
short-term memory networks.
2015.

[175] Hao Tan and Mohit Bansal. LXMERT: Learning crossmodality encoder representations from transformers. In EMNLP-IJCNLP, pages 5099–5110, 2019.

[176] Matthew Tang, Priyanka Gandhi, Md Ahsanul Kabir, Christo-
pher Zou, Jordyn Blakey, and Xiao Luo. Progress notes clas-
sification and keyword extraction using attention-based deep
learning models with BERT. arXiv preprint arXiv:1910.05786,
2019.

[177] Raphael Tang, Yao Lu, Linqing Liu, Lili Mou, Olga Vechto-
mova, and Jimmy Lin. Distilling task-specific knowledge
from BERT into simple neural networks. arXiv preprint
arXiv:1903.12136, 2019.

[178] Wilson L. Taylor. “cloze procedure”: A new tool for measur-
ing readability. Journalism Quarterly, 30(4):415–433, 1953.
[179] Ian Tenney, Dipanjan Das, and Ellie Pavlick. BERT rediscov-
ers the classical NLP pipeline. In Anna Korhonen, David R.
Traum, and Llu´ıs M`arquez, editors, ACL, pages 4593–4601,
2019.

[180] Ian Tenney, Patrick Xia, Berlin Chen, Alex Wang, Adam Po-
liak, R. Thomas McCoy, Najoung Kim, Benjamin Van Durme,
Samuel R. Bowman, Dipanjan Das, and Ellie Pavlick. What
do you learn from context? probing for sentence structure in
contextualized word representations. In ICLR, 2019.

[181] Henry Tsai, Jason Riesa, Melvin Johnson, Naveen Arivazha-
gan, Xin Li, and Amelia Archer. Small and practical BERT
In EMNLP-IJCNLP, pages
models for sequence labeling.
3632–3636, 2019.

[182] Ming Tu, Kevin Huang, Guangtao Wang, Jing Huang, Xi-
aodong He, and Bowen Zhou. Select, answer and explain:
Interpretable multi-hop reading comprehension over multiple
documents. In AAAI, 2020.

[183] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina
Toutanova. Well-read students learn better: The impact of
student initialization on knowledge distillation. arXiv preprint
arXiv:1908.08962, 2019.

[184] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko-
reit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In NeurIPS, 2017.

[185] Jesse Vig. A multiscale visualization of attention in the trans-

former model. In ACL, 2019.

[186] Antti Virtanen, Jenna Kanerva, Rami Ilo, Jouni Luoma, Juhani
Luotolahti, Tapio Salakoski, Filip Ginter, and Sampo Pyysalo.
Multilingual is not enough: BERT for Finnish. arXiv preprint
arXiv:1912.07076, 2019.

[187] Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, and
Ivan Titov. Analyzing multi-head self-attention: Specialized
heads do the heavy lifting, the rest can be pruned. In ACL,
pages 5797–5808, 2019.

[188] Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, and
Sameer Singh. Universal adversarial triggers for attacking and
analyzing NLP. In EMNLP-IJCNLP, pages 2153–2162, 2019.
[189] Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet
Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R.
Bowman. SuperGLUE: A stickier benchmark for general-
purpose language understanding systems. In NeurIPS, pages 3261–3275, 2019.

[190] Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill,
Omer Levy, and Samuel R. Bowman. GLUE: A multi-task
benchmark and analysis platform for natural language under-
standing. In ICLR, 2019.

[191] Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing
Huang, Jianshu Ji, Guihong Cao, Daxin Jiang, and Ming Zhou.
K-adapter: Infusing knowledge into pre-trained models with
adapters. arXiv preprint arXiv:2002.01808, 2020.

[192] Shaolei Wang, Wanxiang Che, Qi Liu, Pengda Qin, Ting Liu,
and William Yang Wang. Multi-task self-supervised learning
for disfluency detection. In AAAI, 2019.

[193] Wei Wang, Bin Bi, Ming Yan, Chen Wu, Zuyi Bao, Liwei
Peng, and Luo Si. StructBERT: Incorporating language struc-
tures into pre-training for deep language understanding. In
ICLR, 2020.

[194] Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang,
and Ming Zhou. MiniLM: Deep self-attention distillation for
task-agnostic compression of pre-trained transformers. arXiv
preprint arXiv:2002.10957, 2020.

[195] Xiaozhi Wang, Tianyu Gao, Zhaocheng Zhu, Zhiyuan Liu,
Juanzi Li, and Jian Tang. KEPLER: A unified model for
knowledge embedding and pre-trained language representa-
tion. arXiv preprint arXiv:1911.06136, 2019.

[196] Yuxuan Wang, Yutai Hou, Wanxiang Che, and Ting Liu. From
static to dynamic word representations: a survey. International
Journal of Machine Learning and Cybernetics, pages 1–20,
2020.

[197] Zhen Wang, Jianwen Zhang, Jianlin Feng, and Zheng Chen.
Knowledge graph and text jointly embedding. In EMNLP,
pages 1591–1601, 2014.

[198] Junqiu Wei, Xiaozhe Ren, Xiaoguang Li, Wenyong Huang,
Yi Liao, Yasheng Wang, Jiashu Lin, Xin Jiang, Xiao Chen,
and Qun Liu. NEZHA: Neural contextualized representa-
tion for chinese language understanding. arXiv preprint
arXiv:1909.00204, 2019.

[199] Xing Wu, Shangwen Lv, Liangjun Zang, Jizhong Han, and
Songlin Hu. Conditional BERT contextual augmentation. In
International Conference on Computational Science, pages
84–95, 2019.

[200] Xing Wu, Tao Zhang, Liangjun Zang, Jizhong Han, and
Songlin Hu. ”mask and infill” : Applying masked language
model to sentiment transfer. In IJCAI, 2019.

[201] Ruobing Xie, Zhiyuan Liu, Jia Jia, Huanbo Luan, and
Maosong Sun. Representation learning of knowledge graphs
with entity descriptions. In IJCAI, 2016.

[202] Wenhan Xiong, Jingfei Du, William Yang Wang, and Veselin
Pretrained encyclopedia: Weakly supervised

Stoyanov.
knowledge-pretrained language model. In ICLR, 2020.

[203] Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, and
Ming Zhou. BERT-of-Theseus: Compressing BERT by pro-
gressive module replacing. arXiv preprint arXiv:2002.02925, 2020.

[204] Hu Xu, Bing Liu, Lei Shu, and Philip S. Yu. BERT post-
training for review reading comprehension and aspect-based
sentiment analysis. In NAACL-HLT, 2019.

[205] Jiacheng Xu, Xipeng Qiu, Kan Chen, and Xuanjing Huang.
Knowledge graph representation with jointly structural and
textual encoding. In IJCAI, pages 1318–1324, 2017.

[206] Yige Xu, Xipeng Qiu, Ligao Zhou, and Xuanjing Huang.
Improving BERT fine-tuning via self-ensemble and self-
distillation. arXiv preprint arXiv:2002.10345, 2020.

[207] An Yang, Quan Wang, Jing Liu, Kai Liu, Yajuan Lyu, Hua
Wu, Qiaoqiao She, and Sujian Li. Enhancing pre-trained
language representations with rich knowledge for machine
reading comprehension. In ACL, pages 2346–2357, 2019.

[208] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio,
William W. Cohen, Ruslan Salakhutdinov, and Christopher D.
Manning. HotpotQA: A dataset for diverse, explainable multi-
hop question answering. In EMNLP, pages 2369–2380, 2018.
[209] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell,
Russ R Salakhutdinov, and Quoc V Le. XLNet: General-
ized autoregressive pretraining for language understanding. In
NeurIPS, pages 5754–5764, 2019.

[210] Ziqing Yang, Yiming Cui, Zhipeng Chen, Wanxiang Che, Ting
Liu, Shijin Wang, and Guoping Hu. Textbrewer: An open-
source knowledge distillation toolkit for natural language pro-
cessing. arXiv preprint arXiv:2002.12620, 2020.

[214] Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong
Sun, and Qun Liu. ERNIE: enhanced language representation
with informative entities. In ACL, 2019.

[215] Zhuosheng Zhang, Junjie Yang, and Hai Zhao. Retrospective
reader for machine reading comprehension. arXiv preprint
arXiv:2001.09694, 2020.

[216] Sanqiang Zhao, Raghav Gupta, Yang Song, and Denny Zhou.
Extreme language model compression with optimal subwords
and shared projections. arXiv preprint arXiv:1909.11687,
2019.

[217] Huaping Zhong, Jianwen Zhang, Zhen Wang, Hai Wan, and
Zheng Chen. Aligning knowledge and text embeddings by
entity descriptions. In EMNLP, pages 267–272, 2015.

[218] Ming Zhong, Pengfei Liu, Danqing Wang, Xipeng Qiu, and
Xuanjing Huang. Searching for effective neural extractive
summarization: What works and what’s next. In ACL, pages
1049–1058, 2019.

[219] Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang,
Xipeng Qiu, and Xuan-Jing Huang. Extractive summarization
as text matching. In ACL, 2020.

[220] Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein,
and Jingjing Liu. FreeLB: Enhanced adversarial training for
natural language understanding. In ICLR, 2020.

[211] Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe
Wasserblat. Q8BERT: Quantized 8bit BERT. arXiv preprint
arXiv:1910.06188, 2019.

[221] Jinhua Zhu, Yingce Xia, Lijun Wu, Di He, Tao Qin, Wengang
Zhou, Houqiang Li, and Tieyan Liu. Incorporating BERT into
neural machine translation. In ICLR, 2020.

[212] Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter J
Liu. PEGASUS: Pre-training with extracted gap-sentences for
abstractive summarization. arXiv preprint arXiv:1912.08777,
2019.

[213]Xingxing Zhang, Furu Wei, and Ming Zhou. HIBERT: Document level pre-training of hierarchical bidirectional transform-ers for document summarization. InACL, pages 5059–5069,2019.

[214] Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong
Sun, and Qun Liu. ERNIE: enhanced language representation
with informative entities. In ACL, 2019.

[215] Zhuosheng Zhang, Junjie Yang, and Hai Zhao. Retrospective
reader for machine reading comprehension. arXiv preprint
arXiv:2001.09694, 2020.

[216] Sanqiang Zhao, Raghav Gupta, Yang Song, and Denny Zhou.
Extreme language model compression with optimal subwords
and shared projections. arXiv preprint arXiv:1909.11687,
2019.

[217] Huaping Zhong, Jianwen Zhang, Zhen Wang, Hai Wan, and
Zheng Chen. Aligning knowledge and text embeddings by
entity descriptions. In EMNLP, pages 267–272, 2015.

[218] Ming Zhong, Pengfei Liu, Danqing Wang, Xipeng Qiu, and
Xuanjing Huang. Searching for effective neural extractive
summarization: What works and what’s next. In ACL, pages
1049–1058, 2019.

[219] Ming Zhong, Pengfei Liu, Yiran Chen, Danqing Wang,
Xipeng Qiu, and Xuan-Jing Huang. Extractive summarization
as text matching. In ACL, 2020.

[220] Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein,
and Jingjing Liu. FreeLB: Enhanced adversarial training for
natural language understanding. In ICLR, 2020.

[221] Jinhua Zhu, Yingce Xia, Lijun Wu, Di He, Tao Qin, Wengang
Zhou, Houqiang Li, and Tieyan Liu. Incorporating BERT into
neural machine translation. In ICLR, 2020.

[222] Xiaodan Zhu, Parinaz Sobihani, and Hongyu Guo. Long
short-term memory over recursive structures. In International
Conference on Machine Learning, pages 1604–1612, 2015.
[223] Barret Zoph and Quoc V Le. Neural architecture search with reinforcement learning. InICLR, 2017.

你可能感兴趣的:(NLP,神经网络,自然语言处理,深度学习)