语言模型ELECTRA TinyBERT MINILM T5 ERNIE XLNet ALBERT RoBERTa DistilBERT SpanBERT BERT

文章目录

  • 语言模型
  • ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators, Kevin Clark, et al., ICLR, 2020.
  • TinyBERT: Distilling BERT for Natural Language Understanding, Xiaoqi Jiao, et al., ICLR, 2020.
  • MINILM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers, Wenhui Wang, et al., arXiv, 2020.
  • T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, et al., arXiv preprint, 2019.
  • ERNIE: Enhanced Language Representation with Informative Entities, Zhengyan Zhang, et al., ACL, 2019.
  • XLNet: Generalized Autoregressive Pretraining for Language Understanding, Zhilin Yang, et al., arXiv preprint, 2019.
  • ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, Zhenzhong Lan, et al., arXiv preprint, 2019.
  • RoBERTa: A Robustly Optimized BERT Pretraining Approach, Yinhan Liu, et al., arXiv preprint, 2019.
  • DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, Victor sanh, et al., arXiv, 2019.
  • SpanBERT: Improving Pre-training by Representing and Predicting Spans, Mandar Joshi, et al., TACL, 2019.
  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Jacob Devlin, et al., NAACL 2019, 2018.

语言模型

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators, Kevin Clark, et al., ICLR, 2020.

诸如BERT之类的掩码语言建模(MLM)预训练方法通过用[MASK]替换一些标记来破坏输入,然后训练模型以重建原始标记。 虽然它们在转移到下游NLP任务时会产生良好的结果,但它们通常需要大量计算才能有效。 作为替代方案,我们提出了一种更有效的样本预训练任务,称为替换令牌检测。 我们的方法不是掩盖输入,而是通过使用从小型发电机网络采样的合理替代品替换一些令牌来破坏输入。 然后,我们训练一个判别模型,该模型预测损坏的输入中的每个标记是否被生成器采样器代替,而不是训练一个预测损坏的令牌的原始身份的模型。 全面的实验表明,此新的预训练任务比MLM更有效,因为该任务是定义为整体输入标记,而不是仅被掩盖的较小子集。 结果,在模型大小,数据和计算相同的情况下,我们的方法所学习的上下文表示大大优于BERT所学习的上下文表示。 小型机型的收益尤为明显。 例如,在GLUE自然语言理解基准上,我们在一个GPU上训练了4天的模型优于GPT(使用30倍的计算能力训练)。 我们的方法在规模上也行之有效,在使用少于1/4的计算时,其性能与RoBERTa和XLNet相当,而在使用相同数量的计算时,其性能优于RoBERTa和XLNet。

TinyBERT: Distilling BERT for Natural Language Understanding, Xiaoqi Jiao, et al., ICLR, 2020.

语言模型预训练(例如BERT)已大大改善了许多自然语言处理任务的性能。 然而,预训练语言模型通常在计算上是昂贵的并且是存储器密集型的,因此难以在资源受限的设备上有效地执行它们。 为了加快推理速度并减小模型大小,同时又保持精度,我们首先提出了一种新颖的变压器蒸馏方法,该方法是针对基于变压器的模型专门设计的叉式蒸馏(KD)。 通过利用这种新的KD方法,可以将大型“教师” BERT中编码的大量知识很好地转移到小型“学生” TinyBERT中。 此外,我们为TinyBERT引入了一个新的两阶段学习框架,该框架在预训练阶段和特定于任务的学习阶段都执行Transformer分发。 该框架确保TinyBERT可以捕获BERT中的通用域以及特定于任务的知识。TinyBERT1在经验上有效,在GLUE基准上达到了教师BERTBASE的96%以上的性能,而后者则小了7.5倍,而推论则小了9.4倍。 TinyBERT在BERT蒸馏方面也比最新技术水平明显好,参数只有〜28%且推断时间只有〜31%。

MINILM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers, Wenhui Wang, et al., arXiv, 2020.

预先训练的语言模型(例如BERT(Devlin等人,2018)及其变体)已在各种NLP任务中取得了显著成功。 但是,这些模型通常包含数亿个参数,由于延迟和容量限制,这些参数给实际应用中的微调和在线服务带来了挑战。 在这项工作中,我们提出了一种简单有效的方法来压缩大型变压器(Vaswani等,2017)的预训练模型,称为深度自注意蒸馏。 小型模型(学生)是通过深深模仿大型模型(教师)的自我关注模块来训练的,该模块在Transformer网络中起着至关重要的作用。 具体来说,我们建议提炼老师最后一个Transformer层的自我注意模块,这对于学生是有效且灵活的。 此外,除了在新知识中使用的注意力分布(即查询和键的缩放点积)外,我们还将自我注意模块中值之间的缩放点积作为新的深层自我注意知识引入。 现有作品。 此外,我们表明,引入助教(Mirzadeh等人,2019)也有助于提炼大型预训练的Transformer模型。 实验结果表明,在学生模型的不同参数大小下,我们的单语种模型优于最新的基线。 特别是,使用50%的Transformer参数和教师模型的计算,它在SQuAD 2.0和数个GLUE基准测试任务上保留了99%以上的准确性。 我们还将深层自注意蒸馏应用于多语言预训练模型也获得了竞争性结果。

T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, et al., arXiv preprint, 2019.

转移学习是一种在自然语言处理(NLP)中强大的技术,在这种模型中,模型首先要针对数据丰富的任务进行预训练,然后再针对下游任务进行微调。 转移学习的有效性引起了方法,方法和实践的多样性。 在本文中,我们通过引入一个统一的框架将所有基于文本的语言问题转换为文本到文本格式,探索了NL​​P的迁移学习技术的前景。 我们的系统研究比较了数十种语言理解任务的预训练目标,体系结构,未标记的数据集,传输方法和其他因素。 通过将我们对规模的探索所获得的见识与新的``巨大的清洁爬行语料库’'相结合,我们在许多基准上获得了最新的结果,这些基准涵盖了摘要,问题回答,文本分类等等。 为了促进NLP迁移学习的未来工作,我们发布了数据集,预训练的模型和代码。

ERNIE: Enhanced Language Representation with Informative Entities, Zhengyan Zhang, et al., ACL, 2019.

神经语言表示模型(例如在大型语料库上进行了预训练的BERT)可以很好地捕获纯文本中的丰富语义模式,并且可以对其进行微调以持续提高各种NLP任务的性能。 但是,现有的预训练语言模型很少考虑合并知识图(KGs),后者可以提供丰富的结构化知识事实,以更好地理解语言。 我们认为,KG中的信息实体可以增强外部知识的语言表示能力。 在本文中,我们利用大型文本语料库和KG来训练增强的语言表示模型(ERNIE),该模型可以同时充分利用词汇,句法和知识信息。 实验结果表明,ERNIE在各种知识驱动的任务上取得了显着改进,同时与其他常见NLP任务上的最新模型BERT相当。 可以从此https URL获得本文的源代码。

XLNet: Generalized Autoregressive Pretraining for Language Understanding, Zhilin Yang, et al., arXiv preprint, 2019.

借助对双向上下文进行建模的能力,与基于自回归语言建模的预训练方法相比,像BERT这样的基于自动编码的去噪预训练方法可以获得更好的性能。 但是,BERT依赖于使用掩码破坏输入,因此忽略了掩蔽位置之间的依赖性,并且遭受了预训练与微调之间的差异。 鉴于这些优点和缺点,我们提出XLNet,这是一种广义的自回归预训练方法,该方法(1)通过最大化因式分解的所有排列的预期似然性来实现双向上下文学习,并且(2)克服了BERT的局限性,因为它具有自回归功能 公式。 此外,XLNet将来自最先进的自回归模型Transformer-XL的思想整合到预训练中。 根据经验,在可比较的实验设置下,XLNet在20个任务上的表现要优于BERT,通常包括问题回答,自然语言推断,情感分析和文档排名等。

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, Zhenzhong Lan, et al., arXiv preprint, 2019.

在预训练自然语言表示时增加模型大小通常会提高下游任务的性能。 但是,由于GPU / TPU内存的限制和更长的训练时间,在某些时候,进一步的模型增加变得更加困难。 为了解决这些问题,我们提出了两种参数减少技术以降低内存消耗并提高BERT的训练速度。 全面的经验证据表明,与原始BERT相比,我们提出的方法所导致的模型可扩展性更好。 我们还使用了一种自我监督的损失,该损失集中于对句子间的连贯性进行建模,并表明它始终可以通过多句子输入帮助下游任务。 因此,我们的最佳模型在GLUE,RACE和\ squad基准上建立了最新的结果,同时与BERT-large相比具有更少的参数。 代码和预训练模型可从此https URL获得。

RoBERTa: A Robustly Optimized BERT Pretraining Approach, Yinhan Liu, et al., arXiv preprint, 2019.

语言模型的预训练已导致显着的性能提升,但是不同方法之间的仔细比较是具有挑战性的。 训练的计算量很大,通常是在不同大小的私人数据集上进行的,而且正如我们将要展示的,超参数的选择对最终结果有重大影响。 我们提出了BERT预训练的重复研究(Devlin等人,2019),该研究仔细衡量了许多关键超参数和训练数据量的影响。 我们发现BERT的训练不足,并且可以匹配或超过其发布的每个模型的性能。 我们最好的模型在GLUE,RACE和SQuAD上获得了最先进的结果。 这些结果突出了以前被忽略的设计选择的重要性,并引起了人们对最近报告的改进来源的质疑。 我们发布我们的模型和代码。

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, Victor sanh, et al., arXiv, 2019.

随着从大型预训练模型进行的转移学习在自然语言处理(NLP)中变得越来越普遍,在边缘和/或受限的计算训练或推理预算下操作这些大型模型仍然具有挑战性。 在这项工作中,我们提出了一种预训练较小的通用语言表示模型(称为DistilBERT)的方法,该模型可以在较大的任务(如较大的对应任务)上进行微调,并具有良好的性能。 使用提炼来构建特定于任务的模型,我们在预训练阶段利用知识提炼,表明可以将BERT模型的大小减少40%,同时保留其97%的语言理解能力和60% 快点。 为了利用较大的模型在预训练期间学到的归纳偏差,我们引入了三重损失,将语言建模,蒸馏和余弦距离损失结合在一起。 我们更小,更快,更轻便的模型比预训练便宜,并且我们在概念验证实验和比较性设备上研究中证明了其在设备上计算的能力。

SpanBERT: Improving Pre-training by Representing and Predicting Spans, Mandar Joshi, et al., TACL, 2019.

我们介绍SpanBERT,这是一种预训练方法,旨在更好地表示和预测文本范围。 我们的方法通过(1)屏蔽连续的随机跨度而不是随机令牌来扩展BERT,并且(2)训练跨度边界表示来预测屏蔽跨度的整个内容,而无需依赖其中的单个令牌表示。 Span-BERT的性能始终优于BERT和我们优化的基线,在**跨度选择任务(例如问题回答和共指解析)**上获得了可观的收益,特别是在训练数据和模型大小与BERTlarge相同的情况下,我们的单个模型获得了94.6%和88.7%的F1 分别在SQuAD 1.1和2.0上。 我们还实现了OntoNotes共指解析任务(79.6%F1),TACRED关系提取基准的强大性能,甚至在GLUE方面取得了新的成就

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Jacob Devlin, et al., NAACL 2019, 2018.

我们介绍了一种称为BERT的新语言表示模型,该模型表示“Transformers ”的“双向编码器表示”。 与最新的语言表示模型不同,BERT被设计为通过在所有层的左和右上下文上共同进行条件预处理来从未标记的文本中预先训练深度双向表示。 因此,只需使用一个额外的输出层就可以对经过预训练的BERT模型进行微调,以创建适用于各种任务(例如问题解答和语言推论)的最新模型,而无需进行大量任务处理, 特定的体系结构修改。

BERT在概念上很简单,在经验上也很强大。 它在11种自然语言处理任务上获得了最新的最新结果,包括将GLUE得分提高到80.5%(绝对提高7.7%),MultiNLI准确度达到86.7%(绝对提高4.6%),SQuAD v1.1 问题答案测试F1达到93.2(绝对值提高1.5分)和SQuAD v2.0测试F1达到83.1(绝对值提高5.1点)。

你可能感兴趣的:(语言模型ELECTRA TinyBERT MINILM T5 ERNIE XLNet ALBERT RoBERTa DistilBERT SpanBERT BERT)