OpenAI GPT-2语言模型是非监督多任务学习器 Language Models are Unsupervised Multitask Learners

paper

https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

个人翻译,并不权威

语言模型是非监督多任务学习器

摘要

自然语言处理任务,比如问答,机器翻译,阅读理解和摘要,通常是通过在具体任务数
据集上的监督学习方法处理的。我们证明语言模型开始学习这些任务没有任何显示的
监督, 当训练在一个新的数百万网页组成的被叫做WebText的数据集。当以文件加问题
做为条件,被语言模型生成的答案达到55 F1在CoQA数据集上,并且没有使用127000+训
练数据,这匹敌或超过四分只三基线系统的性能。语言模型的容量对于零样本任务迁移
的成功至关重要,并且增加它在对数线性方法任务间的性能。我们的大模型,GPT-2拥
有15亿参数的Transformer在零样本任务设置的前提下在8个测试语言模型数据集中有7个
达到了目前最好的结果,然而模型依然在WebText数据集上是欠拟合的。模型中的样本
反映了这些改进,并包含了连贯的文本段落。这些发现提出了一条有前途的道路,即建
立从自然发生的例子中学习执行任务的语言处理系统。

1 介绍

机器学习系统现在擅长通过使用大型数据集的组合,高容量的模型和监督学习来训练的
任务。然而这些系统是脆弱和敏感的在微弱的改变发生在数据分布和具体任务上。当前
的系统更适合被描述为狭隘的专家而不是有能力的通才。我们想要移动到更通用的能执
行很多任务的系统,甚至不需要为每一个任务手动创建和标记一个训练数据集。

创建机器学习系统的主导方法是收集一个为期望任务演示正确行为的训练数据样本集,
训练一个系统来模仿这些行为,接着在独立同分布(IID)举出的例子上测试它的性能。
这对狭隘的专家取得进展很有帮助。但是这种方法在字幕模型,阅读理解系统和图像分
类器的多样性和各种可能性输入的行为上飘忽不定,这突出了这种方法的一些缺点。

我们的怀疑是在单域数据集训练单任务的流行是在当前系统中观察不到泛化的主要原因。
当前架构朝鲁棒系统的进展很可能需要训练和度量性能在宽范围的领域和任务。 最近,
一些基准已经被提出,比如GLUE和decaNLP,被用来研究这些。

Multitask learning 对于提升泛化性能是一个有前途的框架。然而,多任务训练在
NLP依然很初期。最近的工作报告显示了,适度的性能提升,而且到目前为止,两项最
雄心勃勃的工作分别训练了10对和17对(数据集,目标)。从一个元学习的观点,
每一个(数据集,目标)对儿是一个从数据集和目标集的数据分布中进行的一个单训
练样本采样。 目前的机器学习系统需要成百上千的样本来归纳函数才能泛化的很好。
这表明,多任务训练需要同样多的有效训练对儿,才能实现当前方法的承诺。继续将数据
集的创建和目标的设计扩展到被需要的程度,从而使用当前的技术强行实现我们的目标
是非常困难的。这正在激励探索执行多任务学习的额外方法。

目前语言任务上性能最好的系统是使用一个预训练和监督微调的结合。这种方法有着悠久
的历史, 并且倾向于更灵活的迁移形式。首先,词向量被学习和使用作为具体任务架构
的输入,接着循环网络的上下文表示被迁移,然后最近的工作表明具体任务架构不再被
需要而且迁移许多self-attention块就是足够的。

这些方法为了执行任务依然需要监督训练。当只有很少或者没有监督数据可以获得时,另
一个工作线展示了语言模型执行特定任务的前景,例如常识推理和情感分析。

在本文中,我们联合这两条工作线和继续倾向于更通用的迁移方法。我们证明语言模型
能够在一个零样本的设置下执行下游任务,没有任何的参数或者架构修改。
我们证明这个方法展示了有可能通过突出语言模型的能力来执行一个零样本设置的宽范
围任务。我们获得有前途,有竞争力和目前最好的结果在不同的任务上。

2 方法

我们方法的核心是语言模型。语言建模通常的是一个样本集(x1, x2, …, xn)的
非监督分布估计, 每个样本都是由长度可变的符号序列组成。 (s1, s2, …, sn)
因为语言有一个自然的顺序,通常在符号上将联合概率分解为条件概率的乘积。

公式 不写

这种方法允许从p(x) 以及形式p(sn-k, …, sn|s1, …, sn-k-1)的任何条件中进行
可追踪采样和估计。最近几年,在能够计算这些条件概率模型的表现力上有显著的提升,
例如self-attention架构像Transformer。

学习去执行一个单任务可以用概率框架表示为估计条件概率分布p(output|input)。
由于一个通用的系统应该能够执行许多不同的任务,即使对于相同的输入,它不仅
应该在输入上,而且应该在要执行的任务上进行条件调整。意思就是它因该建模
p(output|input, task)
在多任务和元学习的设置中,这已经被各种形式化。
任务调整通常在架构级别实现,例如Kaiser等人2017年中具体任务编码器和解码器,
或者在算法级别的实现,例如MAML的内外循环优化框架。但是正如McCann等人的例子,
语言提供了一种灵活的方式,可以将具体的任务,输入和输入全部作为符号序列。
例如,一个翻译训练样本可以被写作一个序列。
(translate to french, english text, french text)
同样,一个阅读理解的样本可以被写为
(answer the question, document, question, answer)
McCann 在2018年证明训练一个单模型,MQAN,来推断和执行许多不同的任务在这种形式
的样本上是可能的。
原则上,语言模型有能力学习McCann的任务,并且不需要明确的监督哪些符号是要预测的
输出。由于监督目标与无监督目标相同,但仅在序列的一个子集上进行评估,因此无监督
目标的全局最小值也是监督目标的全局最小值。在这个微弱的玩具设置中,将密度估计
作为一个原则性的训练目标的关注点在Sutskever等人2015年的研究讨论中被放到一边。
问题变成,理论上,我们是否能够优化非监督学习到收敛。初步试验证实,足够大的语言
模型能够在这种玩具般的设置中执行多任务学习,但是学习要比明确的监督学习方法慢
的多。

虽然从上面良好设置的描述到“野生语言“的混乱,它是很大的一步,Weston认为在对话的
背景下,需要开发能够直接从自然语言学习和演示概念证明的系统,在没有奖励信号的情
况下学习一个问答任务,通过使用导师输出的前向预测。虽然对话是一种有吸引力的
方法,但是我们担心它限制的过于严格。互联网包含大量信息,这些信息是被动可用的,
不需要交互通信。我们的推测是,不管它们采取的方法如何,为了更好的预测,一个有
足够能力的语言模型将开始学习推断和执行在自然语言序列中被证明的任务。事实上,
如果一个语言模型能够做到这一点,它将执行非监督多任务学习。

2.1 训练数据集

大多数先前的工作在一个单域的文本上训练语言模型,例如新闻文章,维基百科或小说书籍。
我们的方法激发构建尽可能大和多样的数据集,以便在尽可能多的领域和上下文中收集
任务的自然语言演示。

一个有前途的多样化的而且几乎无限文本的来源是网络抓取,例如Common Crawl。
尽管这些档案比当前语言建模数据集大很多数量级,但是它们存在严重的数据质量问题。
Thinh & Le 2018年使用 Common Crawl 在他们的工作中处理常识推理,但是注意到大量
的文档”其内容几乎是不可理解的“。我们获得了相似的数据问题在我们开始的实验使用
Common Crawl的时候。Trinh & Le 2018使用Common Crawl的子采样中获得了最好的结果,
只是包含了最像它们目标数据集的文档。这是一个很实用的方法来提升具体任务的性能,
但是我们想在执行任务之前避免做关于任务的假设。

最为代替,我们创建了一个新的强调文档质量的爬虫。为了完成这个数据集,我们只是
爬取那些被人类策划或筛选的网页。

手动的筛选一个全网爬取将会是极其昂贵,所以作为一个开始,我们从Reddit,
一个社交媒体平台, 爬取了所有的至少有三个karme值的外部链接。这可以被看作是
一个启发式的指标,表示其他用户是否觉得链接有趣,有教育意义,或者只是搞笑。

结果数据集,WebText, 包含了4500万链接的子集。
为了能够从HTML响应中提取文本,我们使用Dragnet和Newspaper内容提取器的组合。本
文中所有的结果都使用了WebText的初步版本,该版本不包括2017年12月之后创建的链接,
并且在重复数据消除和一些基于启发式的清理之后,该版本包含了略超过800万个文档,
总共40G的文本。我们从WebText中删除了所有的维基百科文档,因为它是其他数据集的
常用数据源,而且由于训练数据和测试评估任务的数据重叠,可能会使分析复杂化。

2.2 输入表示

一个通用语言模型(LM)应该能够计算(也能生成)任何字符串的概率。当前的大规模
语言模型包含预处理步骤,比如小写,分词,词汇表外词,这限制了可建模字符串的空间。
当将Unicode字符串作为一个UTF-8字节序列处理时,优雅地完整地满足了这一需求,正如
Gillick等人2015年的工作所示。在大规模数据集上,当前字符级别的语言模型与字级别
的语言模型没有竞争力,例如 One Billion Word Benchmark
我们尝试在WebText上训练字节级别的语言模型时,发现了类似的性能差距。

字节对编码(BPE)是字符和字级语言建模之间的一个实际中间地带,它有效地在频繁
符号序列的字级输入和不频繁符号序列的字符级输入之间进行插值。尽管它的名字是这样,
但是引用BPE实现通常在Unicode编码上操作,而不是在字节序列上操作。这些实现需要
包括Unicode符号的全部空间,以便对所有Unicode字符串建模。在添加任何多符号标记之前,
这将导致基本词汇表超过13万。相比于通常与BPE一起使用的32000到64000个词汇表,这是
非常大的。相反,一个字节级别的BPE版本只需要大小为256的基本词汇表。然而,直接
将BPE应用于字节序列会导致次优合并,因为BPE使用贪婪的基于频率的启发式的方式构建
分词词汇表。我们观察到BPE中包含常见词的许多版本,如 dog,因为它们出现在许多
变体中,如 dog! dog?。这导致有限词汇槽和模型容量的次优分配。为了避免这种
情况,我们预先通知BPE不要针对任何字节序列跨字符类别合并。我们为空间添加了一个
异常,这显著提高了压缩效率,同时在多个vocab标记之间添加了最小的单词碎片。

这种输入表示允许我们将字级语言模型的经验优势与字节级方法的通用性结合起来。
由于我们的方法可以为任何Unicode字符串分配一个概率,这允许我们在任意数据集上
评估语言模型,而不用管预处理,分词或词汇大小如何。

2.3 模型

我们的语言模型使用一个基于Transformer的架构。模型大部分遵循OpenAI GPT模型的细节,
并做了一些修改。将标准化层移到每个子块的输入端,类似于预激活的残存网络并且在最后的
self-attention 块后添加了额外的标准化层。使用了一种修正的初始化方法,该方法
考虑了模型深度下剩余路径上的积累。我们在初始化时用1/pN的系数缩放剩余层的权重,
其中N是剩余层的数量。词汇表被扩展到50257。我们还将上下文大小从512增加到1024个词,
并且使用了一个更大的批512。

3 实验

我们训练并且基准化了四个具有近似对数均匀分布尺寸的语言模型。模型总结在表2中。
最小的模型等价于原始的GPT, 第二个最小模型等价于BERT的最大模型。我们最大的模型,
我们称之为GPT-2, 它的参数比GPT多了一个数量级。每个模型的学习率都是在5%的WebText
样本中手动调整的,以达到最佳的混乱程度。所有的模型在WebText依然欠拟合而且给更
多训练时间的话,目前的perlexity会有所改善。

3.1 语言模型

作为零样本任务迁移的第一步,我们感兴趣的是理解WebText语言模型怎样在零样本领域
迁移到它们被训练的主要任务是语言建模。由于我们的模型操作在字节级别,不需要有损
预处理或分词,我们可以在任何语言模型基准上评估它。语言建模数据集的结果通常是
一个数量报告,该数量是每个标准预测单元-通常是字符,字节或字,的平均负对数概率
的缩放或指数化版本。我们通过根据WebText语言模型计算数据集的对数概率并除以规范
单元数来评估相同的数量。对于这些数据集中的许多,WebText语言模型将被测试出显著
的离开分布,必须预测高度标准化的文本,人工分词,比如断开标点,收缩无序的句子,
甚至在极为罕见的在400亿字节中仅发生26次的字符串。我们在表3中报告了我们的
主要结果,使用可逆的去标记化器,尽可能多的移除人工分词或预处理。由于这些去标记
化器是可逆的,我们仍然可以计算数据集的对数概率,它们可以被认为是域适应的一种
简单形式。使用这些去标记器,我们观察到GPT-2的收益从2.5到5 perplexity。

WebText 语言模型跨域和跨数据集的迁移性很好,在零样本的设置下提升了8个数据集
中的7个数据集的目前最好结果。小型数据集(如Penn Treebank和wikitext-2)有了
很大的提升,这些数据集只有100万到200万的训练词汇。在为测量长期依赖而创建的数据集,
如LAMBADA 和Children‘s Book Test,上也发现了大的提升。我们的模型依然比之前工作
在One Billion Word Benchmark上的模型差很多。这可能是因为它既是最大的数据集而且
有一些最具破坏性的预处理-1BW的句子级混洗消除了所有的远程结构。

3.2 Children’s Book Test

The Children’s Book Test(CBT) 是为了检查语言模型在不同类别的词(命名实体,名词,
动词和介词)上的表现而创建的。CBT报告自动创建的完形填空的准确率,而不是将perplexity
作为评价度量,任务是预测省略单词的10个可能性选择中的哪一个是正确的。根据原论文
介绍的方法,我们根据语言模型计算了每一个选择的概率,以及基于这个选择的其余部分,
并且预测出概率最高的一个。如图2中所示,随着模型尺寸的增长,性能稳步提高,并在
该测试中缩小了与人类性能的大部分差距。数据重叠分析表明,CBT测试集Rudyard Kipling
的Jungle Book 中有一本在WebText中。因此我们的报告了没有明显重叠的验证集的结果。
GPT-2在普通名词和命名实体上分别拿到最好成绩93.3%和89.1%。一个去分词器被应用到
CBT来移除PTM风格的人工分词。

3.3 LAMBADA

LAMBADA数据集测试系统在文本中建模长期依赖关系的能力。任务是预测句子的最后一个字,
这至少需要50个上下文词,人类才能成功预测。GPT-2提高了最先进的水平,从99.8提高
到8.6 perplexity,并将语言模型在本实验中的准确度从19%提高到52.66%。调查GPT-2的错误
表明, 大多数预测是句子的有效延续,但不是有效的词尾。这表明语言模型没有使用额外
有用的约束,即单词必须是句子的结尾。添加一个停止词过滤器作为近似值,进一步将
准确率提高到63.24%,将此技术的总体最高水平提高了4%。先前最先进的技术使用了不同
的受限制预测的设置,其中模型的输出仅限于上下文中出现的单词。对于GPT-2,这种
限制是有害的,而不是有益的,因为答案的19%不再上下文中。我们使用的数据集版本没有
预处理。

3.4 Winograd Schema Challenge

The Winograd Schema challenge 是通过测量系统解决文本中歧义的能力来测量系统
执行常识推理的能力。最近Tinh & Le(2018)通过预测高概率的歧义结果,演示了在这
个挑战赛上使用语言模型显著的进展。我们遵循他们的问题公式,并使用图3中的全部和
部分评分技术来可视化我们的模型的性能。GPT-2提升了7%的最先进的准确率,达到70.70%。
数据集非常小,只有273个示例,因此我们建议阅读Tricelair等人(2018)来帮助这一
结果具体化。

3.5 阅读理解

The Conversation Question Answering (CoQA)数据集Reddy(2018)由来自7个不同
领域的文档组成,与提问者和问题回答者关于文档的自然语言对话配对儿。CoQA测试阅读
理解的能力,以及模型回答依赖于对话历史的模型的能力(比如 “为什么”)。当以文档,
关联会话历史,和最后的词A为条件,从GPT-2中贪婪解码获得55 F1 在开发集上。这
匹敌或超过了四个基线系统中的三个系统的性能,而不使用那些基线上训练的127000+的
人工收集的问题回答对儿。监督学习的最先进水平是,一个基于BERT系统,它接近人类
性能的89 F1。虽然GPT-2的性能对于一个没有任何监督训练的系统来说是令人兴奋的,
但对其答案和错误的一些检查表明,GPT-2经常使用基于检索的简单启发式方法,比如
回答一个是谁的问题,答案带着一个从文档中来的名字。

3.6 摘要

我们测试GPT-2对CNN和Daily Mail 数据集进行总结的能力。
为了引入总结行为,我们在文章后面添加了文本TL;DR: 而且使用k=2的Top-k 随机采样
生成100个词,这减少了重复并且鼓励比贪婪解码更抽象的总结。我们使用这100个词中
生成的前3个句子作为摘要。
从质量上讲,生成类似于总结,如表14中所示,他们经常关注文章中最新的内容或混淆
具体的细节。例如车祸中涉及了多少车辆,或者一个标志是否在帽子会衬衫上。通常
报告的ROUGE 1,2,L指标上,生成的摘要仅仅开始接近经典神经基线的性能,并且几乎
没有超过随机的从文章中选择三个句子。当移除任务提示时,GPT-2的性能在聚合度量上
下降了6.4个点,这表明了在使用自然语言的语言模型中调用具体任务的行为的能力。

3.7 翻译

我们测试GPT-2是否已经开始学习如何从一种语言翻译到另一种语言。为了帮助其推断
这是一个期望的任务,我们讲语言模型放在英语句子=法语句子个是的示例对儿的上下
文中,然后在英语句子=的最后提示之后,我们从贪婪解码的模型中取样,并使用第一个
生成的句子作为翻译。在WMT-14 English-French 测试集上,GPT-2 获得了5 BLEU,这
比之前的无监督词翻译工作中推断的双语词汇逐字替换稍差。在WMT-14 French-Engilish
测试集上,GPT-2能够利用其非常强大的英语语言模型显著提高性能,达到11.5BLEU。这
优于(Artetxe 2017)和(Lample 2017)的几个无监督机器翻译基线,但是仍然比当前
最佳无监督机器翻译方法(Artetxe 2019)的33.5BLEU 差得多。我们对这项任务的性能
感到惊讶,因为我们故意将非英语网页从WebText中删除作为筛选步骤。为了证实这一点,
我们在WebText上运行了一个字节级别的语言检测器,它只检测到10MB的法语数据,这比
之前的无监督机器翻译研究中常见的单语法语语料库大约小500倍。

3.8 问答

测试语言模型中包含哪些信息的一种潜在的方法是评估它生成的事实样式正确答案的频率。
先前的神经系统中展示这种行为,其中所有信息都存储在参数中,例如神经会话模型
(Vinyalas&Le 2015),由于缺乏高质量的评估数据集,报告了定性结果。最近引入的
Natural Question dataset 是一种很有前景的资源,可以更定量的测试这一点。与翻译
类似,语言模型的上下文以示例回答作为种子,帮助模型推断数据集的简短回答样式。
GPT-2通过阅读理解数据集(如SQUAD)上常用的精确匹配度量进行评估,正确回答了4.1%
的问题。作为一个比较点,最小的模型不会超过难以置信的简单基线的1.0%准确率,该
基线返回每个问题(谁,什么,在哪里等)的最常见答案。GPT-2 正确回答了5.3倍以上的
问题,这表明模型容量是目前为止神经系统在这类任务表现不佳的一个主要因素。GPT-2
分配给其生成答案的概率经过了很好的校准,并且GPT-2对其最有信心的1%问题的准确性
为63.1%。由GPT-2生成的关于开发集问题的30个最自信的答案如表5所示。GPT-2的
性能仍然比将信息检索与抽取式文档回答相结合的30%到50%的开放域问答系统差的多的
多的多。

4 泛化 对比 记忆

计算机视觉的最新研究表明,普通图像数据集包含大量近似重复的图像。例如,CIFAR-10
在训练和测试图像之间有3.3%的重叠。这导致了对机器学习系统的泛化性能的过度报告。
随着数据集大小的增加,这个问题变得越来越可能,这表明WebText可能会发生类似的情况。
因此,分析训练数据集中有多少被包含进测试数据集是很重要的。

为了研究这一点,我们创造了包含8-grams的Bloom filters,处理WebText训练集。为了
提高召回,字符串被规范化为只包含小写字母数字以单个空格作为分隔符的单词。
Bloom filters 的构造使得假阳性的上限为10^-8。我们进一步验证了低误报通过产生1M
字符串,其中零个被过滤发现。

这些Bloom filters 允许我们计算,给定的数据集,该数据集中8-grams的百分比,也可
以在WebText训练集中找到。表6显示了常见语言模型基准测试集的重叠分析。常见语言
模型数据集的测试集与WebText训练集的重叠率在1-6%之间,平均重叠率为3.2%。有些
令人惊讶的是,许多数据集与自己的训练分割有较大的重叠,平均重叠率5.9%。

我们的方法优化了召回,虽然手动检查重叠显示许多常见短语,由于重复的数据,而有
许多更长的匹配。这不是WebText独有的。例如,我们发现wikitext-103的测试集有一篇
文章,也在训练数据集中。因为测试集中只有60篇文章,所以至少有1.6%的重叠。更令人
担忧的是,根据我们的程序,1BW与自己的训练集有近13.2%的重叠。对于
Winograd Schema Challenge,我们只找到10个地方,其中任何的8-grams与WebText训练集
重叠。 这些当中,有两个是假匹配。剩下的8个中,只有一个方案出现在给出答案的任何
上下文中。

对于CoQA,新闻领域中大约15%的文档已经在WebText中,并且模型在这些方面的性能更好
达到3 F1。CoQA的开发集度量报告了5个不同域的平均性能,我们测量了大约0.5-1.0 F1
的性能增益,因为不同的域之间存在重叠。但是,由于CoQA是在WebText中链接截止日期
之后发布的,因此WebText没有现在的训练问题或答案。

在LAMBADA平均重叠率是1.2%。GPT-2在重叠率大于15%的例子中表现出更好的2 perplexity。
当排除所有具有重叠移位的示例时,重新计算度量值导致perplexity从8.6到8.7,
并且准确率从63.2%降低到62.9%。总的结果变化很小,可能是因为200个例子中只有一个
有重叠。

总的来说,我们的分析表明,WebText训练数据和具体的评估数据集之间的数据重叠为
报告的结果提供了一个小而一致的好处。然而,对于大多数数据集,我们没有注意到
明显大于标准训练集和测试集之间已经存在的重叠,如表6高亮所示。

理解和量化文本信息的高度相似性是一个重要的研究问题。更好的重复数据消除技术,如
可扩展的模糊匹配,也可以帮助更好的回答这些问题。目前,我们建议在为新的NLP数据集
常见训练和测试拆分过程中,使用基于N-gram重叠的重复数据消除作为一个重要的验证
步骤和健全性检查。

确定WebText 语言模型的性能是否归因于记忆的另一个潜在的方法是检查他们在自己的保留
集上的性能。如图4中所示,随着模型大小的增加,WebText的训练集和测试集的性能都是
相似的,并且会一起提高。这甚至表明,GPT-2在很多方面WebText仍然是欠拟合状态的。

GPT-2还能够撰写关于发现会说话的独角兽的新闻文章。表13提供了一个示例。

5 相关的工作

这项工作的重要部分是测量在大型数据集上训练的大型语言模型的性能。
这与Jozefowicz等人2016将给予RNN的语言模型扩展到1 Billion Word Benchmark 的工作
类似。Bajgar 2016之前还通过在Project Gutenberg中创建更大的训练数据集,来补充标准
训练数据集,改进了Children‘s Book Test的测试结果。Hestness 2017 深入分析了不同
深度学习模型的性能如何随模型能力和数据集大小的变化而变化。我们的实验虽然在不同
任务之间有很大的噪声,但对于一个目标的子任务,我们提出了类似的趋势,并继续进入
1亿+的参数区域。

在生成模型中有趣的学习功能已经被记录在案,例如在RNN语言模型单元中执行行宽追踪
和引用/注释监测(Karpathy 2015)。对我们的工作更有启发性的是Liu 2018 的观察,
一个被训练生成维基百科文章的模型也学会了语言之间翻译名字。

之前的工作探索了过滤和构建大型网页文本语料库的替代方法,例如iWeb语料库(Davies 2018)

在语言任务预训练上面有大量的工作。除了引言中提到的内容外,Glove(Pennington 2014)
还将词向量表示学习扩展到了所有的Common Crawl。关于文本深度表示学习的一项有影响
的早期工作是Skip-thought Vectors(Kiros 2015)。McCann(2017)探索了机器翻译模型
表示法的使用,Howard & Ruder(2018) 改进了基于RNN的微调方法(Dai&Le 2015)。
(Conneau 2017)研究了自然语言推理模型学习的
表示的迁移性能,并且(Subramanian 2018)探索了大规模多任务训练。
(Ramachandran 2016)证明,Seq2seq 模型受益于使用预先培训的语言模型作为编码器
和解码器进行初始化。最近的研究表明, 当对诸如闲聊对话和基于对话的问答系统等
困难的生成任务进行微调时,语言模型与训练也很有帮助(Wolf 2019)(Dinan 2018)。

6 讨论

许多研究致力于学习,理解和批判性地评估有监督和无监督的与训练方法的表现。我们
的研究结果表明,无监督学习是另一个值得探索的研究领域。这些发现可能有助于解释
下游NLP任务的预训练技术的广泛成功,就像我们展示的,在极限情况下,无需进行监督
调整或修改,这些预训练中的一种开始学习直接执行任务。

在阅读理解方面,GPT-2在零样本设置下的性能与监督学习基线相竞争。然而,在总结摘要
等其他任务上,虽然它定性的执行任务,但根据定量指标,它的性能仍然只是初级的。
从实际应用来看,GPT-2的零样本性能作为一项研究成果具有一定的参考价值,但在
实际应用中还远远不够。

我们已经研究了WebText 语言模型在许多规范NLP任务上的零样本性能,但还有许多额外的
任务可以评估。毫无疑问,在许多实际任务中,GPT-2的性能仍然不比随机的好。即使
在我们评估的常见任务上,例如回答问题和翻译,语言模型也只在有足够的容量时开始
优于一般基线。

虽然零样本性能为GPT-2在许多任务上的潜在性能建立了基线,但尚不清楚哪个上限具有
微调功能。在某些任务中,GPT-2的完全抽象输出与基于抽取指针网络(Vinyals 2015)
的输出有很大的不同,后者目前在许多问答和阅读理解数据集上处于最先进的水平。鉴于
之前微调GPT的成功,我们计划在基准(如decaNLP和GLUE)上进行微调,尤其是由于不清楚
GPT-2的能力和额外的训练数据能否足以克服BERT证明的单向表示的效率低下(Devlin 2018)。

7 结论

当一个大型语言模型被训练在一个足够大和多样的数据集上时,它能够在许多域和数据集
上很好的执行。GPT-2在八分之七的测试语言模型的数据集上实现了最先进的性能。该模型
能够在零样本设置下执行任务的多样性表明,一个足够多样化的文本语料库经过最大
似然训练的高容量模型可以在不需要明确监督的情况下,学习执行惊人数量的任务。

鸣谢

感谢每一个编写文本,共享链接和在WebText中对内容进行升级的人。数百万人参与了创建
GPT-2的训练数据。同时要感谢所有帮吾我们进行训练的Googlers 包括: Zak Stone,
JS Riehl, Jonathan Hseu, Russell Power, Youlong Cheng, Noam Shazeer,
Solomon Boulos, Michael Banfield, Aman Gupta, Daniel Sohn,还有更多人。最后要
感谢哪些对论文草稿给出反馈的人:Jacob Steinhardt, Sam Bowman, Geoffrey Irving,
and Madison May

你可能感兴趣的:(Deep,Learning,人工智能,深度学习,NLP)