2019-07-05 bert 论文翻译

BERT:深度双向变压器的预训练,用于语言理解

雅各布德夫林 张明伟 肯顿李 克里斯蒂娜Toutanova

Google AI语言

{雅克布德林, 明卫昌, 肯顿, kristout} @google. com

摘要

我们引入了一种名为BERT的新语言表示模型,

它代表变形金刚的双向编码器表示。与最近

的语言表征模型不同彼得斯等人。, 2018;

雷德福 等。, 2018),BERT旨在通过联合

调节所有层中的左右上下文来预训练深度

双向表示。因此,只需一个额外的输出层

就可以对预先训练的BERT表示进行微调,

从而为各种任务创建最先进的模型,例如

问答和语言推理,而无需基本的任务特定

架构修改。

BERT在概念上简单且经验丰富。它在11项

自然语言处理任务中获得了最新的最新成

果,包括将GLUE基准推至80.4%(绝对改

进率为7.6%),

MultiNLI精度达到86.7%(绝对改进率

5.6%)和SQuAD v1.1问题回答测试F1到

93.2(1.5绝对改进),优于人类表现2.0。

1 介绍

语言模型预训练已证明可有效改善许多自然

语言处理任务(戴和勒, 2015; 彼得斯等人。,

2017, 2018; Radford等。, 2018; 霍华德和 罗德,

2018).这些任务包括句子级任务,如自然语

言推理(弓- 男人等。, 2015; 威廉姆斯等人。,

2018)和释义(多兰和布罗基特, 2005),旨

在通过整体分析句子以及诸如命名实体识别

之类的令牌级任务来预测句子之间的关系

(张 Kim Sang和De Meulder, 2003)和SQUAD

问题回答(Rajpurkar等人。, 2016),哪里

模型需要在令牌级别生成细粒度输出。

将预训练语言表示应用于下游任务有两种

现有策略:基于特征和微调。基于特征的方

法,例如ELMo(彼得斯 等。, 2018),使用特

定于任务的体系结构,其中包括预先训练的

表 示 作 为 附 加 功 能 。 微 调 方 法 , 如

Generative Pre-trained Transformer

(OpenAI GPT)(Radford等。, 2018),引

入最小的任务特定参数,并通过简单地微调

预训练参数来训练下游任务。在以前的工作

中,两种方法在预训练期间共享相同的目标

函数,在这些方法中,他们使用单向语言模

型来学习一般语言表示。

我们认为当前的技术严格限制了预训练表示

的能力,特别是对于微调方法。主要限制是标

准语言模型是单向的,这限制了在预训练期间

可以使用的体系结构的选择。例如,在OpenAI

GPT中,作者使用左右架构,其中每个令牌只能

处理Transformer的自我关注层中的前一个令牌

(Vaswani等。, 2017).这些限制对于句子级任

务来说是次优的,并且在将基于微调的方法

应用于令牌级任务(例如SQuAD问答)时可能

是毁灭性的(岭 jpurkar等。, 2016),从两

个方向整合背景至关重要。

在本文中,我们通过提出BERT:变换器的

双向编码器表示来改进基于微调的方法。

BERT通过提出一个新的预训练目标来解决前

面提到的单向约束:“蒙面语言”日模特“(MLM),灵感来自完形任务(泰伊- lor,

1953).被掩盖的语言模型从输入中随机地掩

盖一些标记,并且目标是仅基于其上下文来

预测被掩盖的单词的原始词汇id。与从左到

右的语言模型预训练不同,MLM目标允许表示

融合左右上下文,这允许我们预训练深度双

向变换器。除了蒙面语言模型,我们还引入

了“下一句预测”任务,该任务共同预先训

练文本对表示。

我们的论文的贡献如下:

• 我们证明了双向预训练对语言表达的重要

性。不像Radford等。 (2018),它使用

单向语言模型进行预训练,BERT使用掩

蔽语言模型来实现预训练的深度双向表

示。这也与之形成鲜明对比 彼得斯等人。

(2018),它使用由独立训练的左右和右

到左LM的浅层连接。

• 我们展示了预先训练的表示消除了许多重

型工程任务特定体系结构的需求。BERT是

第一个基于微调的表示模型,它在大量句

子级和令牌级任务上实现了最先进的性能,

优于许多具有任务特定体系结构的系统。

• BERT推进了11项NLP任务的最新技术。我

们还报告了对BERT的广泛消融,证明了我

们模型的双向性质是最重要的新贡献。代

码 和 预 先 训 练 的 模 型 将 在

goo.gl/language/bert上提供。1

2 相关工作

预培训一般语言表示有很长的历史,我们将

简要回顾本节中最流行的方法。

2.1 基于特征的方法

几十年来,学习广泛适用的词语表达一直是

研究的一个活跃领域,包括非神经学(布朗

等人。, 1992;

1

将于2018年10月底前发布。

安藤和张, 2005; Blitzer等人。, 2006)和神

经(Collobert和Weston, 2008; 米科洛夫

等。, 2013; Pennington等。, 2014) 方法。预

训练的单词嵌入被认为是现代NLP系统不可或

缺的一部分,与从头学习的嵌入相比提供了

显着的改进(Turian等。, 2010).

这些方法已被推广到更粗糙的粒度,例如

句子嵌入(Kiros等。, 2015; Logeswaran和

Lee, 2018) 或 段落嵌 入 ( 勒和 米 科洛夫 ,

2014).与传统的单词嵌入一样,这些学习的

表示通常也用作下游模型中的特征。

ELMo (彼得斯等人。, 2017)将传统的词嵌

入研究概括为不同的维度。他们建议从语言

模型中提取上下文敏感特征。在将上下文词

嵌入与现有任务特定体系结构集成时,ELMo

推进了几个主要NLP基准测试的最新技术(彼

得斯等人。, 2018)包括问答(Rajpurkar等

人。, 2016)关于SQUAD,情绪分析(Socher

等。, 2013)和命名实体识别(Tjong Kim

Sang和De Meul- 德尔, 2003).

2.2 微调方法

从语言模型(LMs)转移学习的最新趋势是在

对用于受监督的下游任务的相同模型进行微

调之前,在LM目标上预先训练一些模型架构

(戴和勒, 2015; 霍华德和罗德, 2018; Radford

等。, 2018).这些方法的优点是需要从头开始

学习很少的参数。至少部分归功于这一优势,

OpenAI GPT(Radford等。, 2018)从GLUE基

准测试中获得了许多句子级任务的先前最新

结果(王 等。, 2018).

2.3 从监督数据转移学习

虽然无监督预训练的优势在于可用的数据量

几乎是无限的,但也有工作显示有监督的任

务与大数据集的有效转移,例如自然语言推

断(con-ce-ce-ce- neau等。, 2017)和机器

翻译(麦克- Cann等人。, 2017).在NLP之外,

计算机视觉研究也证明了从大型预训练模型

转移学习的重要性,其中一个有效的配方是

微调图1:训练前模型架构的差异。BERT使用双向变压器。OpenAI GPT使用从左到右的Transformer。ELMo使

用经过独立训练的从左到右和从右到左LSTM的串联来生成下游任务的功能。在三个中,只有BERT表示在

所有层中共同依赖于左右上下文。

在ImageNet上预训练的模型(邓等人。, 2009;

Yosinski等人。, 2014).

3 伯特

我们在本节介绍BERT及其详细实现。我们首先

介绍模型体系结构和BERT的输入表示。然后,

我们将在本节中介绍预培训任务,即本文的核

心创新3.3.部分详细介绍了预训练程序和微调

程序3.4 和3.5, 分别。最后,BERT和OpenAI

GPT之间的区别在章节中讨论3.6.

3.1 模型架构

BERT的模型架构是一个基于原始实现的多层双

向Transformer编码器Vaswani等。 (2017)并

在tensor2tensor库中发布。2 因为变形金刚

的使用最近变得无处不在,并且我们的实现

与原始实现完全相同,所以我们将省略模型

体系结构的详尽背景描述并引用读者瓦斯瓦

尼 等。(2017)以及诸如“注释变形金刚”等优

秀指南。3

在这项工作中,我们将层数(即变换器块)

表示为L,将隐藏大小表示为H,将自关注磁

头的数量表示为A.在所有情况下,我们将前

馈/过滤器大小设置为4H,即H = 768为3072,

H = 1024为4096.我们主要报告两种模型尺寸

的结果:

• BERT基础:L = 12,H = 768,A = 12,总

参数= 110M

2

https://github.com/tensorflow/tensor2tensor3

http://nlp.seas.harvard.edu/2018/04/03/attention.html

• BERT大:L = 24,H = 1024,A = 16,总

参数= 340M

选择BERT基础 具有与OpenAI GPT相同的模型

尺寸用于比较目的。然而,重要的是,BERT

变换器使用双向自我关注,而GPT变换器使用

受限制的自我关注,其中每个令牌只能处理

其左侧的上下文。我们注意到,在文献中,

双向变换器通常被称为“变换器编码器”,

而左上下文仅被称为“变换器解码器”,因

为它可以用于文本生成。BERT,OpenAI GPT

和ELMo之间的比较如图所示1.

3.2 输入表示

我们的输入表示能够在一个标记序列中明确

地表示单个文本句子或一对文本句子(例如,

[问题,答案])。4 对于给定的令牌,其输入

表示通过对相应的令牌,段和位置嵌入求和

来构造。图中给出了输入表示的直观表示2.

具体是:

• 我们使用WordPiece嵌入(吴等人。, 2016)

有30,000个令牌词汇表。我们用##表示

分词。

• 我们使用学习的位置嵌入,支持的序列长

度最多为512个令牌。

4

在整个这项工作中,“句子”可以是连续文本的任意

跨度,而不是实际的语言句子。“序列”指的是BERT的输

入令牌序列,其可以是单个句子或两个句子打包在一起。

E1 E2... 恩

Lstm Lstm ...Lstm Lstm Lstm ...Lstm

Lstm

...

Lstm Lstm ...Lstm Lstm Lstm

TN

埃尔

T1 T2...

...

Trm Trm ... Trm

Trm Trm ... Trm

OpenAI GPT

T1T2... TN

E1E2 ... 恩 E1 E2 恩

Trm Trm ... Trm

Trm Trm ... Trm

BERT(我们的)

T1T2... TN输入

令牌嵌入

细分嵌入

位置嵌入

图2:BERT输入表示。输入嵌入是令牌嵌入,分段嵌入和位置嵌入的总和。

• 每个序列的第一个标记始终是特殊分类

嵌入([CLS])。对应于该令牌的最终隐

藏状态(即,Transformer的输出)被用

作分类任务的聚合序列表示。对于非分

类任务,将忽略此向量。

• 句子对被打包成一个序列。我们以两种

方式区分句子。首先,我们用特殊标记

([SEP])将它们分开。其次,我们添加

一个学习句子A嵌入到第一个句子的每个

标记中,一个句子B嵌入到第二个句子的

每个标记中。

• 对于单句输入,我们只使用句子A嵌入。

3.3 预训练任务

不像彼得斯等人。 (2018)和Radford等。

(2018),我们不使用传统的从左到右或从右

到左的语言模型来预训练BERT。相反,我们

使用两个新的无监督预测任务对BERT进行预

训练,如本节所述。

3.3.1 任务#1:蒙面LM

直觉上,有理由相信深度双向模型比左向右模

型或从左到右和右宽容模型的浅层连接更严格。

遗憾的是,标准条件语言模型只能从左到右或

从右到左进行训练,因为双向调节将允许每个

单词在多层上下文中间接“看到自己”。

为了训练深度双向表示,我们采用直接的

方法随机屏蔽一定比例的输入令牌,然后仅

预测那些被屏蔽的令牌。我们

将此程序称为“蒙面LM”(MLM),尽管在文献

中它通常被称为完形任务(泰勒, 1953).在这

种情况下,对应于掩码令牌的最终隐藏向量

被馈送到词汇表上的输出softmax,如在标准

LM中。在我们的所有实验中,我们随机地屏

蔽每个序列中所有WordPiece标记的15%。与

去噪自动编码器相比(文森特等人。, 2008),

我们只预测被掩盖的单词而不是重建整个输

入。

虽然这确实允许我们获得双向预训练模型,

但这种方法有两个缺点。首先,我们正在创

建预训练和微调之间的不匹配,因为在微调

期间从未看到[MASK]令牌。为了缓解这种情

况,我们并不总是用实际的[MASK]令牌替换

“蒙面”字。相反,训练数据生成器随机选

择15%的令牌,例如,在句子中,我的狗是

多毛的,它选择毛茸茸的。然后执行以下过

程:

• 数据生成器将执行以下操作,而不是始

终用[MASK]替换所选单词:

• 80%的时间:用[MASK]令牌替换单词,

例如,我的狗是多毛的→我的狗是[面具]

• 10%的时间:用一个随机的单词替换单

词,例如,我的狗是多毛的→我的狗是

苹果

• 10%的时间:保持单词不变,例如,我

的狗毛茸茸→我的狗毛茸茸。这样做的

目的是将表示偏向于实际观察到的单词。

[CLS] 是 可爱 九月 他 喜欢 玩 ##荷兰国际集团

九月

我的 狗

e[CLS] e我的 e[sep] e他e喜欢 e播放 e##荷兰国

际集团

e[sep] e狗e是e可爱

E10 E9E8E7E6E5E4E3E2E E0 1

EBEBEBEBEBEAEAEAEAE EA A≤

Transformer编码器不知道它将被要求预测

哪些单词或哪些单词已被随机单词替换,因

此它被迫保持每个输入标记的分布式上下文

表示。此外,因为随机替换只发生在所有令

牌的1.5%(即15%的10%),这似乎不会损

害模型的语言理解能力。

使用MLM的第二个缺点是每批中只预测了15%

的令牌,这表明模型可能需要更多的预训练

步骤才能收敛。在节中5.3 我们证明MLM的收

敛速度略慢于从左到右的模型(预测每个标

记),但MLM模型的实证改进远大于增加的培

训成本。

3.3.2 任务#2:下一句话预测许多重要的下

游任务,如问答(QA)和自然语言 -

ference(NLI)基于了解

两个文本句子之间的关系,不是由语言建模

直接捕获的。为了训练理解句子关系的模型,

我们预先训练二进制化的下一句话预测任务,

该任务可以从任何单语语料库中平凡地生成。

具体地,当为每个预训练示例选择句子A和B

时,50%的时间B是跟随A的实际下一句子,

并且50%的时间是来自语料库的随机句子。

例如:

输入= [CLS]男子去[MASK]商店[SEP]他买了一加仑[MASK]牛奶[SEP]

标签 = isnext

输入= [CLS]男人[面具]到商店[SEP]企鹅[面具]是飞行##少鸟[SEP]

标签 = 下一个标签

我们完全随机选择NotNext语句,最终预训练模

型在此任务中达到97%-98%的准确率。尽管它

很简单,我们在Section中演示5.1 预先培养这

项任务对QA和NLI都非常有益。

3.4 培训前程序

预训练程序主要遵循现有的语言模型预训练文

献。

对于预训练语料库,我们使用BooksCorpus

(800M字)的连接(朱等人。, 2015)和英语

维基百科(2500万字)。对于维基百科,我

们只提取文本段落并忽略列表,表格和标题。

使用文档级语料库而不是改组的句子级语料

库(如Billion Word Benchmark)至关重要

(Chelba等人。, 2013)以提取长的连续序列。

为了生成每个训练输入序列,我们从语料库

中采样两个文本跨度,我们将其称为“句子”,

即使它们通常比单个句子长得多(但也可以更

短)。第一个句子接收A嵌入,第二个句子接收

B嵌入。50%的时间B是跟随A的实际下一个句子,

50%的时间是随机句子,这是为“下一句话预

测”任务完成的。对它们进行采样,使得组合

长度为 512令牌。在

WordPiece标记化之后应用LM掩蔽,具有15%

的统一掩蔽率,并且不特别考虑部分字块。

我们训练批量大小为256个序列(256个序列*

512个令牌= 128,000个令牌/批次),持续

1,000,000个步骤,这比33亿个词语料库大约

40个时期。 我们使用学习率

为1e-4的亚当,β1 = 0.9,

β2 = 0.999,L2重量衰减0.01,学习

在前10,000个步骤中进行速率预热,以及学

习速率的线性衰减。我们在所有层上使用0.1

的丢失概率。我们使用gelu激活(亨德利克

斯和金佩尔, 2016而不是标准的relu,遵循

OpenAI GPT。训练损失是平均掩蔽的LM可能

性和平均下一句子预测可能性的总和。

在Pod配置中的4个云TPU上进行BERT基础 的

训练(总共16个TPU芯片)。5 在16个云TPU

(总共64个TPU芯片)上进行BERT大 的培训。

每次预训练需要4天才能完成。

3.5 微调程序

对于序列级分类任务,BERT微调很简单。为

了获得输入序列的固定维度池化表示,我们

采 用 第 一 个 令 牌 的 最 终 隐 藏 状 态 ( 即 ,

Transformer的输出)

5

https://cloudplatform.googleblog.com/2018/06/Cloud�

TPU-现已提供,抢占定价及全局-availability.html∈

在输入中,通过构造对应于特殊的[CLS]字嵌

入。我们将该载体表示为CRh

。在微调期间添

加的唯一新参数是分类层WRk×h

,其中K是分类

器标签的数量。标准概率PRk

用标准softmax

计算,P = softmax(CW

t

)。BERT和W的所

有参数都经过微调,以最大化正确标签的对

数概率。对于跨度级和令牌级预测任务,必

须以特定于任务的方式稍微修改上述过程。

细节在章节的相应小节中给出4.

对于微调,大多数模型超参数与预训练相

同,但批量大小,学习率和训练时期数除外。

辍学概率始终保持在0.1。最佳超参数值是特

定于任务的,但我们发现以下范围的可能值

可以在所有任务中很好地工作:

• 批量:16,32

• 学习率(亚当):5e-5,3e-5,2e-5

• 时代数:3,4

我们还观察到,大数据集(例如,100k +标

记的训练示例)对超参数选择的敏感性远小于

小数据集。微调通常非常快,因此简单地对上

述参数进行详尽搜索并选择在开发集上表现最

佳的模型是合理的。

3.6 BERT和OpenAI GPT的比较

与 BERT 最 具 可 比 性 的 现 有 预 训 练 方 法 是

OpenAI GPT,它在大型文本语料库中训练从

左到右的Transformer LM。实际上,BERT中

的许多设计决策都被有意地选择为尽可能接

近GPT,以便可以最小化地比较这两种方法。

这项工作的核心论点是在章节中提出的两个

新的预训练任务3.3 考虑到大多数经验改进,

但我们注意到BERT和GPT如何训练之间存在其

他一些差异:

• GPT接受了BooksCorpus(800M字)的培

训;BERT受过BooksCor-pus(800M字)和

维基百科(2,500M字)的培训。

• GPT使用句子分隔符([SEP])和分类符

号 ( [CLS] ) , 它 们 仅 在 微 调 时 引

入;BERT在预训练期间学习[SEP],[CLS]

和句子A / B嵌入。

• GPT接受了1M步骤的培训,批量为32,000

字 ;BERT 经 过 1M 步骤的培训,批量为

128,000字。

• 对于所有微调实验,GPT使用相同的5e-5

学习率;BERT选择特定于任务的微调学习

速率,该速率在开发集上表现最佳。

为了分离这些差异的影响,我们在Section中

进行消融实验5.1 这表明大多数改进实际上来

自新的预训练任务。

4 实验

在本节中,我们将介绍11个NLP任务的BERT微

调结果。

4.1 GLUE数据集

一般语言理解评估(GLUE)基准(王等人。,

2018)是各种自然语言理解任务的集合。大

多数GLUE数据集已存在多年,但GLUE的目的

是(1)使用规范的Train,Dev和Test拆分分

配这些数据集,以及

(2)建立一个评估服务器,以缓解评估不一

致和测试集过度拟合的问题。GLUE不会为测

试集分发标签,用户必须将其预测上传到

GLUE服务器进行评估,并限制提交的数量。

GLUE基准包括以下数据集,其描述最初总

结于王等人。(2018):

MNLI多类型自然语言推理是一项大规模的众

包蕴涵分类任务(威廉姆斯等人。, 2018).给

定一对句子,目标是预测第二句话是否与第

一句相关是蕴涵,矛盾或中立。

QQP Quora问题对是一个二进制分类任务,其

目的是确定在Quora上提出的两个问题是否在

语义上是等价的(陈等人。, 2018).C T1 ... TNt[sep] T1’ ... TM’

伯特

e ... ...[cls] e1EM’

C T1 ... TNt[sep] T1’ ... TM’

伯特

e ... ...[cls] e1EM’

C T1 T2... TN

伯特

... EN

[CLS] 托克1 托克2 ... Tok

N.

C T1 T2... TN

伯特

...

[CLS] 托克1 托克2 ... Tok

N.

EN

班级标签 班级

标签

句子1 句子2 单句

开始/结束跨度 O B-每... O

题 段 单句

图3:我们的任务特定模型是通过将BERT与一个额外的输出层结合而形成的,因此需要从头开始学习最

少数量的参数。在这些任务中,(a)和(b)是序列级任务,而(c)和(d)是令牌级任务。在该图中,

E表示输入嵌入,Ti 表示令牌i的上下文表示,[CLS]是用于分类输出的特殊符号,[SEP]是用于分离非连

续令牌序列的特殊符号。

QNLI问题自然语言推理是斯坦福问题答疑数

据集的一个版本(Rajpurkar等人。, 2016)

已转换为二进制分类任务(王 等。, 2018).

正面的例子是(问题,句子)对,它们包含

正确的答案,而负面的例子是(问题,句子)

来自同一段,不包含答案。

SST-2斯坦福情感树库是一个二进制单句分类

任务,由从电影评论中提取的句子和人类注释

的情感组成(索赫尔 等。, 2013).

CoLA语言可接受语料库是一个二进制单句分

类任务,其中

目标是预测英语句子在语言上是否“可接受”

(瓦尔施塔特 等。, 2018).

STS-B语义文本相似性基准是从新闻标题和其

他来源中提取的句子对的集合(Cer等人。,

2017).它们用1到5的分数进行注释,表示两

个句子在语义上的相似程度。

MRPC Microsoft Research Disphrase

Corpus由从在线新闻源自动提取的句子对组

成,带有人类注释,以确定该对中的句子是

否在语义上等效(多兰和布罗基特, 2005).

e[cls] E1 E2EN e[sep] E1’

[CLS] 托

1

...

Tok

N.

九月

1

...

m

e[cls] E1 E2EN e[sep] E1’

[CLS] 托

1

...

Tok

N.

九月

1

...

m∈

系统 MNLI-(米/毫

米)

392k

QQP

363k

克恩

108k

SST-2

67k

可乐

8.5k

STS-B

5.7k

MRPC

3.5k

即食

2.5k

平均

-

开放前的 sota 80.6/80.1 66.1 82.3 93.2 35.0 81.0 86.0 61.7 74.0

BiLSTM + ELMO +经

办人

76.4/76.1 64.8 79.9 90.4 36.0 73.3 84.9 56.8 71.0

OpenAI GPT 82.1/81.4 70.3 88.1 91.3 45.4 80.0 82.3 56.0 75.2

bert基础

贝尔特大

84.6/83.4

86.7/85.9

71.2

72.1

90.1

91.1

93.5

94.9

52.1

60.5

85.8

86.5

88.9

89.3

66.4

70.1

79.6

81.9

表1:GLUE测试结果,由GLUE评估服务器评分。每个任务下面的数字表示训练样例的数量。“平均”列与

官方GLUE分数略有不同,因为我们排除了有问题的WNLI集。openai gpt = (l启示 12, hac-768, a启示

12);BERT基础 = (l= 12, h连同 668, a0.12);BERT大 =(L = 24,H = 1024,A = 16)。BERT和OpenAI GPT

是单一模型,单一任务。所有结果均来自 https://gluebenchmark.com/leaderboard 和

https://blog.openai. COM /语言的无监督/.

RTE识别文本蕴涵是类似于MNLI的二进制蕴涵

任务,但训练数据少得多(Bentivogli等。,

2009).6

WNLI Winograd NLI是一个源自的小型自然语

言推断数据集(莱韦斯克 等。, 2011).GLUE网

页指出构建此数据集存在问题,7 并且每个提

交给GLUE的训练有素的系统的表现都比预测

多数班级的65.1基线准确度差。因此,我们

将这一组排除在OpenAI GPT的公平性之外。

对于我们的GLUE提交,我们总是预测大多数

类。

4.1.1 GLUE结果

为了微调GLUE,我们代表输入序列或序列对,

如章节中所述3,并使用对应于第一输入标记

([CLS])的最终隐藏向量CRh

作为聚合表示。

这在图中以视觉方式证明3 (a)和(b)。微

调期间引入的唯一新参数是分类层WRk×h

,其

中K是标签的数量。我们用C和W计算标准分类

损失,即log(softmax(CW

t

))。

对于所有GLUE任务,我们对数据使用32个和3

个时期的批量大小。对于每项任务,我们都进

行了微调,学习率为5e-5,4e-5,3e-5和2e-5,并

选择了在Dev set上表现最佳的那个。此外,对

于BERT大 ,我们发现微调有时不稳定

6

请注意,我们仅在本文中报告单任务微调结果。多

任务微调方法可能会进一步推动结果。例如,我们确实

观察到使用MNLI进行多任务培训的RTE的实质性改进。

7

https://gluebenchmark.com/faq

小数据集(即一些运行会产生退化结果),

因此我们运行了几次随机重启并选择了在Dev

set上表现最佳的模型。通过随机重启,我们

使用相同的预训练检查点,但执行不同的微

调数据混洗和分类器层初始化。我们注意到

GLUE数据集分布不包括测试标签,我们只为

每个BERT基础 和BERT大提交了单个GLUE评估服

务器。

结果列于表中1.BERT基础 和BERT大 在所有任

务上都大大优于所有现有系统,相对于最先

进的技术,平均准确度提高了4.4%和6.7%。

请注意,BERT基础 和OpenAI GPT在注意力掩蔽

之外的模型架构方面几乎相同。对于最大和

最广泛报道的GLUE任务,MNLI,BERT比最先

进的技术获得4.7%的绝对精度提升。在官方

GLUE排行榜上,8 与顶级排行榜系统OpenAI

GPT相比,BERT大 得分为80.4,截至撰写之日,

该系统获得72.8分。

有趣的是,BERT大 在所有任务中都明显优

于BERT基础 ,即使训练数据非常少的人也是如

此。在章节中更彻底地探讨了BERT模型尺寸

的影响5.2.

4.2 squad v1。1

Standford问题回答数据集(SQuAD)是100k

众包问答对的集合(Rajpurkar等人。, 2016).

给出了维基百科的问题和段落

8

https://gluebenchmark.com/leaderboard∈

∈ ∈

包含答案,任务是预测段落中的答案文本跨

度。例如:

• 输入问题:

水滴在哪里与冰晶碰撞形成沉淀?

• 输入段落:

...沉淀形成为较小的液滴通过与云中的其他雨滴或冰晶碰

撞而聚结。...

• 输出答案:

在云中

这种类型的跨度预测任务与GLUE的序列分

类任务完全不同,但我们能够以简单的方式

调整BERT以在SQuAD上运行。与GLUE一样,我

们将输入问题和段落表示为单个打包序列,

问题使用A嵌入和使用B嵌入的段落。在微调

期间学习的唯一新参数是起始矢量SRh

和结束

矢量ERh

。将来自BERT的用于i

输入令牌的

最终隐藏向量表示为Ti Rh

。见图3 (c)可视

化。然后,将单词i作为答案跨度开始的概率

计算为Ti 和S之间的点积,然后是段落中所有

单词的softmax:

eS·Ti

系统 开发 测试

EM F1 相对长度单位

F1

排行榜(2018年10月8日)

人的 - - 82.3 91.2

#1 合奏-nlnet - - 86.0 91.7

#2 合奏-qanet - - 84.5 90.5

#1 - - 83.5 90.1

#2 - - 82.5 89.3

发布时间

BiDAF + ELMo(单) - 85.8 - -

RM阅读器(单人) 78.9 86.3 79.5 86.6

RM阅读器(合奏) 81.2 87.9 82.3 88.5

我们

BERT基础 (单) 80.8 88.5 - -

BERT大 (单) 84.1 90.9 - -

BERT大 (合奏) 85.8 91.8 - -

BERT大 (Sgl。+

TriviaQA)

84.2 91.1 85.1 91.8

BERT大 (Ens。+

TriviaQA)

86.2 92.2 87.4 93.2

表2:SQuAD结果。BERT系列是7x系统,使用不同

的训练前检查点和微调种子。

来自SQuAD排行榜的公共系统描述不具备最新

的公共系统描述,并且在训练他们的系统时

可以使用任何公共数据。因此,我们通过联

合培训SQUAD和TriviaQA,在我们提交的系统

中使用非常适度的数据增强(乔希等人。,

2017).

我们表现最佳的系统在整个排行榜中的表

现优于顶级排行榜系统+1.5 F1

+1.3 F1作为单一系统。事实上,我们的单一

BERT模型在F1得分方面优于顶级合奏系统。

如果我们只是微调 SQuAD(没有TriviaQA)我们输掉0.1-0.4 F1

Pi = ),

eS·Tj

并且仍然优于所有现有系统

相同的公式用于答案范围的结束,最大评

分范围用作预测。训练目标是正确的开始和

结束位置的可能性。

我们训练3个时期,学习率为5e-5,批量大小

为32.在推理时间,由于结束预测不以开始为条

件,我们添加了在开始后必须结束的约束,但

是没有使用其他启发式方法。标记化的标记跨

度与原始未标记输入对齐以进行评估。

结果列于表中2.SQuAD使用严格的测试程序,

其中提交者必须手动联系SQuAD组织者以在隐

藏的测试集上运行他们的系统,因此我们只

提交了我们最好的系统进行测试。表中显示

的结果是我们向SQuAD提交的第一个也是唯一

的测试。我们注意到最好的结果

余量。

4.3 命名实体识别

为了评估令牌标记任务的性能,我们在CoNLL

2003命名实体识别(NER)数据集上微调BERT。

该数据集由200k个训练单词组成,这些单词已

注释为人员,组织,位置,杂项或其他(非命

名实体)。

为了微调,我们将最终隐藏表示Ti Rh

提供

给每个令牌i到NER标签集上的分类层。预测

不以周围的预测为条件(即非自回归和无

CRF)。为了使这与WordPiece标记化兼容,

我们将每个CoNLL标记化输入字提供给我们的

WordPiece标记化器并使用与第一个相对应的

隐藏状态

j),

表3:CoNLL-2003命名实体识别重新

开发设置,使用这些超参数在5次随机重启中平均

报告的开发和测试分数。

子标记作为分类器的输入。例如:

吉姆 母鸡 ## son是一个木偶## eer I-PER

I-PER X. O O O X

在没有预测X的情况下

人(专家)

- 85.0

表4:SWAG开发和测试精度。测试结果由SWAG作者

对隐藏的标签进行评分。 †如SWAG论文所述,用100

个样本测量人的表现。

每个选择的分数我。概率分布是四种选择的

softmax:

eV ·Ci

WordPiece标记化边界是输入的已知部分,这

是为两者完成的

训练和测试。视觉表现也是

Pi = 4

j=1 eV ·Cj

如图所示3 (d).套用的WordPiece模型用于NER,

而无框的模型用于所有其他任务。

结果列于表中3.BERT大 优于现有的SOTA,

具有多任务学习的跨视图培训(克拉克等

人。, 2018),CoNLL-2003 NER测试的+0.2。

4.4 赃物

具有对抗性生成的情境(SWAG)数据集包含

113k个句子对完成示例,用于评估基础常识

推理(Zellers等。, 2018).

给定视频字幕数据集中的句子,任务是在

四个选项中决定最合理的延续。例如:

一个女孩正在穿过一套猴子酒吧。她

(i) 跳过猴子栏。

(ii) 挣扎到酒吧抓住她的头。

(iii) 走到尽头,站在一块木板上。

(iv) 跳起来然后翻转。

将BERT调整为SWAG数据集类似于GLUE的调

整。对于每个示例,我们构造四个输入序列,

每个输入序列包含给定句子(句子A)和可能

的继续(句子B)的串联。我们介绍的唯一特

定于任务的参数

是一个向量V∈Rh

,其最终聚合表示为Ci ∈Rh

的点积表示

我们对模型进行了3个时期的微调,学习率

为2e-5,批量大小为16.结果如表所示4.BERT

大 优于作者的基线ESIM + ELMo系统+ 27.1%。

5 消融研究

虽然我们已经证明了非常强大的实证结果,

但到目前为止所呈现的结果并没有孤立出

BERT框架各个方面的具体贡献。在本节中,

我们将对BERT的多个方面进行消融实验,以

便更好地了解它们的相对重要性。

5.1 预训练任务的效果

我们的核心主张之一是BERT的深度双向性,

通过掩蔽的LM预训练实现,是BERT与以前的

工作相比最重要的改进。为了证明这一说法,

我们评估了两种新模型,它们使用完全相同

的训练前数据,微调方案和变换器超参数作

为BERT基础:

1. 否NSP:使用“蒙面LM”(MLM)训练但没

有“下一句预测”(NSP)任务的模型。

2. LTR&No NSP:使用从左到右(LTR)LM训

练的模型,而不是

系统 开发F1 测试F1 系统 开

elmo + bilstm + 通用报告

格式

95.7 92.2 ESIM +手套 51.9 52.7

无级变速器 + 多 (克拉克等

人。, 2018)

- 92.6 ESIM+ELMo 59.1 59.2

bert基础 96.4 92.4 bert基础 81.6 -

贝尔特大 96.6 92.8 贝尔特大 86.6 86.3

sults。使用the选择超参数 Human (5 annotations)†

- 88.0传销。在这种情况下,我们预测每个输

入字,不应用任何掩蔽。左侧约束也适

用于微调,因为我们发现使用左侧上下

文进行预训练并且使用双向上下文进行

微调总是更糟。此外,该模型在没有NSP

任务的情况下进行了预训练。这与

OpenAI GPT直接相当,但使用我们更大

的训练数据集,输入表示和我们的微调

方案。

结果列于表中5.我们首先考察NSP任务带来

的影响。我们可以看到,删除NSP会严重损害

QNLI,MNLI和SQuAD的性能。这些结果表明,

我们的预训练方法对于获得之前提出的强有

力的实证结果至关重要。

接下来,我们通过比较“No NSP”与“LTR&

No NSP”来评估训练双向表示的影响。LTR模

型在所有任务上的性能都比MLM模型差,在

MRPC和SQuAD上有极大的下降。对于SQuAD,

直观清楚的是LTR模型在跨度和令牌预测方面

表现非常差,因为令牌级隐藏状态没有右侧

上下文。对于MRPC,目前还不清楚性能不佳

是由于数据量小还是任务的性质,但我们发

现这种不良性能在完整的超参数扫描中是一

致的,并且有很多随机重启。

为了真诚地尝试加强LTR系统,我们尝试在

其上面添加一个随机初始化的BiLSTM进行微

调。这确实显着改善了SQuAD的结果,但结果

仍远不如此

开发集

任务 MNLI-m QNLI MRPC SST-2 SQuAD

预先训练的双向模型。它还会损害所有四个

GLUE任务的性能。

我们认识到,也可以训练单独的LTR和RTL模

型,并将每个标记表示为两个模型的串联,如

ELMo所做的那样。但是:(a)这是单一双向模

型的两倍;(b)对于像QA这样的任务来说,这

是不直观的,因为RTL模型无法对问题的答案作

出规定;(c)它的强度远低于深度双向模型,

因为深度双向模型可以选择使用左或右上下文。

5.2 模型尺寸的影响

在本节中,我们将探讨模型大小对微调任务

准确性的影响。我们训练了许多具有不同层

数,隐藏单元和注意头的BERT模型,否则使

用与前面描述的相同的超参数和训练过程。

选定的GLUE任务的结果显示在表中6.在此

表中,我们报告了5次随机重启微调的平均开

发设置精度。我们可以看到,较大的模型导

致所有四个数据集的严格精度提高,即使对

于仅具有3,600个标记的训练样例的MRPC,并

且与训练前任务有很大不同。同样令人惊讶

的是,我们能够在相对于现有文献已经非常

大的模型之上实现这种显着的改进。例如,

最大的变形金刚探索过Vaswani等。 (2017)

(L = 6,H = 1024,A = 16),编码器有

100M参数,我们在文献中找到的最大变压器

是(L = 64,H = 512,A = 2),参数为

235M(Al-Rfou等人。, 2018).相比之下,

BERT基础

超参数 开发设置准确度

(Acc) (Acc) (Acc) (Acc) (F1)

bert基础 84.4 88.4 86.7 92.7 88.5 #L #H #A LM (ppl) MNLI米 MRPC SST-2

没有NSP 83.9 84.9 86.5 92.6 87.9 3 768 12 5.84 77.9 79.8 88.4

LTR & No NSP 82.1 84.3 77.5 92.1 77.8 6 768 3 5.24 80.6 82.2 90.7

+ 双侧 stm 82.1 84.1 75.7 91.6 84.9 6 768 12 4.68 81.9 84.8 91.3

12 768 12 3.99 84.4 86.7 92.9

表5:使用BERT基础 架构消除预训练任务。没有下一

句话预测任务就训练“没有NSP”。“LTR&No NSP”

被训练为从左到右的LM而没有下一个句子预测,如

OpenAI GPT。“+ BiLSTM”在微调期间在“LTR +

No NSP”模型上添加随机初始化的BiLSTM。

12 1024 16 3.54 85.7 86.9 93.3

24 1024 16 3.23 86.6 87.8 93.7

表6:BERT模型尺寸的烧蚀。#L =层数;#H =隐藏的

大小;#A =关注头数量。“LM(ppl)”是保持训练

数据的蒙面LM困惑。包含110M参数,BERT大 包含340M参数。

众所周知,增加模型尺寸将导致机器翻译

和语言建模等大规模任务的持续改进,这可

通过表中所示的LM延迟训练数据的复杂性来

证明。6.但是,我们认为这是第一项证明扩

展到极端模型尺寸的工作也可以在非常小规

模的任务上实现大幅改进,前提是该模型已

经过充分预先培训。

5.3 训练步数的影响

数字4 从已经预训练了k步的检查点进行微调

后,显示MNLI Dev精度。这使我们可以回答

以下问题:

1. 问题:BERT是否真的需要如此大量的预

训练(128,000字/批* 1,000,000步)才

能实现高微调精度?

答:是的,BERT基础 在1M步骤训练后,对

MNLI的附加精度几乎达到1.0%,而步数

为500k。

2. 问题:MLM预训练是否比LTR预训练收敛

慢,因为每批中只有15%的单词被预测

而不是每个单词?

答案:MLM模型的收敛速度略慢于LTR模

型。然而,就绝对精确度而言,MLM模型

几乎立即开始优于LTR模型。

5.4 基于特征的BERT方法

到目前为止所呈现的所有BERT结果都使用了

微调方法,其中将简单的分类层添加到预训

练模型,并且所有参数在下游任务上联合微

调。然而,基于特征的方法具有某些优点,

其中固定特征从预训练模型中提取。首先,

并非所有NLP任务都可以通过Transformer编

码器体系结构轻松表示,因此需要添加特定

于任务的模型体系结构。其次,能够预先计

算训练数据的昂贵表示一次然后在该表示之

上使用较便宜的模型进行许多实验,具有主

要的计算益处。

在本节中,我们通过在CoNLL-2003 NER任

务上生成类似ELMo的预训练上下文表示来评

估BERT在基于特征的方法中的表现。为此,

我们使用与Section中相同的输入表示4.3,但

是使用来自一个或多个层的激活而不微调

BERT的任何参数。这些上下文嵌入在分类层

之前用作随机初始化的双层768维BiL-STM的

输入。

结果显示在表中7.表现最佳的方法是连接

来自预训练变形金刚的前四个隐藏层的标记

表示,其仅在微调整个模型后仅为0.3 F1。

这表明BERT对于微调和基于特征的方法都是

有效的。

84

82

80

78

76

200 400 600 800 1,000

预训练步骤(数千)

图层 开发F1

所有的Finetune 96.4

第一层(嵌入) 91.0

倒数第二个隐藏 95.6

最后隐藏 94.9

最后四个隐藏的总和 95.9

康卡特最后四个隐藏 96.1

总共所有12层 95.5

图4:多次训练步骤的消融。这显示了微调后的

MNLI精度,从已经预训练了k步的模型参数开始。

x轴是k的值。

表7:使用BERT和CoNLL-2003 NER基于特征的方法

的消融。将来自指定层的激活组合并馈入双层

BiLSTM,而不向BERT反向传播。

BERT基础 (蒙面LM)

BERT基础 (从左到右)

M

N

L

I开

性6 结论

由于使用语言模型进行转移学习,最近的经

验改进表明,丰富的,无监督的预训练是许

多语言理解系统的组成部分。特别是,这些

结果使得即使是低资源任务也能从非常深的

单向体系结构中受益。我们的主要贡献是将

这些发现进一步推广到深度双向架构,允许

相同的预训练模型成功解决一系列广泛的NLP

任务。

虽然实证结果很强,在某些情况下超过人

类表现,但未来重要的工作是调查BERT可能

会或可能不会捕获的语言现象。

参考

Rami Al-Rfou,Dokook Choe,Noah Constant,

Mandy Guo和Llion Jones。2018.字符级语言建

模,具有更深刻的自我关注。arXiv preprint

arXiv:1808.04444。

Rie Kubota Ando和Tong Zhang。2005.从多个任

务和未标记数据中学习预测结构的框架。机器

学习研究杂志,6(11月):1817-1853。

Luisa Bentivogli , Bernardo Magnini , Ido

Dagan,Hoa Trang Dang和Danilo Giampiccolo。

2009.第五届PASCAL承认文字蕴涵挑战。在TAC。

NIST。

John Blitzer , Ryan McDonald 和 Fernando

Pereira。2006.结构对应学习的领域适应。在

2006年关于自然语言处理中经验方法会议的会

议记录中,第120-128页。计算语言学协会。

Samuel R. Bowman,Gabor Angeli,Christopher

Potts和Christopher D. Manning。2015.用于

学习自然语言推理的大型注释语料库。在EMNLP

中。计算语言学协会。

Peter F Brown , Peter V Desouza , Robert L

Mercer,Vincent J Della Pietra和Jenifer C

Lai。1992.基于类的自然语言n-gram模型。计

算语言学,18(4):467-479。

Daniel Cer,Mona Diab,Eneko Agirre,Inigo

Lopez-Gazpio和Lucia Specia。2017.Semeval-

2017任务1:语义文本相似性 - 多语言和跨语

言 的 重 点 评 估 。 arXiv preprint arXiv :

1708.00055。

Ciprian Chelba , Tomas Mikolov , Mike

Schuster , Qi Ge , Thorsten Brants ,

Phillipp Koehn和Tony Robinson。2013.十亿

字基准测量 -

统计语言建模的进展。arXiv preprint arXiv:

1312.3005。

Z. Chen,H。Zhang,X。Zhang和L. Zhao。2018。

Quora问题对.

Kevin Clark,Minh-Thang Luong,Christopher

D Manning和Quoc V Le。2018.采用交叉视图训

练的半监督序列建模。arXiv preprint arXiv:

1809.08370。

Ronan Collobert和Jason Weston。2008.自然语

言处理的统一架构:具有多任务学习的深度神

经网络。在第25届国际机器学习大会论文集中,

ICML '08。

Alexis Conneau,Douwe Kiela,Holger Schwenk,

Lo¨ıcBarrault和Antoine Bordes。2017年。监

督 从中学习通用句子表示 自然语言推断数据.

在2017年自然语言处理经验方法会议论文集,

第670-680页,丹麦哥本哈根。计算语言学协会。

Andrew M Dai和Quoc V Le。2015.半监督序列学

习。在神经信息处理系统的进展中,第3079-

3087页。

J. Deng,W。Dong,R。Socher,L.-J。Li,K。

Li和L. FeiFei。ImageNet:一个大规模的分层

图像数据库。在CVPR09。

William B Dolan和Chris Brockett。2005.自动

构建句子释义语料库。在第三届国际释义研讨

会论文集(IWP2005)中。

Dan Hendrycks和Kevin Gimpel。2016年桥接 具有

高斯的非线性和随机正则化器 sian错误线性单

位.CoRR,abs / 1606.08415。

杰里米霍华德和塞巴斯蒂安罗德。2018。普遍 用

于文本分类的语言模型微调.在ACL中。计算语

言学协会。

Mandar Joshi,Eunsol Choi,Daniel S Weld和

Luke Zettlemoyer。2017.Triviaqa:一个用于

阅读理解的大规模远程监督挑战数据集。在ACL

中。

Ryan Kiros , Yukun Zhu , Ruslan R

Salakhutdinov , Richard Zemel , Raquel

Urtasun,Antonio Torralba和Sanja Fidler。

2015. Skip-thought vectors。在神经信息处

理系统的进展中,第3294-3302页。

Quoc Le和Tomas Mikolov。2014.句子和文件的分

布式表示。在国际机器学习会议,第1188-1196

页。

Hector J Levesque , Ernest Davis 和 Leora

Morgenstern。2011. winograd架构挑战。在

Aaai春季研讨会上:常识推理的逻辑形式化,

第46卷,第47页。Lajanugen Logeswaran和Honglak Lee。2018。一

个 学习句子的有效框架代表 - 修改.在国际学

习代表会议上。

Bryan McCann,James Bradbury,Caiming Xiong

和 Richard Socher 。 2017.Learnned in

translation:Contextualized word vectors。

在NIPS。

Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg

S Corrado和Jeff Dean。2013.单词和短语的分

布式表示及其组成。在神经信息处理系统的进展

26,第3111-3119页。Curran Associates,Inc。

Jeffrey Pennington , Richard Socher 和

Christopher D. Manning。2014年手套:全球

媒介 单词表示.在自然语言处理中的经验方法

(EMNLP),第1532-1543页。

Matthew Peters , Waleed Ammar , Chandra

Bhagavatula和Russell Power。2017.使用双向

语言模型的半监督序列标记。在ACL中。

Matthew Peters,Mark Neumann,Mohit Iyyer,

Matt Gardner , Christopher Clark , Kenton

Lee和Luke Zettlemoyer。2018.深层语境化词

汇表示。在NAACL。

Alec Radford , Karthik Narasimhan , Tim

Salimans和Ilya Sutskever。2018.通过无监督

学习提高语言理解能力。技术报告,OpenAI。

Pranav Rajpurkar,张健,Konstantin Lopyrev

和Percy Liang。2016.Squad:机器理解文本的

100,000多个问题。arXiv preprint arXiv:

1606.05250。

Richard Socher, Alex Perelygin, Jean Wu,

Jason Chuang , Christopher D Manning ,

Andrew Ng和Christopher Potts。2013.针对情

感树库的语义组合的递归深度模型。在2013年

自然语言处理经验方法会议论文集中,第1631-

1642页。

威尔逊L泰勒。1953.完形填空程序:一种测量可

读性的新工具。新闻公报,30(4):415-433。

Erik F Tjong Kim Sang 和 Fien De Meulder 。

2003. conll-2003共享任务简介:与语言无关

的命名实体识别。在HLT-NAACL 2003-第4卷,

第142-147页的第七届自然语言学习会议论文集

中。计算语言学协会。

Joseph Turian,Lev Ratinov和Yoshua Bengio。

Word表示:半监督学习的简单通用方法。在计

算语言学协会第48届年会论文集中,ACL '10,

第384-394页。

Ashish Vaswani,Noam Shazeer,Niki Parmar,

Jakob Uszkoreit , Llion Jones , Aidan N

Gomez,Lukasz Kaiser和Illia Polosukhin。

2017.注意力就是你所需要的。在神经信息处理

系统的进展,第6000-6010页。

Pascal Vincent , Hugo Larochelle , Yoshua

Bengio和Pierre-Antoine Manzagol。2008.使

用去噪自动编码器提取和组合强大的功能。在

第25届机器学习国际会议论文集,第1096-1103

页。ACM。

Alex Wang,Amapreet Singh,Julian Michael,

Felix Hill,Omer Levy和Samuel R Bowman。

2018.胶水:一种用于自然语言理解的多任务基

准 和 分 析 平 台 。 arXiv preprint arXiv :

1804.07461。

A. Warstadt,A。Singh和SR Bowman。2018。心

病 语言可接受性的脓流.

Adina Williams , Nikita Nangia 和 Samuel R

Bowman。2018.通过推理理解句子的广泛覆盖挑

战语料库。在NAACL。

Wu Yonghui Wu,Mike Schuster,Zhifeng Chen,

Quoc V Le , Mohammad Norouzi , Wolfgang

Macherey,Maxim Krikun,Yuan Cao,Qin Gao,

Klaus Macherey,et al。2016.谷歌的神经机器

翻 译 系 统 : 缩 小 人 机 翻 译 的 差 距 。 arXiv

preprint arXiv:1609.08144。

Jason Yosinski,Jeff Clune,Yoshua Bengio和

Hod Lipson。深度神经网络中的特征如何可转

移?在神经信息处理系统的进展中,第3320-

3328页。

Rowan Zellers,Yonatan Bisk,Roy Schwartz和

Yejin Choi。2018. Swag:用于扎根常识推理

的大型对抗数据集。在2018年自然语言处理经

验方法会议(EMNLP)的会议记录中。

Yukun Zhu , Ryan Kiros , Rich Zemel , Ruslan

Salakhut-dinov , Raquel Urtasun , Antonio

Torralba和Sanja Fidler。2015.对齐书籍和电影:

通过观看电影和阅读书籍来实现故事般的视觉解

释。在IEEE国际计算机视觉会议论文集,第19-

27页。

你可能感兴趣的:(2019-07-05 bert 论文翻译)