【文献阅读】ERNIE: Enhanced Representation through Knowledge Integration

Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.

Abstract

知识增强的新语言表示模型

ERNIE 旨在学习通过知识掩蔽策略增强的语言表示,包括实体级掩蔽和短语级掩蔽。
实体级策略屏蔽了通常由多个单词组成的实体。 短语级策略隐藏了整个短语,它由几个单词组成一个概念单元。

Introduction

Word2V ec (Mikolov et al., 2013)和Glove (Pennington et al., 2014)中的方法将单词表示为向量,其中相似的单词有相似的单词表示。 这些词表示为其他深度学习模型中的词向量提供了初始化。

该模型无法根据哈利波特和 J.K.罗琳的关系预测哈利波特。直观的是,如果模型学习更多的先验知识,模型可以获得更可靠的语言表示。

除了基本的掩蔽策略外,我们还使用了两种知识策略:短语级策略和实体级策略。通过这种方式,在训练过程中隐含地学习了短语和实体的先验知识。

ERNIE 不是直接添加知识嵌入,而是隐式学习有关知识和较长语义依赖的信息,例如实体之间的关系、实体的属性和事件的类型,以指导词嵌入学习。这可以使模型具有更好的泛化性和适应性。

ERNIE在异构中文数据上进行了预训练,然后应用于5个中文NLP任务。

主要贡献:

  1. 引入了一种新的语言模型学习处理,它掩盖了短语和实体等单元,以便从这些单元中隐式地学习句法和语义信息。
  2. ERNIE 在各种中文自然语言处理任务上的表现明显优于以往最先进的方法。
  3. 我们发布了 ERNIE 和预训练模型的代码

Related Work

上下文独立的文本表示

Word2V ec (Mikolov et al., 2013) 和 Glove (Pennington et al., 2014) 等方法将大量文本语料库作为输入,并生成一个词向量,通常为数百维。 他们为词汇表中的每个单词生成一个单词嵌入表示。

上下文敏感的文本表示

一个词在上下文中可以具有完全不同的含义或含义

  1. ELMo
  2. GPT
  3. BERT
  4. MT-DNN
  5. GPT-2
  6. XLM

异构数据

句子编码器

Methodology

Transformer 编码器

Transformer 可以通过 self-attention 捕获句子中每个标记的上下文信息,并生成一系列上下文嵌入。

Knowledge Integration知识整合

我们使用先验知识来增强我们预训练的语言模型,因此提出了一种多阶段知识屏蔽策略,将短语和实体级知识集成到语言表示中。

Basic-level Masking

它将句子视为基本语言单元的序列,对于英语,基本语言单元是单词,对于中文,基本语言单元是汉字。
在训练过程中,我们随机屏蔽 15% 的基本语言单元,并使用句子中的其他基本单元作为输入,并训练一个变换器来预测屏蔽单元
基于Basic-level Masking,我们可以获得基本的单词表示。 因为它是在基本语义单元的随机掩码上训练的,高级语义知识很难完全建模。

Phrase-Level Masking

第二阶段是使用短语级掩蔽。 短语是一小组单词或字符,它们共同充当一个概念单元。
对于英语,我们使用词法分析和分块工具来获取句子中短语的边界,并使用一些依赖于语言的切分工具来获取其他语言(例如中文)的单词/短语信息。
这次我们随机选择句子中的几个短语,对同一短语中的所有基本单元进行掩码和预测。 在这个阶段,短语信息被编码到词嵌入中。

Entity-Level Masking

名称实体包含人、地点、组织、产品等,可以用专有名称表示。
与短语掩蔽阶段一样,我们首先分析句子中的命名实体,然后对实体中的所有槽进行掩蔽和预测。

=》经过三个阶段的学习,得到了一个由更丰富的语义信息增强的词表示。

Experiment

出于比较目的,选择 ERNIE 与基于 BERT 的模型大小相同。 ERNIE 使用 12 个编码器层、768 个隐藏单元和 12 个注意力头。

异构语料库预训练

我们绘制了混合语料库中文维基百科、百度百科、百度新闻和百度贴吧。 句子数为21M、51M、47M、54M。

我们对汉字进行繁简转换,对英文字母进行大小写转换。 我们为我们的模型使用 17,964 个 unicode 字符的共享词汇表。

消融实验

基线词级掩码中添加短语级掩码可以提高模型的性能。
在此基础上,我们加入了实体级的掩蔽策略,进一步提升了模型的性能。

总之,这些案例表明 ERNIE 在基于上下文的知识推理中表现更好。

你可能感兴趣的:(文献阅读,nlp)