解读《SenseBERT: Driving Some Sense into BERT》

SenseBERT 能理解中文的“没什么意思,意思意思。”这个系列的梗不。。。。

Abstract

自我监督技术使神经语言模型能够推进自然语言理解。然而,现有的自我监督技术在单词形式级别上运行,其作为底层语义内容的替代。本文提出了一种在词义直接采用自我监督的方法水平。我们的模型名为SenseBERT,经过预先训练,不仅可以预测被掩盖的单词,还可以预测他们的WordNet超能。因此,我们在不使用人类注释的情况下获得词汇语义水平语言模型。SenseBERT实现了显着改进的词汇理解,正如我们通过在SemEval上进行实验以及在上下文中的任务(WiC)任务中获得最新结果所证明的那样。我们的方法可以扩展到其他语言信号,这些信号可以类似地集成到预训练过程中,从而产生越来越语义化的语言模型。

Introduction

神经语言模型最近经历了质的飞跃,推动了各种NLP任务的最新技术水平。随着网络架构的进步,自我监督的使用已被证明是这些成就的核心,因为它允许网络在预训练阶段从大量未注释的文本中学习。

BERT中采用的自我监督策略涉及掩盖输入句子中的一些单词,然后训练模型以根据其上下文预测它们。其他提出的自我监督目标方法,包括单向 ,置换  或基于单词插入方法,在词语上的运作方式相似。但是,由于给定的单词形式可以具有多种含义(例如,“贝斯”这个词可以指鱼,吉他,一种歌手等等,这个词本身仅仅是其在给定语境中的实际意义的代名词,被称为它的意义。事实上,从词汇语义的角度来看,词形层面可以被视为一个表面层面,经常引入具有挑战性的歧义 。

在本文中,我们提出了一种新的方法,直接在一个词的意义层面上应用自我监督。通过将明确的词义信息注入到BERT的自我监督信号中,我们在对大型无注释语料库进行预训练时将模型暴露给词汇语义。我们将结果称为感知模型SenseBERT

具体来说,我们在BERT的预训练中添加一个掩蔽词义预测任务作为辅助任务。因此,我们与标准的单词形式语言模型一起训练一个语义级语言模型,预测缺失单词的含义。为了保留在未注释文本上进行自我训练的能力,我们使用了WordNet,这是一个专家构建的本体,提供了词义的清单。这种外部语言知识库的整合固有地改善了网络对词汇语义的归纳偏见。

我们专注于一个字的意义上的粗粒度的变体,被称为其的WordNet 的SuperSense,为了减轻细粒度字义系统的所识别脆性,引起任意的检测粒度,模糊性,和一般的主观。WordNet词典编纂者将所有词义组织成45个超感类别,其中26个用于名词,15个用于动词,3个用于形容词,1个用于副词(参见附录中的完整超感表)。消除单词的超感知已被广泛研究为基本的词汇分类任务  。

我们将来自WordNet的掩蔽词允许的超级列表列表用作感知预测任务的一组可能标签。用单一标记标记单词(例如,'剑'只有超标,名词。文物)是直截了当的:我们训练网络在给定被掩盖的单词的上下文的情况下预测这种超模。至于具有多个超级犯罪的单词(例如,'bass'可以是:noun.food,noun.animal,noun.artifact,noun.person ),我们训练模型来预测任何这些意义,从而导致一个简单的但有效的软标签计划。

语境化嵌入的引入 ,其中给定单词的嵌入是依赖于上下文而不是预先计算的,为感知嵌入提供了一个很有希望的前景。直觉上,单词的意义及其上下文是高度相关的,因此增加上下文变化的能力应该使嵌入更自然地携带感知信息。的确,  Coenen 等人已经证明BERT在某种程度上捕获了词义信息。

尽管如此,我们还是确定了这个有罪的明显差距。我们表明,用当前的单词级别自我监督训练的BERT模型,承担着消除词义意义的隐含任务,往往无法掌握词汇语义,表现出高超的错误分类率。我们进一步证明,在预训练时插入的自监督字感信号允许SenseBERT显着弥合这一差距。

Incorporating Word-Supersense Information at Pre-training

输入到BERT是字序列,其中15 %的话是由[MASK]令牌代替。这里N是输入句子长度,D W是单词词汇量大小,并且是对应于第j 个输入词的one-hot向量。对于每一个字掩蔽,输出是一个字得分矢量包含每个单词的分数。BERT的体系结构可以分解为(1)内部Transformer编码器体系结构 ,包括(2)外部映射到单词词汇空间,用W表示。Transformer编码器工作在字的嵌入序列,其中d是Transformer编码器的隐藏维度。它们通过多个基于注意力的Transformer层传递,在每一层产生一系列新的上下文嵌入。变压器编码器输出是情境化的嵌入字的最后序列

外部映射是有效的外部词的词汇尺寸和内部Transformer尺寸之间的转换。在输入语句原始字被通过应用该映射(以及添加位置编码矢量转换成Transformer块


在下面的小节中,我们构建我们上述方法贡献作为附加并行外部映射的话supersenses空间的,表示为,其中D S是超越词汇量的大小。具体来说,在2.1节中,  我们描述了用于与W并行学习S的损失函数,在无人监督的预训练阶段有效地实现了单词形式和词义多任务学习。然后,在2.2节中,  我们描述了在S中添加超感知信息的方法 最初的Transformer嵌入,与W添加的字级信息并行。最后,在2.3节中,  我们描述了我们对BERT掩蔽策略的修改,优先考虑带有更强语义信号的单超语音单词。 

解读《SenseBERT: Driving Some Sense into BERT》_第1张图片

图1: SenseBERT包括一个掩蔽字超感预测任务,与BERT的原始掩蔽字预测任务一起预先训练  (Devlin 等,2018)(见2.1节  )。与原始BERT一样,从Transformer维度到外部维度的映射在输入和输出处都是相同的(W表示单词,S表示替换),其中M表示单词形式之间的固定映射及其允许的WordNet超级(见2.2节  )。向量p (j )表示位置嵌入。为清楚起见,我们省略了对与上述联合训练的句子级下一句子预测任务的引用。

Self-Supervised Supersense Prediction Task

给定在位置上掩蔽的字Ĵ,BERT的原始掩码字预测训练前的任务是有字得分向量输出得到尽可能接近与屏蔽词对应的1-hot向量。这是通过最小化单词得分向量的softmax和对应于被屏蔽单词的1-hot向量之间的交叉熵损失来完成的:

 

其中w是掩码字,上下文由输入序列的其余部分组成,概率由下式计算

解读《SenseBERT: Driving Some Sense into BERT》_第2张图片

其中y个单词 w表示单词分数向量的第 w 个条目。

解读《SenseBERT: Driving Some Sense into BERT》_第3张图片

图2: SenseBERT在预训练时学习的超感矢量(分类器S的行)的UMAP可视化。(a)通过超能部分的词性聚类。(b)在名词上的罪行中,语义相似的罪行聚集在一起(详见附录  A)。

我们按照上述程序训练SenseBERT的单词级语言模型。共同地对每一个屏蔽字,我们训练模型来预测它的SuperSense,,目的是使感测得分向量输出得到尽可能接近到1-hot vector对应于单词的正确supersense。

具体来说,我们对超能级语言模型使用两个损失项的组合。以下允许感知术语最大化预测感觉在被掩盖词w的允许超集的集合中的概率:

解读《SenseBERT: Driving Some Sense into BERT》_第4张图片

 

 

其中A (w )是被掩盖的单词允许的超级犯罪组,超级s的概率由下式给出:

解读《SenseBERT: Driving Some Sense into BERT》_第5张图片

上面提出的自我监督方案,对所有被允许的被掩盖的词的同等对待,对超级标签引入了噪声。我们期望在足够大的语料库中聚合许多上下文将强化正确的标签,而嘈杂的标签将平均。为了说明这一点,请考虑以下食物背景的例子。

  1. “这种低音很美味” 
    (超感:名词。食物,名词,文物

  2. “这种巧克力很美味” 
    (超感:名词。食物,名词,属性

  3. “这种泡菜味道鲜美” 
    (超感:名词。食物,名词。状态

在每个示例中屏蔽标记的单词导致三个相同的输入序列,每个输入序列具有不同的标签集。地面实况标签,名词食品,出现在所有情况下,增加其概率,而支持其他标签的信号抵消。

虽然L 允许SLM在正确的方向上推动网络,但是最小化这种损失可能导致网络在预测严格的感官子集(即预测分布的崩溃)时变得过于自信。这在训练过程的早期阶段尤其严重,此时网络可以收敛到软标签方案的噪声信号。

为了缓解这个问题,将以下正则化术语添加到损失中,这样可以鼓励对允许的违规行为进行统一的预测分配:

解读《SenseBERT: Driving Some Sense into BERT》_第6张图片
,在允许的违规上具有均匀分布的交叉熵损失。解读《SenseBERT: Driving Some Sense into BERT》_第7张图片

图3:(a) SenseBERT的单词 - 超级语义语言模型(上限为5 %)给出了在上下文中分配给掩盖位置的超感概率的演示。对应于每个超联代的示例词在括号中给出。(b) SenseBERT对原始文本的自我预测的示例,当给模型提供未屏蔽的输入句子时。这超出了单词形式的抽象能力,有助于在训练前更自然地引出语义内容。

后,为了训练语义级语言模型,我们利用表单的组合损失:

Supersense Aware Input Embeddings

虽然在原理上两个不同的矩阵可能已被用于转换和移出Transformer编码器,所述BERT体系结构采用相同的映射w 。Press和Wolf(2016)证明了这种方法能够减少困惑的模型  。直观地,从计算分数的相同映射构造变换器编码器的输入嵌入改善了它们的质量,因为它使输入对训练信号更敏感。

我们遵循这种方法,并且除了W之外,在输入中插入我们新提出的语义级语言模型矩阵S [如图2所示。 1(b) ],使变压器编码器的输入矢量服从: 


用于构造的上述策略允许S中的语义级向量起作用并且甚至对于在训练语料库中很少观察到的单词来形成输入嵌入。对于这样一个词,W中相应的行可能信息量较少,因为由于词频率低,模型没有足够的机会充分学习它。然而,由于模型学习了其超感知的表示,因此S中的相应行是该单词的语义类别的信息。因此,输入嵌入在eq。 8 即使掩盖的词很少,也可以帮助模型获取有意义的信息,从而可以更好地利用训练语料库。其中是如BERT中使用的常规的嵌入位置,并是一个静态0/1矩阵单词和及其允许的WordNet supersenses。

Single-Supersensed Word Masking

具有单一超感知的词是用于获得明确的语义信号的良好锚。这些单词有助于将上下文映射到超级犯罪,以允许模型进行正确的基于上下文的预测,即使被掩盖的单词具有多个超级犯罪。因此,我们赞成掩蔽策略中的这些单词,选择每个输入序列中50 %的单超级单词被掩盖。如果整个15 %的掩蔽预算中有40 %被单一的超级单词填充(这种情况很少发生),我们会停止,并且无论如何我们会随机选择其余的单词来完成这个预算。在实践中,1个总分10 选择用于掩蔽的单词显示为自身而不是[掩模],并且预测任务按原样执行。

Conclusion

我们将词汇语义信息引入神经语言模型的预训练目标。这导致结果模型的词级语义感知提升,名为SenseBERT,在基于SemEval的Supersense Disambiguation任务上显着优于常规BERT,并在Context in Context任务中实现最先进的结果。这种改进是在没有人类注释的情况下获得的,而是通过利用外部语言知识来源来获得归纳偏差。我们的工作表明,可以类似地引入超出词汇水平的额外语义信号,允许网络在预训练阶段无需人工监督即可获得进一步的洞察力。

你可能感兴趣的:(解读《SenseBERT: Driving Some Sense into BERT》)