论文信息
Subjects: Computation and Language (cs.CL)
(1)题目:Simple BERT Models for Relation Extraction and Semantic Role Labeling (关系抽取和语义角色标注的简单BERT模型)
(2)文章下载地址:
https://doi.org/10.48550/arXiv.1904.05255
arXiv:1904.05255 [cs.CL]
(or arXiv:1904.05255v1 [cs.CL] for this version)
(3)相关代码:
(4)作者信息:Jimmy Lin
————————————————
We present simple BERT-based models for relation extraction and semantic role labeling. In recent years, state-of-the-art performance has been achieved using neural models by incorporating lexical and syntactic features such as part-of-speech tags and dependency trees. In this paper, extensive experiments on datasets for these two tasks show that without using any external features, a simple BERT-based model can achieve state-of-the-art performance. To our knowledge, we are the first to successfully apply BERT in this manner. Our models provide strong baselines for future research.
我们提出了简单的基于bert的关系抽取和语义角色标注模型。近年来,通过结合词性标签和依赖树等词汇和句法特征,使用神经模型实现了最先进的性能。在本文中,对这两项任务的数据集进行了广泛的实验,结果表明,在不使用任何外部特征的情况下,一个简单的基于bert的模型可以实现最先进的性能。据我们所知,我们是第一个以这种方式成功应用BERT的公司。我们的模型为未来的研究提供了强有力的基线。
关系抽取和语义角色标注(SRL) 是自然语言理解的两个基本任务。关系抽取的任务是识别句子中两个实体之间是否存在关系。例如,在“Obama was born in Honolulu”这句话中,“Obama”是主语实体,“Honolulu”是宾语实体。关系提取模型的任务是识别实体之间的关系,即:出生城市(一个人的出生城市)。对于SRL,任务是提取一个句子的谓词-参数结构,确定“谁对谁做了什么”,“何时”,“何地”等。这两种能力在几个下游任务中都很有用,比如问题回答(Shen和Lapata, 2007)和开放信息提取(Fader等人,2011)。
用于这两项任务的最先进的神经模型通常依赖于词汇和句法特征,例如词性标签(Marcheggiani等人,2017),句法树(Roth和Lapata, 2016;Zhang等,2018;Li等人,2018),以及全局解码约束(Li等人,2019)。特别是,Roth和Lapata(2016)认为句法在基于依赖的SRL中,特性是实现具有竞争力的性能所必需的。Zhang等(2018)也表明依赖树特征可以进一步提高关系提取性能 。尽管语法特性无疑是有帮助的,但一个已知的挑战是解析器并不是对每种语言都可用,即使可用,它们也可能不够健壮,特别是对于域外文本,这甚至可能会损害性能(He et al, 2017)。
最近,NLP社区对大量使用基于语言建模的预训练的神经模型感到兴奋(Peters等人,2018;Radford等人,2018)。最新的发展是BERT (Devlin et al, 2018),它在从句子分类到序列标记的各种自然语言任务中都取得了令人印象深刻的进展。一个自然的问题是:我们能否利用这些预先训练好的模型,在不依赖词汇或句法特征的情况下,进一步推动关系提取和语义角色标记的最先进水平?答案是肯定的。我们展示了在BERT之上构建的简单神经体系结构在这两个任务的各种基准数据集上产生了最先进的性能。本文的其余部分依次描述了关系提取和语义角色标记的模型和实验结果。
对于关系提取,任务是预测两个实体之间的关系,给定一个句子和两个不重叠的实体跨度。为了以实体感知的方式对句子进行编码,我们提出了图1所示的基于bert的模型。
首先,我们构造输入序列[[CLS]句子[SEP]主语[SEP]对象[SEP]]。为了防止过拟合,我们替换了中提到的实体带掩码的句子,由参数类型(主语或宾语)和实体类型(如位置和人)组成,如subject - loc,表示主语实体是一个位置。
输入然后由WordPiece标记器进行标记(Sennrich等人,2016)并馈送到BERT编码器。在获得上下文表示之后,我们放弃第一个[SEP]之后的序列,用于以下操作。
我们在TAC关系提取数据集(TACRED) (Zhang等人,2017)上评估我们的模型,这是一个关系提取的标准基准数据集。在我们的实验中,LSTM和MLP的隐藏大小分别为768和300,位置嵌入大小为20。学习率为5 × 10−5。实验中采用了BERT基套模型。面具的嵌入(例如,subject - loc)在训练过程中随机初始化和微调,以及位置嵌入。
TACRED测试集的结果如表1所示。我们的模型优于Zhang等人(2018)和Wu等人(2019)的工作,他们使用GCNs (Kipf和Welling, 2016)和变体将语法树信息编码为外部特征。Alt等人(2019)利用预训练的语言模型GPT (Radford等人,2018),实现了比我们的系统更好的召回率。在F1方面,我们的系统获得了各个模型中最知名的分数,但我们的分数仍然低于Zhang等人的插值模型(2018),因为召回率较低。
语义角色标注的标准表述分为四个子任务:谓词检测、谓词意义消歧、参数识别和参数分类。
参数注释有两种表示形式:基于span的和基于dependency的。
像PropBank这样的语义库通常将参数表示为语法成分(span),而CoNLL 2008和2009共享任务提出了基于依赖关系的SRL,其目标是识别参数的语法头,而不是整个span。在这里,我们跟随Li等人(2019)将这两种注释方案统一到一个框架中,没有任何声明性约束解码。对于几个SRL基准,例如CoNLL 2005、2009和2012,谓词在训练和测试期间都给出。因此,本文只讨论谓词消歧和参数的识别与分类。
Predicate sense disambiguation (谓语意义消歧)
谓词消歧任务是在给定上下文中确定谓词的正确含义。 举个例子,对于句子“Barack Obama went to Paris”,谓语went有“运动”的意思,并且有意义标签01。
我们将这个任务定义为序列标记。
输入的句子被输入到WordPiece标记器中,该标记器将一些单词分成子标记。
谓词标记用意义标签标记。根据最初的BERT论文,其余的标记使用了两个标签:’ O ‘用于任何单词的第一个(子)标记,’ X '用于任何剩余的片段。我们将序列输入BERT编码器以获得上下文表示h。然后将“谓词指示符”嵌入连接到上下文表示,以区分谓词标记和非谓词标记。最后使用标签集上的一个隐藏层MLP进行预测。
Argument identification and classification (参数识别与分类)
这个任务是检测参数范围或参数语法头,并为它们分配正确的语义角色标签。 在上面的例子中,“Barack Obama”是谓词went的ARG1,表示实体在运动。
形式上,我们的任务是预测一个序列z,给定一个句子-谓词对(X, v)作为输入,其中标签集来自标准BIO标记方案和谓词参数的交叉(例如,B-ARG1)。
模型体系结构如图2所示,它在推理过程中输出令牌“Barack”的标记。为了以谓词感知的方式对句子进行编码,我们将输入设计为[[CLS]句子[SEP]谓词[SEP]],允许谓词的表示通过适当的注意机制与整个句子进行交互。 如上所述的输入序列被送入BERT编码器。然后将来自BERT的句子([CLS]句子[SEP])的上下文表示连接到谓词指示器嵌入,然后是一层BiLSTM,以获得隐藏状态G = [g1, g2,…], gn]。对于每个标记gi的最终预测,将谓词gp的隐藏状态与标记gi的隐藏状态连接起来,然后在标签集上输入一个单隐藏层MLP分类器。
我们在两个SRL任务上进行了实验:基于跨度的和基于依赖的。对于基于跨度的SRL,使用了CoNLL 2005 (Carreras and Màrquez, 2004)和2012 (Pradhan et al, 2013)数据集。对于基于依赖的SRL,使用了CoNLL 2009 (Hajiˇc et al, 2009)数据集。我们遵循训练、开发和测试集的标准分割。
在我们的实验中,LSTM和MLP的隐藏大小分别为768和300,
谓词指示器嵌入大小为10。
学习率为5 × 10−5。实验中采用BERT基箱模型和大箱模型。在训练过程中对位置嵌入进行随机初始化和微调。
谓词意义消歧子任务仅适用于CoNLL 2009基准测试。在基于依赖关系的SRL的这一研究中,以往的论文很少单独报告谓词消歧的准确性(结果通常与参数识别和分类混合在一起),导致难以确定收益来源。
在这里,我们报告表2中开发集、测试集和域外测试集(Brown)的谓词消歧准确性。最先进的模型(He等人,2018b)基于BiLSTM和语言特征,如POS标记嵌入和引理嵌入。我们的简单MLP模型没有使用语言特征,而是在强大的上下文嵌入的帮助下获得了更好的准确性。这些谓词意义消歧结果用于基于依赖关系的SRL端到端评估。
我们提供了排除谓词意义消歧的SRL性能来验证im的来源证明:结果见表3。
一些系统的数据缺失,因为它们只报告端到端结果。
我们的端到端结果如表4所示。
我们看到BERT-LSTM-large模型(使用上面的谓词意义消歧结果)在现有技术水平的基础上产生了很大的F1分数改进(Li等人,2019),并且也击败了现有的集成模型。这是在不使用任何语言特性和声明式解码约束的情况下实现的。
我们基于跨度的SRL结果如表5所示。我们看到bert - lstm大模型在单个模型中获得了最先进的F1分数,并且在CoNLL 2005域内和域外测试中优于Ouchi等人(2018)集成模型。然而,由于Ouchi et al(2018)的模型获得了非常高的精度,因此它没有达到CoNLL 2012基准。
他们能够通过更复杂的解码层实现这一目标,并使用人类设计的约束,如“重叠约束”和“数量约束”。
基于这一初步研究,我们表明BERT可以适应关系提取和语义角色标记,没有句法特征和人为设计的约束。虽然我们承认我们的模型非常简单,但我们认为这是一个特性,因为BERT的强大功能能够简化为特定任务量身定制的神经架构。
尽管如此,这些结果为未来的研究提供了强有力的基线和基础。许多自然的后续问题出现了:是否可以重新引入语法特征来进一步提高结果?多任务学习能否同时用于关系提取和语义角色标注?我们正在积极努力回答这些问题和其他问题。