paper小计:Empirical Evaluation of Pretraining Strategies forSupervised Entity Linking

Abstract
在这项工作中,我们提出了一个实体链接模型,它结合了一个transformer架构与来自维基百科链接的大规模预训练。
Introduction  略
Related Work
我们没有明确地建模文档级的消除歧义。然而,我们的长上下文窗口包含了几个提到,这应该允许这种消除歧义。
我们通过直接从维基百科文本中学习实体的分布式表示来对我们的模型进行预训练,我们的嵌入是直接学习的,而不是通过实体描述生成的。我们没有使用额外的特征,如先验概率或字符串匹配特征。考虑上下文中的所有提到和实体,相反,只使用四层随机初始化的转换器,而不是从大规模语言建模预训练初始化的12层。
我们实验了端到端实体连接],其中系统不能预测金跨度的实体,而必须同时预测跨度及其标签。一个密切相关的任务是多语言实体链接。
Model
Task Defifinition
我们的训练数据,D={(x0,l0)…(xN,lN)},是一个上下文语料库,每个都有一组提到标签,每个上下文中提到一个。给定一个输入上下文xi,我们的目标是预测提到li的实体集合。在实体消歧法中,我们得到了一组跨度,并预测由每个跨度链接的实体。在端到端实体链接中,我们必须同时预测提到跨度的集合和它们的链接实体。
Mention Detection
对于许多实体链接任务,都提供了目标跨度。为了能够进行端到端实体链接,我们另外训练我们的模型来预测提及,独立于实体链接。一种方法是对每一个可能的跨实体对进行评分,或者使用评分阈值来过滤没有实体链接达到足够高的分数的跨对,或者对一个特殊的null链接嵌入进行额外评分。然而,为我们在模型中使用的长上下文枚举所有跨度将是非常昂贵的。我们采用将提及作为BIO序列编码的方法,并训练上下文表示的MLP来预测具有标准交叉熵损失的序列。我们最终的损失总和了提到的检测损失和链接损失。
Experimental Setup
Wikipedia Pretraining
我们构建了一个与2019-04-14年英文维基百科转储中的实体提及标签配对的上下文训练语料库。我们首先将每篇文章划分为1000个单节点字符的块,得到一个超过1750万个上下文的语料库,其中超过1700万个实体提到,覆盖了超过570万个实体。这些都用BERT标记器处理,限制为256字件标记。除了维基百科的链接外,我们还使用了一个最先进的命名实体识别器,用未链接的提及跨度来注释每个句子。这些被用作我们提到的检测组件的附加信号。
Entity Candidates Selection
在所有570万个实体中使用完整的softmax训练模型是昂贵的。一种常见的解决方案是使用 噪声对比损失,和根据其相对频率的候选样本,在这项工作中,我们实验了其他的方法来产生候选人,这可能会在训练中提供更好的消极因素。除了从整个实体词汇表中统一随机选择的否定外,我们还定义了两种类型的硬否定:
1.页面候选,它是给定上下文中链接的所有实体的集合。这意味着要捕获与语义上相关的概念。
2.候选短语表,每个提及候选词的词汇相关实体集,从sling提供的短语表中获得。
在我们的基本设置中,我们使用多达256页候选,和384个短语表候选,在示例中每个提到之间平均分配。768集合中的任何剩余房间都充满了从实体词汇表中统一抽样的随机候选人(意味着每个示例至少有128个随机候选人)。我们将在第6.2节中研究不同的候选选择方法的影响。除了这些候选项之外,对于一批中的每个示例,我们还使用其他示例的候选项作为额外的否定。
Input Noising
我们还在输入数据中添加了噪声。我们应用与Devlin等人2018年使用的相同的噪声函数:选择15%的令牌进行修改。这些令牌中的80%被更改为[掩码]令牌,10%被更改为随机令牌,10%未被修改。
Pretraining hyperparameters略
Entity Linking Datasets
Textual Context 大多数CoNLL文档不符合我们规定的256个令牌的限制。因此,我们在文档中的每个换行符处将文档分成“句子”。我们尝试了三种方法在这些句子中添加文档的上下文:(i)将句子按原样进行,(ii)将文档的标题添加到句子中,(iii)将文档的标题和前两句话添加到句子中。在整个实验过程中,我们将使用(iii),尽管我们在第6.4节中展示了这个选择的影响。
Entity Candidates Selection
我们发现,通过仔细解析unicode和维基百科重定向,我们实现的转换率略高于Globerson等人2016年报告的转换率(统计数据见表1)。这导致了更高的黄金召回率,但也会有更多的候选者被提到,这意味着我们的系统必须区分更多的候选者。我们将使用这两个别名表来报告结果。
Finetuning 我们在CoNLL训练集上调整我们的模型--包括实体嵌入--,使用每个提到的别名表候选项。我们使用了256的批处理大小,学习率为1e-6,并训练了2000步。
TAC-KBP2010是另一个广泛用于评估实体消歧系统的数据集。与CoNLL相比,文档中提到的注释稀疏。它在训练集中包含1074个注释实体,在评估集中包含1020个注释实体。该数据集的实体是TAC知识库的一部分,包含818,741个实体。由于减少了实体词汇表,我们可以不使用别名表就可以进行微调,并且在整个结果中都采用此设置。这与Wu等人2019年之前的最新方法相一致。为了选择要提到的上下文,我们取在文档中第一次出现提到之前和之后的256个字节。
我们通过对训练集进行交叉验证来选择训练上的微调参数。我们使用了32步的批处理大小,训练了1000步,并发现最好是 冻结实体嵌入。我们最终的模型在所有训练数据上进行训练,在交叉验证中选择参数。然而,我们在所有表中报告评估(测试)集数的结果,包括烧蚀。事实上,我们发现这更能反映任务的表现,因为训练集明显更容易。
End-to-end entity linking
我们还实验了在CoNLL上的端到端实体链接(TAC-KBP由于其稀疏的注释而不合适)。在本例中,我们不使用别名表。在此设置中,我们遵循第6.1节中的超参数。我们不是使用候选对象,而是训练我们的模型来预测bio标记的提及边界,并消除所有实体之间的歧义。在训练和微调时间,黄金跨度被用于消歧任务。预测时我们使用bio标记的预测作为我们的跨度,并预测所有可能的实体中的每个跨度的实体。我们使用标准的强匹配微f1分数。
Evaluation
paper小计:Empirical Evaluation of Pretraining Strategies forSupervised Entity Linking_第1张图片
paper小计:Empirical Evaluation of Pretraining Strategies forSupervised Entity Linking_第2张图片

 

 

Entity Linking 表1显示,我们的方法在CoNLL和TACKBP2010上优于之前的所有方法。在CoNLL上,我们在两个别名表设置中都优于方法。此外,我们注意到,与以前的许多系统不同,我们不使用别名先验、知识库特性或其他实体特性。
End-to-end entity linking 对于端到端实体链接,我们不使用别名表。我们不是使用候选对象,而是预测bio标记的提及边界和消除所有实体之间的提及的歧义。在训练和微调时间,黄金跨度被用于消歧任务。在推理时,我们使用BIO预测作为我们的跨度,并预测所有这些跨度的实体。表2显示了我们的模型与其他模型相比,除了布罗舍伊特2019年和科利萨斯等人2018年外,我们的模型表现良好。前者使用一个更大的变压器模型,也从bert基模型初始化,该模型是在比我们的训练数据大得多的未标记文本语料库上进行预训练的。Kolitsas等人,2018年依赖于一个别名表,在训练和推理时生成候选提及次数。此外,它还引入了一种聪明的机制来联合优化和选择提到的边界和候选实体,而我们则使用了一种更简单的流水线方法。最后,他们还引入了一个文档级的消歧一致性惩罚和一个共参考解析启发式。我们认为别名表的使用以及上述差异解释了我们的方法与Kolitsas等人2018年之间的差距,我们将在未来的工作中寻求弥补这一差距。然而,我们的模型是通过简单的建模和较低的推理成本可以实现的一个强有力的基线。
Analysis
Classifying all entities or classifying candidates 我们训练了我们的模型来区分候选对象中正确的链接实体。另一种方法是对所有实体进行预测。这在计算上更昂贵,因为它需要在批处理中每次提到做一个超过570万个实体。因此,我们使用批处理大小为2048,并将该模型和使用候选模型训练的模型的实体嵌入维度设置为64。
Impact of candidate selection  略
Impact of adding noise during pretraining
Impact of context selection methods on CoNLL
Error analysis 图2显示了CoNLL开发集上的三个样本错误。大多数错误是由于CoNLL标签的特异性水平不同所致。一些错误是由于维基百科上的变化造成的。例如,在文本A中,保加利亚U21足球队的维基百科页面是在2013年在CoNLL之后建立起来的。此外,在文本C中,我们的模型正确地消除了奥斯汀、米克拉和理查德·克拉奇克之间的歧义,他们都是三个网球运动员(只有理查德是荷兰人)。
Conclusion  在本文中,我们对监督实体连接的预训练策略进行了深入的研究,通过一个基于四层transformer的模型,在CoNLL和TAC-KBP2010上实现了最先进的性能。考虑到这些数据集中剩余的有限的净空间,以及别名表对简化问题的强大影响,我们认为创建新的数据集,以及更困难的实体链接设置,如零镜头和低资源域,是未来工作的关键领域。

你可能感兴趣的:(entity,linking,paper,NLP,entity,linking)