实体链接面临着重大的挑战,例如大量的变化和普遍的歧义,特别是在具有无数实体的高价值领域(所以本文从医疗领域出发)。标准的分类方法存在注释瓶颈,不能有效地处理看不见的实体。zero-shot实体链接已经成为泛化到新实体的一个有希望的方向,但它仍然需要在训练中提到黄金实体和所有实体的规范描述,这两种方法都在维基百科之外很少可用。
在本文中作文通过利用现成的领域知识来探索实体链接的知识环自我监督(KRISS)。在训练中,它使用领域本体在未标记文本上生成自我监督的mention示例,并使用对比学习训练上下文编码器。为了进行推理,它将每个实体的自我监督提到作为原型作为样本,并通过将测试提到映射到最相似的原型来进行链接。
本文方法包含了zero-shot和few-shot方法,并可以很容易地合并实体描述和gold mention标签。以生物医学为案例研究,作者在跨越生物医学文献和临床记录的7个标准数据集上进行了广泛的实验。在不使用任何标记信息的情况下提出了KRISSBERT,一个针对400万个UMLS实体的通用实体连接器,它获得了新的技术状态,在精度上比之前的最佳自监督方法超过20个绝对点。
以前利用领域本体来链接实体的方法通常求助于字符串匹配(针对实体名称和别名),这使得它们很容易受到变化和歧义的影响。最近的方法,如SapBERT,可以在一定程度上解决变化,但它们完全忽略了提及的上下文,也不能解决歧义。对于模棱两可的mention,它们只需返回与它们预测的表面形式匹配的名称或别名的所有实体,而不是预测一个用来链接的唯一实体。
在实践中,本体可能包含额外的领域知识,如别名和实体之间的语义关系(例如,ISA层次结构)。gold mention和规范描述也可以用于一些实体。KRISS提供了一个合并这些信息的通用框架,并推广了few-shot和zero-shot的实体链接方法。别名可以用来生成额外的自监督提及示例。可以利用ISA层次结构来帮助对稀有实体的表示学习。gold mention和实体描述可以作为对比学习中的积极例子,以及推理中的原型。
本文通过利用现成的领域知识来弥补标记信息的缺乏,探索了实体链接的知识环信息监督(KRISS)。在实体链接中,最相关的知识源是领域本体。本体的核心是实体列表,它为每个实体指定唯一的标识符和规范名称,并且是实体链接的先决条件。本文方法只需要在任何域中都可以随时获得的实体列表和未标记的文本。
在训练中,KRISS使用实体列表从未标记的实体列表中生成自监督的mention示例,并使用对比学习训练一个上下文提及编码器,通过映射对同一实体的提及更近。为了进行推理,KRISS从自监督提到中为每个实体的原型。在测试时,KRISS会找到最相似的原型并返回它所代表的实体。
作者对生物医学进行了研究,这是一个具有代表性的高价值领域,以前的方法难以应用。在UMLS的400万个生物医学实体中,只有不到6%的实体有一些可供描述。同样,黄金提及标签只适用于一小部分实体。例如,medmentions,最大的生物医学实体链接数据集,只覆盖了3.5万个实体。
作者应用本文方法来训练KRISSBERT,这是一个针对UMLS中所有400万个生物医学实体的通用实体连接器,只使用UMLS中的实体列表和PubMed2中的未标记文本。KRISSBERT还可以在UMLS中加入其他领域知识,如实体别名和ISA层次结构。作者对跨越生物医学文献和临床记录的7个标准生物医学实体连接数据集进行了广泛的评估。KRISSBERT表现出了明显的优势,在平均准确率上比之前的技术水平高出10分,在医学水平上超过20分。
KRISSBERT可以直接应用于few-shot或有监督的实体连接,而不需要额外的训练,只要在推理过程中添加gold mention的例子作为原型。这个简单的通用模型已经获得了作为特定于数据集的最先进的监督实体链接系统的可比结果,每个系统通过限制实体候选和使用额外的监督源和更复杂的方法(例如,共同引用规则和联合推理)来为单个数据集量身定制。
作者提出了知识丰富的自我监督实体链接,通过对使用现成的领域知识从未标记文本中生成的提及示例进行对比学习。在7个标准生物医学实体连接数据集上的实验证明了这种方法的前景,本文提出的KRISSBERT在准确性方面比现有的技术要多出20点。
未来的发展方向包括:进一步提高自我监督的质量;整合额外的知识;应用于其他领域。
为了方便接下来对论文的阅读,此章节进行了详写,也当作总结一番Related work,顺便把文献引用也写了出来。
许多最终应用程序需要映射到唯一实体。考虑到大量的唯一实体,实体链接本身就具有挑战性。
以前的工作通常采用一种管道方法,首先将候选实体缩小到一个小的集合(候选生成),然后学习对提到的实体和候选实体的上下文(候选排序)进行分类【 Bunescu and Pa¸sca, 20061; Cucerzan, 20072; Ratinov et al., 20113】
此外,实体关系(例如,概念层次结构)和联合推理已经被用来提高准确性【Gupta et al., 20174; Murty et al., 20185; Cheng and Roth, 20136; Le and Titov, 20187】
这些主要是监督方法,缺乏注释的例子,特别是考虑到覆盖大量实体的时候。相比之下,KRISS利用了使用现成的领域知识和未标记的文本的自我监督,并可以有效地解决数百万个实体的变化和歧义。
实体将理由文本mention链接到给定数据库/字典中的唯一实体条目。形式上,实体链接的目标是学习一个函数链接: m t → e m^t→e mt→e,它将文本跨度 t t t中的提及 m m m映射到 m 在 t 的 上 下 文 中 表 示 的 唯 一 实 体 e m在t的上下文中表示的唯一实体e m在t的上下文中表示的唯一实体e。为了简洁起见,当上下文清晰时,作者去掉上标 t t t。
监督实体链接可以访问有标签的提到的例子 ( m , e ∗ ) (m,e^∗) (m,e∗)。zero-shot(few-shot)实体链接可以访问零(少数)测试实体的标记提及示例;它也可以访问非测试实体的标记提及。
相比之下,自监督的实体链接假设没有访问任何黄金提到的例子。在知识丰富的自我监督设置(KRISS)中,作者假设只有一个域本体O和一个未标记的文本语料库T可用,用一个实体列表的可用性,该列表为每个实体指定了唯一标识符和规范名称。实体列表是实体链接的先决条件,因为它提供了链接的目标。
对于每个实体,KRISS在T中搜索其规范名称(保留大小写),并返回一个固定大小的窗口作为上下文。这将立即产生大量嘈杂的提及示例 ( m , e ) (m,e) (m,e)。
给定上下文提及的例子,作者训练一个提及编码器使用对比学习,通过映射提及同一实体更接近和提及不同实体更分开,我们采用了InfoNCE损失。
一个小批包含来自B/2独特实体的B个样本,每个样本有两个采样上下文提到: { m b , i : b ∈ 1.. B / 2 , i ∈ { − 1 , 1 } } \{m_{b,i}:b∈1..B/2,i∈\{−1,1\}\} {mb,i:b∈1..B/2,i∈{−1,1}}。每个上下文提到都被用作查询,依次计算针对批处理中其他项的InfoNCE损失,平均损失为:
1 B ∑ b , i − log exp ( C ( m b , i ) ⋅ C ( m b , − i ) ) ∑ ( b ′ , i ′ ) ≠ ( b , i ) exp ( C ( m b , i ) ⋅ C ( m b ′ , i ′ ) ) \frac{1}{B}\sum_{b,i}-\log \frac{\exp(C(m_{b,i})·C(m_{b,-i}))}{\sum_{(b',i')\neq (b,i)}\exp(C(m_{b,i})·C(m_{b',i'}))} B1b,i∑−log∑(b′,i′)=(b,i)exp(C(mb,i)⋅C(mb′,i′))exp(C(mb,i)⋅C(mb,−i))
C ( ⋅ ) C(·) C(⋅)指的是上下文提及编码器。作者使用一个基于transformer的模型,在每个提到的内容周围添加实体标记,并返回[CLS]表示作为编码。
为了在测试时进行链接,作者为每个实体e抽取一小组自我监督的mention作为参考原型,表示为Proto(e)。给定一个测试提到的m,返回具有最相似的参考原型的实体:
L i n k ( m ) = arg max e max m ′ ∈ P r o t o ( e ) C ( m ) ⋅ C ( m ′ ) Link(m)=\arg\max_{e} \max_{m'∈Proto(e)} C(m)·C(m') Link(m)=argemaxm′∈Proto(e)maxC(m)⋅C(m′)
在对比学习中,采用双编码器公式,其中每个上下文提及都是独立编码的。这有助于扩展与数百万个实体的链接,而不会将候选生成与排名分开,因为参考原型编码可以离线预先计算。本文通过使用上下文提及对上的基于交叉注意transformer的模型替换双编码器来提高连接精度。与双编码器设置类似,实体标记被附加到提到中,[CLS]表示用于分类提及对是否指同一个实体。
Aliases:
实体ontology通常包括某些实体的别名。别名列表通常是不完整的,并且诸如首字母缩写等别名是高度模糊的。所以它们不能被用来作为候选生成的最终来源。然而,别名可以在KRISS中使用别名从未标记的文本中生成额外的自监督mention,就像规范名称一样。为了避免引入过多的噪声,将跳过由多个实体共享的别名。
Semantic hierarchy:
实体通常通过实体之间的ISA关系在一个层次结构中组织实体。KRISS使用这些信息来生成一个以实体为中心的引用,通过连接实体类型和语义层次结构组件,由[SEP]分隔。
Entity description:
对于一小部分公共实体,可以使用手动编写的描述。在UMLS中,只有不到6%的实体有描述,所以它们不能作为对比学习和链接的主要来源。尽管如此,这些信息可能很有用,并且可以通过与语义层次结构连接来生成以实体为中心的引用来合并到KRISS中。
KRISS在训练中没有访问任何标记提及的例子,更不用说对测试实体的标记提及了。因此,根据定义,它总是进行zero-shot实体链接。在测试时给定一个新的实体,KRISS会通过在未标记的文本中搜索其规范名称,生成自我监督的提及原型。与之前关于zero-shot实体链接的工作不同(Logeswaran et al. 201915;Wu et al.202016),KRISS不需要手动编写几乎不可用的实体描述,因此更普遍适用。
动编写的描述。在UMLS中,只有不到6%的实体有描述,所以它们不能作为对比学习和链接的主要来源。尽管如此,这些信息可能很有用,并且可以通过与语义层次结构连接来生成以实体为中心的引用来合并到KRISS中。
KRISS在训练中没有访问任何标记提及的例子,更不用说对测试实体的标记提及了。因此,根据定义,它总是进行zero-shot实体链接。在测试时给定一个新的实体,KRISS会通过在未标记的文本中搜索其规范名称,生成自我监督的提及原型。与之前关于zero-shot实体链接的工作不同(Logeswaran et al. 201915;Wu et al.202016),KRISS不需要手动编写几乎不可用的实体描述,因此更普遍适用。
如果有标记的例子,KRISS也可以用于few-shot或监督实体链接,没有额外的训练。在这种情况下,来自目标训练数据的黄金提到例子被用作链接的提到原型,取代有噪声的自监督原型。KRISS还可以使用有标记的例子来微调自监督模型,这应该会产生额外的精度提高;作者把它留给未来的工作。
Razvan Bunescu and Marius Pa¸sca. 2006. Using encyclopedic knowledge for named entity disambiguation. ↩︎
Silviu Cucerzan. 2007. Large-scale named entity disambiguation based on Wikipedia data. ↩︎
Lev Ratinov, Dan Roth, Doug Downey, and Mike Anderson. 2011. Local and global algorithms for disambiguation to Wikipedia. ↩︎
Nitish Gupta, Sameer Singh, and Dan Roth. 2017. Entity linking via joint encoding of types, descriptions, and context. ↩︎
Shikhar Murty, Patrick Verga, Luke Vilnis, Irena Radovanovic, and Andrew McCallum. 2018. Hierarchical losses and new resources for fifine-grained entity typing and linking. ↩︎
Xiao Cheng and Dan Roth. 2013. Relational inference for wikifification. ↩︎
Phong Le and Ivan Titov. 2018. Improving entity linking by modeling latent relations between mentions. ↩︎
Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin, and Honglak Lee. 2019. Zero-shot entity linking by reading entity descriptions. ↩︎
Daniel Gillick, Sayali Kulkarni, Larry Lansing, Alessandro Presta, Jason Baldridge, Eugene Ie, and Diego Garcia-Olano. 2019. Learning dense representations for entity retrieval. ↩︎
Ledell Wu, Fabio Petroni, Martin Josifoski, Sebastian Riedel, and Luke Zettlemoyer. 2020. Scalable zeroshot entity linking with dense entity retrieval. ↩︎
Mujeen Sung, Hwisang Jeon, Jinhyuk Lee, and Jaewoo Kang. 2020. Biomedical entity representations with synonym marginalization. ↩︎
Fangyu Liu, Ehsan Shareghi, Zaiqiao Meng, Marco Basaldella, and Nigel Collier. 2021. Self-alignment pretraining for biomedical entity representations. ↩︎
Rico Angell, Nicholas Monath, Sunil Mohan, Nishant Yadav, and Andrew McCallum. 2021. Clusteringbased inference for biomedical entity linking. ↩︎
Daniel Loureiro and Alípio Mário Jorge. 2020. Medlinker: Medical entity linking with neural representations and dictionary matching. ↩︎
Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin, and Honglak Lee. 2019. Zero-shot entity linking by reading entity descriptions. ↩︎ ↩︎ ↩︎
Ledell Wu, Fabio Petroni, Martin Josifoski, Sebastian Riedel, and Luke Zettlemoyer. 2020. Scalable zero-shot entity linking with dense entity retrieval. ↩︎ ↩︎ ↩︎