我们实验中使用的数据集的统计数据如表1所示。 WN18RR [2]、FB15k-237 [29] 和 Wikidata5M [34] 是文献中可用的链接预测标准基准。 这些数据集实际上是通过其原始设计为转导链接预测而构建的。 为了评估归纳链接预测,我们采用 GraIL [28] 的数据拆分,其中训练样本和测试样本的实体来自不相交的子图。 对于实体链接,我们将 Zeshel [16] 视为跨域实体链接基准。 该数据集包含专门针对不同主题(例如虚构世界或平行宇宙)的社区编写的百科全书。 实体和提及来自 16 个主题,其中 8 个用于训练,每 4 个用于验证和测试。 不同的主题没有相互提及或实体。 Zeshel 是评估归纳学习方法的绝佳基准。 具体来说,通常作为主体出现的实体可能在 Fandom 中作为客体出现。
为了区分归纳实体链接与域适应,我们创建了 Zeshel-Ind,这是一个具有不相交实体提及拆分的域内零样本基准。 详细地说,我们首先在每个域中创建一个实体提及集,并通过统一抽样提及而不进行替换,将这些集合分成训练、验证和测试子集。 因此,子集具有不相交的实体。 在我们的实验中,我们使用 Apache Lucene [26] 检索前 64 个候选者。 我们删除没有任何粗略搜索候选的样本。 这些硬阳性对仅占整个种群的 0.1%,也未用于 [16] 的评估。 对于少于 64 个候选的样本,我们添加随机抽样的域内文档,直到候选列表的长度为 64。这些样本占数据集的 23%。 我们从候选文档中删除实体名称以避免潜在的标签泄漏,并惩罚朴素的文本匹配。 最后,我们相应地将不同域的子集合并为三个数据拆分,即训练集、验证集和测试集。
转导链接预测。 我们在表 2 中报告了转导链接预测的结果。 我们的实验表明,对比学习可以有效地从实体和关系的文本描述中提取语义。 通过双尾 t t t检验,BiLink 产生了统计上显着的改进,证明了后向和前向文本链接预测之间双向链接的有效性。 基于概率规则的提示显示 WN18RR 比 FB15k-237 增加更多。 我们假设当关系简单且相应的语言听起来更自然时,概率 RP 模型的参数更容易学习。 因此,该模型不仅可以从反向提示中学习可逆关系嵌入,还可以使用所提出的孪生网络学习对称关系模式。
归纳链接预测。 我们在表 4 和表 5 中列出了归纳链接预测结果。在建模实体独立关系方面,由于细粒度提示,我们大大改进了基线。 SimKGC 的性能下降比 Bi-Link 更严重。 这可能是因为原始反演以外的关系是通过 SimKGC 中的数据隐式学习的,而 Bi-Link 具有明确的机制来模拟细粒度反演和对称关系模式。 通过我们的实验,我们确认了 PromptBERT [10] 中设计的模板去噪的有效性,以及自我否定 [33] 在归纳链接预测中的负面影响。
实体链接。 我们在表 3 中列出了 Zeshel(跨域)和 Zeshel-Ind 上实体链接的结果。前两行显示了 BERT [5] 和 SpanBERT [11] 的零样本性能,然后是基线方法和我们的方法的性能。 在 Zeshel-Ind 上,Bi-Link 的表现明显优于基线。 相比之下,Bi-Link 优于 KG-BERT 0.3%,表明对比学习容易受到领域转移的影响。 在图4中,我们以accuracy(Hits@1, MRR)和recall(Hits@10)作为分析标准。 我们的实验证明了高质量负样本的重要性。 在其他实验条件相同的情况下,使用所有 64 个候选者给出最好的结果。 在域内实体链接任务中,我们的方法在链接准确性和召回能力方面均优于 KG-BERT。
领域适应。 在跨域实体链接任务上,我们在准确性上与 KG-BERT 相当,但域内和跨域零样本性能之间的差距揭示了域转移的影响。 我们的方法在 Hits@10 上的最佳结果和稳健性均优于 KG-BERT,这意味着 Bi-Link 的召回能力优于 KG-BERT。 值得注意的是,由于批内比较和负候选共享技巧,当候选数量减少时,Bi-Link 仍然表现良好。 例如,在没有候选的情况下,域内 KG-BERT 在 Hits@1 上的准确率为 50.1%,MRR 为 0.655,而跨域 Bi-Link 的准确率为 50.8%,MRR 为 0.635,证明了我们方法的显着优势。 我们的实验表明,使用提及作为负样本会损害性能。
错误分析。 表6和7中的运行实例表明我们的方法是有效的。 我们注意到不同实体的文档可能指向同一个实体,如表 7 所示。 这是可以理解的,因为这个数据集是社区贡献的,并且在数据构建过程中可能存在偏差导致这种多对一的情况。 在这种情况下,在不同实体的文档极其相似的情况下,人们已经很难区分它们,这意味着它们都可以作为实体的链接。 在一定程度上,模型在这方面的判别能力甚至优于人类。
限制。 在这项工作中,离散提示由语言专家手动设计,这是非常昂贵的。 当知识库具有多种关系集合时,句法提示可能会给对比表示学习带来太多噪音。