大多数知识图都是不完整的,这就引出了知识图自动补充的一个重要研究课题。然而,知识图补全(KGC)模型的评价往往忽略了不完全性——测试集中的事实与所有未知的三元组进行排序,这些三元组可能包含大量未包含在KG中的缺失事实。将所有未知的三元组都视为假的称为封闭世界假设。这种封闭世界的假设可能会对评价指标的公平性和一致性产生负面影响。在本文中,我们研究了一个更现实的设置下的KGC评估,即开放世界假设,其中未知三元组被认为包括许多不包含在训练集或测试集的缺失事实。对于目前最常用的指标,如平均倒数排名(MRR)和Hits@K,我们指出,在开放世界假设下,它们的行为可能是不可预期的。具体地说,由于缺少的事实不多,它们的数字显示了相对于模型的真实强度的对数趋势,因此,度量增加在反映真实模型改进方面可能是不显著的。此外,考虑到方差,我们表明报告数字的退化可能导致不同模型之间的不正确比较,其中较强的模型可能具有较低的度量数字。我们从理论上和实验上验证了这一现象。最后,我们提出了可能的原因和解决方案。我们的代码和数据可在https://github.com/GraphPKU/Open-World-KG获得
知识图谱(KG)是一种结构化的方法,用来存储有关某个领域或世界的事实。由于大多数知识图谱是不完整的,因此提出了知识图谱补全(KGC)任务,用缺失的事实自动补充现有知识图谱。然而,当我们事先不知道缺失的事实时,我们必须手动评估每个预测补全是否正确,这对于现代kg来说是不可能完成的任务,这个问题叫做开放世界问题,而kg是不完全的假设叫做开放世界假设。一般的解决方法是从现有的不完全KG中提取训练集、验证集和测试集,然后在测试集上对训练过的模型进行评估。那么,一个自然的问题是,从不完全测试集得出的结论是否与模型的真实强度一致,模型的真实强度应该在完整KG上测量。
要回答这个问题,我们需要研究用于评估KGC模型的指标。KGC模型通常通过基于排名的指标进行评估,uch as mean reciprocal rank (MRR) and Hits@K。在开放世界假设下,当模型预测了一个本应包含在测试答案中的缺失事实时,它的排名可能高于某些测试答案,这使得这些测试答案的排名下降。在这种情况下,尽管实际上识别了更多的正确答案,但指标反而下降了。
为了直观地显示问题,我们在FB15k-237数据集上训练BetaE [Ren和Leskovec, 2020],这是一个最先进的多跳KGC模型[Toutanova和Chen, 2015]。其中一个测试问题是“What sports were included in the 1956 Summer Olympics?”两个测试答案是swimming and sailing,,都是过滤排名(参见第2节),因此该查询的MRR为20%。然而,当我们手动检查前30个预测时,我们发现其中许多项目实际上是1956年夏季奥运会的项目,但并不包括在答案集中。我们在表1中列出了这些缺失的答案。我们可以看到,之前排名高于两个测试答案的四项运动都没有正确答案。因此,如果我们通过将这些缺失的答案添加到测试集来纠正答案集,两个测试答案的实际过滤排名都是1,并且在新测试集上校正后的MRR变为82%,远高于报告的20%,表明该查询上的模型强度被显著低估。
本文研究了开放世界假设下基于排名的指标的奇异行为,总结出影响KGC评价的两个问题:1)指标退化。这意味着随着实际模型强度的增加,报告的度量的增长变得越来越慢。因此,报告的指标可能不能反映真实的模型改进。2)指标不一致。这意味着当比较两个模型时,如果我们在完整的KG上评估它们,报告的度量较低的模型实际上可能有更好的性能。
我们的主要贡献包括:首次从理论上分析了开放世界假设下的KGC评价,指出了KGC的退化和不一致性问题。此外,我们认为退化和不一致可能与度量的集中于顶部的行为有关,并提供了一个解决方案来缓解这两个问题。最后,通过一个人工封闭世界KG的实验验证了理论分析的正确性。
目前的KGC模型主要可以分为三类:基于逻辑的、基于嵌入的和基于神经的。基于逻辑的模型[Joseph和Riley, 1998, Richardson和Domingos, 2006]为KGC使用了一些明确的规则,这些规则由一些规则挖掘方法手动提供或挖掘,如[Galárraga等人,2013,Yang等人,2017,Sadeghian等人,2019]。这些模型搜索现有的KG,并根据给定的规则推断缺失的事实。然而,这个过程可能是耗时的和噪声敏感的。同时,如果kg高度不完整,则性能可能很差。基于嵌入的模型[Bordes等人,2013,Y ang等人,2015,Trouillon等人,2016,Sun等人,2019]通过学习向量或张量表示实体和关系,其中一个事实的可能性是通过评分函数来衡量的。这些模型具有良好的可扩展性,可以应用于大型和稀疏的KGs。一些工作旨在将基于嵌入的模型推广到更多的模式[Trouillon等人,2016,Abboud等人,2020]和更多的假设(如多个答案)[Vilnis等人,2018,Ren等人,2020,Abboud等人,2020]。一个有趣的方向是考虑多跳推理[Ren等人,2020,Ren和Leskovec, 2020, Zhang等人,2021],其中一个查询可以由几个条件组成,如“谁是加拿大人并获得了图图奖?”注意,在多跳设置中,开放世界问题可能更严重,因为任何条件的缺失都会导致最终结果的缺失。基于神经的模型结合了神经网络和嵌入。Dettmers等[2018]和Nguyen等[2018]使用卷积网络作为评分函数来扩大模型的容量。Nathani等人[2019],Vashishth等人[2020]和Wang等人[2021]在KGs上使用图神经网络来学习嵌入或直接预测链接。
当前的KGC评估依赖于从不完整的KG中手动分离训练、验证和测试集。给定一个测试查询(哪些实体与头部实体eh有关系?),一个典型的方法是预测作为尾部实体的所有实体的分数,对所有实体进行排名,然后测量基于排名的函数h(r)在测试答案上的平均值。在这里,使用最多的指标是。因为一个查询可能有多个答案,所以应该对指标进行过滤,这意味着训练集和测试集中的答案不占位置,这样训练集和测试集的答案数量就不会影响指标。过滤的细节可以在[Bordes等人,2013]中找到。由于大多数基于排名的度量的非线性,一些工作从理论上研究了它们的行为。Wang等[2013]指出,当排序对象的数量趋于无穷大时,一些基于排名的度量在不同的模型上总是收敛于1,因此模型的性能难以区分。Krichene和Rendle[2020]分析了负抽样下基于排名的指标的行为。他们指出,抽样指标可能与精确指标不一致,所有指标失去其聚焦顶部特征,并在小样本限制下坍缩为线性指标(AUC-ROC)。Sun等人[2020]关注的是不公平的捆绑打破方法。Akrami等[2020]发现一些数据论证,如添加逆关系可能是一种过度的数据泄漏在评估过程中
最近的一些研究已经注意到开放世界的实际情况与封闭世界假设之间的差距。Cao等[2021]指出,封闭世界假设导致对三重分类任务的评价微不足道。他们提供了基于开放世界假设的人工标记的正-负-未知三元分类数据集,并指出现有模型缺乏区分未知与负的能力。然而,数据集中的未知部分只是在三重分类任务上,而我们在这里关注的是链接预测任务。此外,Das等人[2020]将开放世界背景分析为一个不断发展的世界,不断向KGs添加新的实体和事实。在这种背景下,他们的工作重点是归纳或案例学习能力,即模型对未观察到的实体进行概括的能力。在这里,我们旨在分析在缺乏事实的情况下,评估中可能出现的不一致的比较,而不是一个归纳能力更大的具体框架。
在本节中,我们将正式定义本文将要分析的开放世界问题。
为了研究开放世界问题,我们从理论上分析了缺少事实的基于排名的度量的行为。所有的证明见附录A.1。这种随机性来自两个方面:事实的缺失和模型的预测。我们将它们建模为两个随机事件。
我们首先假设随机事件X和Y是独立的。我们表明,由于缺少事实,度量标准的期望会降低。具体而言,指标的增加呈对数趋势,因此可能过于平坦,无法反映模型强度的真实增加
看不懂。。。。。。。。。。。。。。。。