链接预测(Link Prediction)

链接预测

本文参考基于知识图谱嵌入的链接预测综述
原论文链接Knowledge Graph Embedding for Link Prediction: A Comparative Analysis
原论文代码地址research.lpca
项目中给了综述中提到的算法论文地址和代码链接,非常适合LP方向的同学学习。


文章目录

    • 链接预测
  • 一、方法概述
  • 二、张量分解模型
    • 事实的得分
  • 三、几何模型
    • 评分函数
  • 四、深度学习模型
  • 六、总结

什么是链接预测?

链接预测(Link Prediction, LP)是一种根据KG中已存在的实体去预测缺失事实的任务,是一种有前途的、广泛研究的、旨在解决KG的不完整的任务。

链接预测本质是什么任务?

知识图谱补全或知识图谱增强任务。

  • 之前的方法:一般是从外部源(如Web语料库)提取新的事实,或者从KG中已经存在的事实推断缺失的事实,来增长现有的KG。

  • 目前:绝大多数LP模型使用原始的KG元素来学习低维表示,称为知识图谱嵌入,然后利用它们来推断新的事实。

一、方法概述

这篇文章提出了一种新的分类法,概述它们高度不同的特征,如图1所示。

  • 列出了三个主要的系列模型,并进一步将它们划分为更小的组,以独特的颜色标识。
  • 对于每个组都包括最有效的代表性模型,优先考虑那些达到最先进性能的模型,并且在任何可能的情况下,优先考虑那些具有公开可用实现的模型。结果是一组16个模型,基于极其多样化的架构;这些是我们随后在比较分析的实验部分所使用的模型。
  • 对于每个模型,添加了发表的年份以及从其他模型得到的信息。
    作者认为,这种分类有助于理解这些模型和在我们的工作中进行的实验。表1报告了关于所包括的模型的进一步信息,例如它们的损失函数和空间复杂性。我们确定了三大类模型:1)张量分解模型;2)几何模型;3)深度学习模型
    链接预测(Link Prediction)_第1张图片
    链接预测(Link Prediction)_第2张图片

二、张量分解模型

隐式地将KG考虑为一个三维邻接矩阵(即一个3维张量),由于KG的不完整性,这个邻接矩阵只有部分可观测。张量被分解成低维向量的组合(比如一个多线性乘积):这些向量被用作实体和关系的嵌入表示。

核心思想:
只要训练集训练不过拟合,则学习到的嵌入应该能够泛化,并将高值与图邻接矩阵中不可观测的真实事实相关联。

事实的得分

事实得分通过对事实中涉及的特定嵌入进行组合计算得出的;通过优化所有训练事实的评分函数,可以像往常一样进行学习嵌入。

这些模型倾向于使用很少或根本没有共享参数;这使得它们特别容易训练。


三、几何模型

几何模型将关系解释为潜在空间的几何变换。主要形式为: h + r = t h+r=t h+r=t
对于给定的事实,头实体嵌入进行空间转换τ,使用嵌入的关系作为参数的值。

评分函数

对事实评分的值是结果向量和尾向量之间的距离;这样则可以使用距离函数计算δ(例如L1和L2范数)。
ϕ ( h , r , t ) = δ ( τ ( h , r ) , t ) \phi(h,r,t)=\delta(\tau(h,r),t) ϕ(h,r,t)=δ(τ(h,r),t)


四、深度学习模型

神经网络学习参数,如权重和偏差,它们结合输入数据,以识别显著模式。深度神经网络通常将参数组织成独立的层,通常穿插非线性激活函数。

在LP任务中,通常结合各层的权重和偏差来学习KG嵌入;这些共享的参数使这些模型更有表现力,但可能导致参数更多,更难训练,更容易过拟合。


# 五、模型总结 - 所有LP模型在各个数据集上的MR和MRR结果,每一个metric最好的结果都被标记出来了: ![在这里插入图片描述](https://img-blog.csdnimg.cn/img_convert/33fcdeccd6749b1b63f7c6bb95f04585.png#pic_center) - 每个LP模型在各个数据集上的训练时间: ![在这里插入图片描述](https://img-blog.csdnimg.cn/img_convert/ae80872ade5fda2512e3ac668a8707bb.png#pic_center) - 每个LP模型在各个数据集上的预测时间(以毫秒为单位): ![在这里插入图片描述](https://img-blog.csdnimg.cn/img_convert/49b5d18debea941c2cde555a66f0a379.png#pic_center) - H@1 Freebase数据集上每个LP模型的结果,以及相应的测试事实的累积分布,改变源对等点(左)和目标对等点(右)的数量。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/img_convert/94128edb6a8a198d39f2fb85bdac2089.png#pic_center) - 累积H@I每个LP模型在Wordnet数据集上的结果,以及相应的测试事实的累积分布。

链接预测(Link Prediction)_第3张图片

  • H@1 YAGO3-10数据集上每个LP模型的结果,以及相应的测试事实的累积分布
    链接预测(Link Prediction)_第4张图片
    更多实验结果请参考原文。

六、总结

这篇文章是第一个提出了基于KG嵌入的LP模型的第一个广泛的比较分析的工作。
这篇论文的贡献:

  1. 这项工作调查了代表不同技术和体系结构的16个LP模型,并在文献中最流行的5个数据集上分析了它们的效率和有效性。
  2. 引入了一组表征训练数据的结构特性,并且已经显示出有力的实验证据,它们对预测性能产生了至关重要的影响。为此,我们调查了允许模型令人满意地运行的情况,同时确定了仍有改进空间的领域。
  3. 全面讨论了当前的评估实践,验证了它们可以依赖于不同的低级策略,从而产生无与伦比的,在某些情况下会产生误导性的结果。并分析了使模型对这些策略最敏感的组件,为将来的研究提供了有用的观察结果。

你可能感兴趣的:(知识图谱)