【论文笔记】SimplE Embedding for Link Prediction in Knowledge Graphs

摘要

张量因子分解方法已被证明对此类链路预测问题很有前途。1927年提出的正则多元分解(CP)是最早的张量分解方法之一。CP通常在链路预测方面表现不佳,因为它为每个实体学习两个独立的嵌入向量,而它们实际上是并列的。我们提出了一个简单的CP增强(我们称之为SimplE),允许独立地学习每个实体的两个嵌入。

背景

一种张量因子分解方法是正则多变量(CP)分解。该方法为每个关系学习一个嵌入向量,为每个实体学习两个嵌入向量,当实体为头部时使用一个嵌入向量,当实体为尾部时使用另一个嵌入向量。实体的头部嵌入是独立于尾部嵌入学习的(与尾部嵌入无关)。这种独立性导致CP在KG完成方面表现不佳。
本文开发了一种基于CP的张量分解方法,该方法解决了实体的两个嵌入向量之间的独立性。
并且证明了SimplE
1-可以被认为是一个双线性模型
2-是完全表达的
3-能够通过参数共享(也称为权重绑定)将背景知识编码到其嵌入中
4-在经验上表现非常好。
我们证明了许多现有的翻译方法并不是完全表达的,并且我们确定了对它们所能表达的内容的严格限制。我们还表明,ComplEx中使用的函数,一种用于链路预测的最先进方法,涉及冗余计算。

背景和符号

在这里插入图片描述
嵌入是从一个实体或关系变到一个或多个向量或数字矩阵的函数。
张量因子分解模型定义了两件事:
1-实体和关系的嵌入函数
2-函数f将h、r和t的嵌入作为输入,并生成(h、r、t)是否在ζ中的预测。
嵌入的值是使用KG中的三元组学习的。张量因子分解模型是充分表达的,如果给定任何基本真值(将真值完全分配给所有三元组),则存在一个对实体和关系的嵌入赋值,该赋值可以准确区分正确的三元组和错误的三元组。

相关工作

本章对比了基于翻译的方法如TransE,基于乘法的方法,如DistMult,基于深度学习的方法如E-MLP。
基于翻译的方法的不同改进是通过改变关系矩阵Pr,Qr实现的。基于翻译的方法是一个加法的方程。
基于乘法的方法是一种基于product的方法,而不是embedding。各种不同的改进区别在于评分函数。
基于深度学习的方法用神经网络学习实体和关系的嵌入之间的相互关系。不同方法通过改变神经网络实现。

SimplE

CP中对头实体和尾实体分别学习来实现实体的向量的独立性:observing (e1 , r, e2 ) ∈ ζ only updates he1 and te2, not te1 and he2。而SimplE利用关系的逆来解决CP中每个实体的两个向量的独立性。
三元组定义为:
,是CP对(e1,r,e2),(e1,r-1,e2)评分的平均数
论文也定义了一个变体SimplE-ignr,忽略r-1,只计算
使用随机梯度下降,对数似然。与对数似然相比,基于边际的损失函数更容易过拟合。

理论证明

【这部分证明先不看】

完全表达

定理1: SimplE模型的对基本事实的完全表达的向量大小为:min(|E|*|R|,γ+1)
γ是R中真实事实的数量
然后还有其他几种方法不能完全表达的定理和证明

将背景知识融入嵌入

在SimplE中,实体的嵌入向量的每个元素都可以被视为实体的一个特征,关系的对应元素可以被视为该特征对关系的重要性的度量。这种可解释性允许通过SimplE学习到的嵌入可以潜在地将实体(或关系)转移到其他领域。它还允许通过固定观察值的嵌入向量的一个元素,将实体的观察特征合并到嵌入中。Nickel等人表明,合并这些特征有助于减小嵌入的尺寸。
许多现有方法依赖于后处理步骤或在损失函数中添加额外的项来惩罚违反背景知识的预测。
这一节的定理就是说SimplE把对称性、反对称性和反转的背景知识融入到嵌入中。通过改变参数就可以学习到这三种关系的背景知识。

时间复杂性和参数增长

SimplE-ignr和SimplE的时间复杂度都是O(d),即向量嵌入的大小是线性的。

双线性模型族

CP和SimplE都是双线性模型

实验

实体预测结果

我们相信嵌入和评分函数的简单性是SimplE成功的关键属性。

结合背景知识

有些三元组可以从另一个三元组推导出来,所以随机去除其中一个三元组,得到新的数据集,使用上一个实验得到的超参数,并在这个新得到数据集训练,并添加元组推导关系规则的绑定参数,发现结果更高。
背景知识可以有效地融入到SimplE的嵌入中以提高其性能。

你可能感兴趣的:(人工智能,机器学习,知识图谱)