【论文笔记】A three-way model for collective learning on multi-relational data

摘要

提出了一种基于三维张量因式分解的关系学习新方法。与其他张量方法不同,我们的方法能够通过模型的潜在成分进行集体学习,并提供了一种计算因子分解的有效算法。

背景

从建模的角度来看,张量提供了简单性,因为任意阶的多个关系可以直接表示为高阶张量。此外,关于问题结构的先验知识不需要已知,也不需要从数据中推断,因为这是必要的,例如对于贝叶斯网络或马尔可夫逻辑网络(MLN)等图形模型。从学习角度使用张量分解的一个原因是,关系域通常是高维且稀疏的,在这种情况下,因子分解方法已经显示出非常好的结果。

建模与符号

为了将二元关系数据建模为张量,我们采用了三维张量X,其中两个模式由域的串联实体相同地形成,第三个模式保持关系。
【论文笔记】A three-way model for collective learning on multi-relational data_第1张图片
X(n)表示在模式n中张量X的展开。vec(X)表示矩阵X的矢量化。假设数据以n×n×m张量X表示,其中n是实体数,m是关系数。

模型和理论

我们将把利用相关实体提供的信息而不考虑手头的特定学习任务的机制称为集体学习。如,想知道美国总统的党派,只需要知道副总统的党派就行,因为他们一般都是统一党派的。这就不需要知道更多的附加信息。

多关系数据模型

每一个关系是一个slice,即一个矩阵,将每一个slice Xk分解为

求解正则化最小化问题可以得到稀疏矩阵A和Rk
【论文笔记】A three-way model for collective learning on multi-relational data_第2张图片
g是防止过拟合的正则化项。
集体学习的一个重要方面,以及它与其他张量分解(如CP甚至BCTF)的区别在于,域的实体有一个独特的潜在分量表示,不管它们是作为一个关系中的主体还是客体出现,因为它们都由矩阵a表示。通过观察(3)的基本公式,这种建模的效果变得更加明显,即


ai和aj表示A的第i行和第j行,因此是第i和第j个实体的潜在分量表示。
潜在分量表示ai依赖于aj以及三元组(第i个实体,第k个谓词,第j个实体)
由于实体有一个唯一的潜在组件表示,aj还保存了哪些实体作为主体和对象与第j个实体相关的信息。因此,所有的直接关系和间接关系对人工智能的计算都有决定性的影响。

与其他张量分解的联系

可以被认为是一个放松版本的DEDICOM或等效的IDIOSCAL的不对称扩展。此外,模型(1)可以看作是一个受限的Tucker3模型

计算分解

【此部分没有看】

解决关系学习任务

对于第k个谓词,要预测两个实体ei, ej之间是否存在链接,查看相应切片Xk的降秩重建^Xk = ARkAT就足够了。
链接预测可以通过将ˆXijk > θ与某个给定的阈值θ进行比较,或者根据链接存在的可能性对条目进行排序。
集合分类可以转换为链接预测的子任务,因为实体的类可以通过引入类关系并将类作为实体包含在张量中来建模。因此,分类问题也可以通过重构类关系的适当切片来解决。
实体之间的相似度是根据它们在多个关系中的相似度计算的。

实验

集体分类
【论文笔记】A three-way model for collective learning on multi-relational data_第3张图片
集体实体解析
用了更大的数据集
mln计算相似性评分作为x和y引用同一实体的可能性的衡量。主要感兴趣的是我们的方法是否能产生与mln大致相似的结果,以及它们与CP相比如何。
【论文笔记】A three-way model for collective learning on multi-relational data_第4张图片
用在了Kinships, Nations and UMLS数据集上,反正就是结果也很好
然后运行很快,算法只涉及标准的矩阵操作,在Python/NumPy中实现,没有任何附加软件,代码不到120行。

未来的工作

为了获得高度可扩展的解决方案,我们正在研究RESCAL的分布式版本以及优化问题的随机梯度下降方法。此外,为了提高RESCAL的预测性能和运行时行为,我们还计划在计算因子分解时利用诸如类型化关系之类的约束。

你可能感兴趣的:(人工智能,机器学习,知识图谱)