【论文笔记】Holographic embeddings of knowledge graphs

github代码

摘要

提出全息嵌入(HOLE)来学习整个知识图的组合向量空间表示。

背景

现有的能够捕获关系数据中丰富交互的嵌入模型通常在可伸缩性方面受到限制。反之亦然,可以有效计算的模型通常表达能力要低得多。
1.本文引入全息嵌入(HOLE),它使用实体嵌入(向量表示)的循环关联来创建二进制关系数据的组合表示。通过使用相关性作为组合运算符,HOLE可以捕获丰富的交互,但同时保持计算效率高、易于训练、可扩展到非常大的数据集。
2.从组合向量空间模型中获得灵感,而且还将强调HOLE与联想记忆全息模型之间的联系。

组合空间表示

模型:

在这里插入图片描述
σ(x)为logistic函数,rp为关系的向量表示,ei为实体的向量表示。Θ是所有嵌入(关系与实体)的集合。◦ 是组合算子,从嵌入 es, eo 为(s,o)创建组合向量表示。

可能的组合算子:

可通过最小化logistic损失来学习实体和关系的表示。
在这里插入图片描述
其中xi是三元组,yi是标签。
对于关系数据,最小化逻辑损失还有一个额外的优势,那就是它可以帮助找到复杂关系模式的低维嵌入。
可使用pairwise ranking loss将现有三元组的概率排名高于不存在三元组的概率。
组合模型的一个重要特性是,实体的含义和表示形式不会因其在组合表示形式中的位置而发生变化(即,第i个实体具有与主体和客体相同的表示形式)。因为所有实体和关系的表示都是在最小化logistic损失或pairwise ranking loss中共同学习的。
现有的知识图谱模型基于以下组合算子:

  1. 张量积⊗
    给定实体嵌入a,b,通过a和b特征之间的所有成对乘法相互作用。
    只有a,b的某个特征都为较高的绝对幅值,即“on”时,该元组表示a⊗b的该特征才会是一个较高的绝对幅值。这就可以让组合空间模型捕捉到关系模式。
    但它作为组合算子的主要问题在于它需要大量的参数。这在过度拟合和计算需求方面都可能存在问题。 Yang et al. (2015)上一篇论文笔记的论文建议使用对角参数矩阵来减少参数数量。然而,这种方法只能对对称关系进行建模,不适合将一般知识图建模。
  2. 串联、投影和非线性
    ⊕表示串联,ψ可以是一个非线性函数,比如tanh。组合元组表示为
    a◦ b=ψ(W(a⊕ b))
    在这里插入图片描述投影矩阵W是结合实体和关系嵌入学习的。
    元组表示中的一个特征W(a⊕ b) 如果至少有一个相应功能处于“on”状态,则为“on”。优点是通过矩阵W自适应地学习从实体嵌入到成对表示的映射。然而,所得到的复合表示也不那么丰富,因为它们不考虑特征的直接交互。
  3. 非组合方法
    没有(明确地)形成组合表示,而是通过向量空间嵌入的相似性预测三元组的存在,如TransE。TransE只需要很少的参数,而且易于训练。然而,这种简单性也是以建模能力为代价的。

HOLE

为了将张量积的表达能力与TRANSE的效率和简单性结合起来,我们使用向量的循环相关性来表示实体对,即我们使用组合运算符: a*b, *表示循环相关性:
在这里插入图片描述
因此建立的三元组模型为
在这里插入图片描述

循环相关可以解释为张量积的压缩。虽然张量积为实体特征的每个成对交互分配了一个单独的分量cij=aibj,但在相关性中,每个分量对应于成对交互固定分区上的一个和
【论文笔记】Holographic embeddings of knowledge graphs_第1张图片如果主客体交互的至少一个分区处于on状态,则元组表示中的一个功能处于“on”状态。这种形式的压缩非常有效,因为它允许在rp中为语义相似的交互共享权重。
与张量积相比,循环相关不会增加复合表示的维数。因此,元组表示的内存复杂性在实体表示的维度d中是线性的。此外,运行时复杂度在d中是拟线性(对数线性)的.
与卷积相比,当用作合成运算符时,相关性有两个主要优点:

  1. 不对称性
    a*b ≠ b*a.对于使用组合表示的不对称关系(有向图)建模是必要的。
  2. 相似成分
    有助于建立实体相似性的关系建模

通过随机梯度下降SGD计算实体和关系表示。
【论文笔记】Holographic embeddings of knowledge graphs_第2张图片

联想记忆

概述了公式(9)和公式(11)与联想记忆全息模型的联系。
(此部分没看懂)

实验

HOLE能够在两个数据集上显著且一致地优于所考虑的基线方法。与张量积模型RESCAL相比,HOLE在参数数量上要有效得多。尽管HOLE嵌入的维数d比RESCAL的大(由于相关性的压缩效应,预计会出现这种情况),但由于其存储复杂性仅与d成线性关系,参数的总数显著减少。此外,HOLE的计算速度通常非常快。

关系学习

任务S1

设置:对于test/valid中,只将 locatedIn(c,r)的countries设置为missing。

性能:丢失的三元组几乎可以完美预测。

任务S2

设置:将locatedIn(c,s)中countries和subregions设置为missing。

性能:相对于其他数据集表现最好。

任务S3

设置:将locatedIn(n,r)中countriesn的neighbors,regions设置为missing。

性能:预测难度最大,但相对于其他数据集表现较好。

你可能感兴趣的:(人工智能)