TransE论文:多元关系数据嵌入

摘要:

        考虑多元关系数据得实体和关系在低维向量空间的嵌入问题。我们的目标是提出一个权威的模型,该模型比较容易训练,包含一组简化了的参数,并且能够扩展到非常大的数据库。因此,我们提出了TransE一个将关系作为低维空间实体嵌入的翻译的方法。尽管它很简单,但是这种假设被证明是强大的,因为大量的实验表明在两个知识库连接预测方面,TransE明显优于目前最新的方法。除此之外,它能够成功地训练一个有1M的实体,25k的关系和超过17M的训练样例的大规模数据集。

1简介

        多元关系数据适用于有向图,图的结点和边与元组(head,label,tail)对应(表示为(h,l,t)),每个元组意为在实体headtail之间存在一个名为label的关系。多元关系数据模型在很多领域扮演着很重要的角色。例如社交网络,实体是成员,边是朋友/社会关系连接,又如推荐系统中的实体是用户和产品,关系为买,评级,检索或搜索一个商品,再或者知识库,如FreebaseGoogle知识图谱或GeneOntology,这些知识库中的每个实体代表世界中的一个抽象概念或者具体的实体,关系式谓词,代表他们两个之间的事实。我们的工作重点是对知识库的多元关系数据建模,提出一个高效地工具通过自动增加事实,而不需要额外的知识来完成它们。

多元关系数据建模 一般而言,建模过程归结为抽取实体间局部或者总体的连接模式,通过这些模式概括观测的一个特定的实体和其它所有的实体之间的关系来预测。一个局部的单个关系的概念可能是一个纯粹的结构,比如在社交网络中,我的朋友的朋友是我的朋友,但也可以依赖于实体,例如,一些喜欢看Star Wars IV的人也喜欢Star Wars V,但是他们可能喜欢Titanic也可能不喜欢。相比之下,经过一些数据的描述性分析后可以形成单关系数据专门的但是简单地模型假设。关系数据的难点在于局部概念在同一时间可能涉及关系和实体的不同类型,以致对多关系数据建模时要求更一般的方法,这种方法能在考虑所有多样的关系同时选择合适模型。

        文献[6]指出,随着基于用户/项目聚类或矩阵分解的协同过滤技术在表示单关系数据的实体连接模型之间极大地相似之处的成功,为了处理多关系数据,大多数的方法都是基于从潜在的特征进行关系学习的框架下进行设计的;也就是说,通过实体和关系的潜在表示来学习和操作。在多关系领域,这些方法的扩展形式例如随机块模型[7][10][11]的非参贝叶斯扩展和基于张量分解[5]或者集体矩阵分解[13][11][12]的模型,在低维空间实体嵌入学习方面,这些最近的方法很多都致力于增加模型的表达性和一般性,不管是贝叶斯聚类框架还是能量模型。这些方法的表达性虽然有较大的提高,但是也大幅增加了模型的复杂性,以致模型假设很难解释,且计算成本更高。除此之外,这样的方法可能受限于过拟合,因为对如此复杂的模型进行适当的正则化是很难的,或者受限于欠拟合,因为非凸优化问题有很多的局部极小值,这些是需要解决和训练的。事实上,文献[2]指出了一个简单的模型(线性代替双线性)在一个具有相对较多数量的不同关系的几个多元关系数据集上取得了与大多数表达性好的模型同样好的性能。这说明,即使在复杂和异质的多元关系领域,简单但是恰当的模型假设能够在精度和扩展性之间实现较好的折中。

关系在嵌入空间上的翻译 本文,我们介绍TransE,一个基于能量的模型,用于低维实体嵌入学习。在TransE中,关系表示为嵌入空间上的翻译:如果有(h, l,t),那么尾实体t的嵌入应该与头实体的嵌入h加上一些依赖于关系l的向量接近。我们的方法依赖于一组简化了的参数集学习每个实体和关系一个低维向量。

        我们提出的基于翻译的参数化模型的主要动机是层次关系在知识库中是极常见的,而翻译是为了解释它们的一个自然变换。考虑树的自然表示(比如,二叉树),兄弟结点互相挨着,并且这些节点在x轴上以一定的高度排列,父亲-孩子关系与在y轴上的一个翻译对应。因为一个空的翻译向量与两个实体之间的关系等价是对应的,所以,这个模型同样能够表示兄弟关系。因此,我们选择使用每个关系的参数预算(一个低维向量)来表示在知识库中我们所考虑的关键关系。我们的第二个动机来源于文献[8],作者从自由文本中学习词嵌入,并且不同实体之间有11的关系,例如国家和城市之间的省会关系,表示为嵌入空间上的翻译。这说明可能存在这样一个嵌入空间,不同类型实体之间存在11关系,且被表示为翻译。我们的模型的目的是加强嵌入空间中的这样的结构。

        第4节的实验证明这是一个新模型,尽管它很简单且主要是为层次结构模型的问题建模,但是它在大多数的各种各样的关系下被证明是是很有效的,并且在realworld知识库中的连接预测方面,明显优于目前最新的方法。除此之外,较少的参数使得它能够成功训练从包含1M实体和25k的关系并且超过17M的训练样例分割的Freebase大规模数据集。

        在第2节我们描述我们的模型并且在第3节讨论它和相关方法的联系。第4节我们详述基于WordnetFreebase相关的大量实验,并拿TransE和文献中的很多方法做比较。在第5节里,阐述结论并指出未来的研究方向。

你可能感兴趣的:(TransE论文:多元关系数据嵌入)