论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)

论文题目:面向时间感知预测的时间信息编码

摘要:

现有的知识库大多只从不包含时间信息的三元组中学习数值化嵌入方法,而忽略了知识库中的时间信息。在这篇文章中。提出了一种利用三元组发生时间的时间感知知识库嵌入方法。具体地说,本文使用时间约束来模拟时间敏感关系之间的转换,从而使嵌入具有时间一致性和准确性。本文通过链接预测和三元组分类来验证提出方法的有效性。实验结果表明,该方法在两种任务上均优于其他基准方法。

介绍:

知识库(KBs),如Freebase (Bollacker et al., 2008)和YAGO (Fabian et al., 2007),在许多NLP相关应用中发挥着关键作用。KB s(知识库)由三元组形式的事实组成(ei, r,ej)。表示该主要实体e;和尾部实体e;虽然KBs很大,但它们还远远不够完整。链接预测是基于已有的三元组s来预测实体之间的关系,可以缓解当前KBs的不完备性。最近有一种很有前景的方法,称为知识库嵌入(Nickel et al., 2011;Bordes et al., 2011: Socher et al., 2013)旨在将实体和关系嵌入连续向量空间,同时保留知识库图的某些信息。TransE (Bordes et al., 2013)是考虑关系向量为从头实体到尾实体翻译向量的典型模型,即ei + r ≈ ej,对于每个三元组 (ei, r, ej)。

现有的知识库嵌入方法大多只从无时间标记的事实中学习,而忽略了知识库中有用的时间信息。事实上,知识库中有许多时间事实(或事件),例如(奥巴马,出生于,夏威夷)出生在1996年8月4日 ,(美国总统,奥巴马,2009)从2009年到2016年是正确的。 当前的KBs(如YAGO和Freebase)直接或间接地存储这些时间信息。时间感知事实的发生时间可以表示事实的特殊时间顺序和时间关系。例如,(爱因斯坦,出生于,Ulm)发生于1879年,(爱因斯坦,获奖,诺贝尔奖)发生于1922年,发生在1955年的(爱因斯坦,去世于,普林斯顿大学)。我们可以从所有这些事实中推断出时间敏感关系的时间顺序:wasBornIn→wonPrize→diedn。传统的知识库嵌入模型,如TransE,在预测(person, ?,location)原因时,往往混淆了wasBornln和diedln等关系,TransE只能从无时间标记的事实中学习,无法区分具有相似语义的关系。做出更准确的预测。对于现有的KB嵌入方法来说,时间信息是非常重要的。

本文主要结合时间序列信息,提出了一种时间感知链接预测模型。在事实三元组的基础上增加了一个新的时态定义。(ei,r, ej, tr),表示发生在时间tr时的三元组事实,使嵌入空间在事实维度中,关系向量与观测到的三元组之间的平移行为类似于特朗斯模型。对于两两时间事实之间的不协调率时间顺序信息,我们假设先验时间敏感关系向量可以通过时间转换演化为后续时间敏感关系向量。例如,我们有两个共享同一头部实体的时间事实:(ei, ri, ej, t)和(ei, ri, ek, t2)以及时间顺序约束ti< t2,即。Tr;发生在ri之前,然后我们假设先验关系r;时间转换后应与后续关系ri接近,即r; mxri,这里矩阵M表示关系之间的时间顺序信息。这样,在学习过程中,语义信息和时间信息都被嵌入到一个连续的向量空间中。

本文是第一个考虑利用时间信息的KB嵌入方法。本文在公开数据集上评估论文方法,证明了本文的方法优于最先进的方法在时间感知链接预测和三元组分类任务。

本文方法:

传统的知识库嵌入方法只编码ob服务的事实三元组,而忽略了时间敏感实体和事实之间的时间约束。为了解决这个问题,我们引入了时间感知的知识库嵌入,它通过结合时间约束来约束任务。

为了考虑事件发生的时间,我们将时间顺序约束作为一个基于流形正则化的优化问题来考虑特别地,时间敏感事实中的关系的时间顺序应该影响知识库表示。如果r_{i}r_{j}共享同一个头部实体e_{i}, r_{i}发生在r_{j}之前,则在时间维度上先验关系的向量r_{i}可以演化为后续关系的向量r_{j}

为了编码时间敏感关系之间的转换,我们定义了一对时间顺序关系对\left ( r_{i},r_{j} \right )之间的转换矩阵M\in \mathbb{R}^{n\times n}。我们的优化要求时间感知的顺序正样本评价得分(能量)比顺序负样本低,因此我们定义了一个时间顺序评价函数(temporal order)

当关系对按时间顺序排列时,时间顺序评价分数值应该是低的,否则会很高。

为了使嵌入空间与观察到的三元组兼容,我们使用三元组集合△,并遵循在之前的方法(如TransE)中采用的相同的评价函数。

每个候选的三元组都力求使正样本三元组的评价得分低于负样本的三元组。

优化所用的联合评价函数为:

论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)_第1张图片

其中x^{+}=\left ( e_{i},r_{i},e_{j} \right )\in \triangle是正样本三元组(实际上是四元组),x^{-}=\left ( e_{i}',r_{i},e_{j}' \right )\in \triangle'是相关的负样本三元组。y^{+}=\left ( r_{i},r_{j} \right )\in \Omega _{e_{i}}是顺序正确的关系对,记作\left ( e_{i},r_{i},e_{j},t_{x} \right )。它的定义是:

其中r_{i}r_{j}使用同一个头实体e_{i},而且y^{-}=\left(r_j,r_i \right )\in \Omega_{e_i}'是关系时间对相关负样本。在实验中,我们强制约束\left \| e_i \right \|_2 \leq 1\left \| r_i \right \|_2 \leq 1\left \| r_j \right \|_2 \leq 1\left \| r_iM \right \|_2 \leq 1

公式(3)中的第一项使得合成嵌入空间与所有已知的三元组匹配,第二项则使得的时间连续性感知更加准确。超参数λ切断了这两部分。用minibatch采样的随机梯度下降进行优化。


实验部分:

我们在两个任务中,用相同的度量方式来评价时间感知知识库嵌入的性能:链接预测和三元组分类任务。

数据集

我们从YAGO2中创建了两个时间感知的数据集,由时间可感知的事实组成。在YAGO2中,元事实包括所有事实的实体创建时间。首先,抽取一份纯时间可知的数据集,所有的三元组事实都有时间标签,本文选取了两个在元事实和时间事实数据集中至少两次提及的实体。抽取的结果包含15914个元事实三元组(四元组)以比例随机的划分成训练集、有效集、测试集,见表1。

这份数据集被记为YG15K。第二,作者做了一份混合数据集,创建了一份YG36K数据集,其中一半的事实具有时间标签,一半的事实没有时间标签,根据需求使用数据。

链接预测实验

实体预测

评估标准:对于test数据集中的三元组事实,移除头实体或者尾实体后,采用多种方法来计算所有实体填充空缺的评价函数,并对得分进行排名。本文采用了两个评价标准:正确实体的平均排名(Mean Rank)和正确实体在top 10的比例(Hits@10)。正如Bordes等人在2013年论文中提及的那样,这两个评价的标准时有意义的,但是当知识库中本来就存在错误的元事实时,这种评价标准并不能有效检测。作为一个量化的度量方式,在计算排名之前,把这些有效的三元组从数据集中过滤掉。把包含valid triple的排名称为Raw,不包含的称为Filter。

基准方法:本文选用了几个翻译模型的方法与本文方法做对比实验。TransE(Bordes et al., 2013),TransH(Wang et al., 2014b)和TransR (Lin et al., 2015b)作为基准方法。然后在此基础上利用时间感知嵌入方法,得到相应的时间感知嵌入模型。比如在TransE基础上改进的称作“tTransE”。

参数细节:对于所有的方法,将数据集其划分为100个mini-batches,嵌入的维度选择区间为{20,50,100},学习率选择区间为{0.1,0.01, 0.001},边界γ1和γ2选择区间为{1,2,4,10}。调整超参数\lambda选择区间为{0.1, 0.01, 0.001, 0.0001}。最优配置通过有效集合的测试Mean Rank 来选取。本文得到的最佳配置是维度n=100,γ1和γ2设为4,\lambda设为0/01,学习率设为0.001,选用l_{1}-norm

论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)_第2张图片

实验结果:表2中给出了在测试集上得到的结果。从结果中,我们可以看到time-aware embedding方法的结果在各评价标准上都优于所有的基准方法。本文方法对预测效果的提升是明显的,Mean Rank下降了大约75%,Hits@10大约提升了19%到30%。这有力地证明了本文方法的优越性和普适性。在处理稀疏数据YG15k时,利用所有的时间信息对时间关联进行建模,使嵌入更加准确,比混合YG36k中的时间未知三元组得到了更好的改进。

关系预测

论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)_第3张图片

关系预测是对给出的两个实体之间的关系给出的预测。评价结果如表三所示,选用的评价标准时Hits@1和Mean Rank。对于TransE和tTransE的预测对比实例如图4所示。

论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)_第4张图片

比如在测试(Billy Hughes,?,London,1862)这个三元组的关系时,TransE很容易将wasBornIn和diedIn两个关系混淆。因为它们都是关于人和地点的关系。但是tTransE将(Billy Hughes,isAffiliatedTo, National Labor Party)发生在1916这个信息做了有效表示,通过时间顺序wasBornIn→isAffiliatedTo→diedIn,所以正规化|rbornT - raffiliated|小于|rdiedT - raffiliated|,因此正确答案wasBornIn高于diedIn。

三元组分类

三元组分类任务的目标是判别未知的三元组的正确与否。

评价标准:三元组的分类的评价标准我们采用了Socher et al. (2013)论文中相同的方法。为了给分类任务创建含有标签的数据,对于测试集和有效集中的每个三元组,我们通过随机地替换错误的实体,构建了一个相关负样本三元组集合。在头实体和尾实体中更换一个只允许出现在该位置的实体(?)。在三元组分类中,如果分数低于特定关系临界值δr,则被判别为正确三元组,其他的被归为错误的三元组。最后的实验结果是这些三元组判别正确率的平均数。

参数设置:三元组分类任务的参数设置与链接预测部分的相同。特定关系的判别临界值δr通过最大化验证集的平均精度来确定。

论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)_第5张图片

实验结果:表5展示了测试的实验结果。结果表明时间感知的embedding效果连续性地胜过所有的基准方法。时间顺序信息可以像不同的头部实体一样帮助区分正三元组和负三元组。如果时间顺序与大多数事实相同,正则化项可以帮助它获得更低的能量,反之亦然。

相关工作

知识嵌入式表示模型已经有很多,比如(Nickel et al., 2011; Bordes et al., 2013; Socher et al., 2013)。越来越多的信息被用来提升知识嵌入式表示效果,比如文本(Riedel et al., 2013; Wang et al., 2014a; Zhao et al., 2015)。实体类型和关系领域(Guo et al., 2015; Chang et al., 2014),关系路径(Lin et al., 2015a; Gu et al., 2015)。然而,这些方法仅仅将三元组事实作为训练数据,而忽略了时间这一重要信息。在文本中的时间信息作为关系顺序已经被开发。(Talukdar et al., 2012; Chambers et al., 2014;Bethard, 2013; Cassidy et al., 2014; Chambers etal., 2007; Chambers and Jurafsky, 2008)。本文提出的时间感知知识嵌入式表示方法将时间顺序作为约束条件提升了知识图谱的嵌入式表示。

总结与未来工作

在本文中,我们提出了一种通用的时间感知知识图谱嵌入表示学习方法,它包含实体的创建时间,并对嵌入空间的几何结构施加时间顺序约束,使其具有时间一致性和准确性。今后的工作:(1)纳入事实的有效时间。(2) YAGO2中一些时间敏感的事实缺少时间信息,研究从文本中挖掘这些时间信息。

你可能感兴趣的:(知识图谱表示学习,知识表示学习,翻译模型)