TransRHS: A Representation Learning Method for Knowledge Graphs with Relation Hierarchical Structure
PPT
一种具有关系层次结构的知识图谱的表示学习方法。
知识表示学习是面向知识图谱中实体(或概念)和关系的表示学习。通过将实体或关系投影到低维稠密向量(嵌入表示),实现对实体和关系的语义信息的表示,高效地计算实体、关系及其之间的复杂语义关联。
RHS
关系层次结构(RHS)由关系之间的名为subRelationOf的泛化关系构成,隐含关系之间的固有关联性,可以提高知识表示学习的整体性能。
图中显示了带有RHS的KG,(1)矩形表示实体,(2)圆角矩形表示关系,(3)实线表示观察到的事实,(4)虚线表示潜在事实。
给定一个观察到的三元组(Mike Smith,教练组,猎鹰队),则可以根据RHS从逻辑上得出三元组(Mike Smith,效力于,猎鹰队)和三元组(Mike Smith,人员属于组织,猎鹰队) 。
RHS的直接方法可能会对嵌入产生负面影响,从而降低模型性能。((1)当训练了现有模型时,直接考虑RHS信息的方法将 改变关系的根基。 (2)此外,大多数基于翻译的模型都满足h + r≈t,因此实体的嵌入也将受到影响。)
提出新方法TransRHS,能够将RHS无缝地嵌入到嵌入中。
典型的关系层次结构像树一样。通常使用最一般的关系r作为相应树结构的根节点,r(i)j代表关系层次结构中第i层的第j个子关系。
给定知识图,将其形式化为G = (E, R, T),其中E代表实体集,R代表关系集,T代表三重事实集。
KG中的三元组T可以分为两个对应的不相交子集。Rl为实体之间的关系集,sro(即subRelationOf)表示关系之间的概括关系。
使用∆表示正三元组。 KG的嵌入模型应满足以下两个公式以合并RHS信息:
TransRHS
粗体字母h,r和t表示相应的嵌入。TransE(作为知识图谱嵌入的开创性工作,TransE [Bordes等,2013]开辟了一系列基于翻译的方法。)假定得分函数为:。
fr(h,t)越低,(h,r,t)为一个正向三元组的可能性就越大
为了在不增加时空复杂度的情况下对RHS信息进行编码,与TransE相比,TranRHS对于每种关系仅引入了一个范围。
为了将对基于翻译模型的影响降至最低,TransRHS将遵循翻译要求,即(h,r,t)成立时,h + r≈t。
带有RHS的KG的表示学习旨在学习同一空间Rd中实体和关系的嵌入。
给定一对三元组(h,r,t)∈Te和(r,sro,p)∈Tr,TransRHS将关系p学习为低维向量p∈Rd及其相应半径为m1的球面s1。 类似地,对于关系r,获得r∈Rd和半径为m2的球面s2。 头实体h和尾实体t表示为低维向量h,t∈Rd。 h + p和t之间的距离可以定义为:h + r和t之间的距离为:可以得出符合以下条件:
但是对于以下情况,仍需要优化:
对于上述条件,将损失函数定义为:
但是,对于多层关系层次结构来说,球面半径的增加将使h + r远离t,这将与基于平移模型的基本原理冲突,即h + r≈t。
为了解决上述问题,将设定两个相邻球体的半径之差应随着RHS中关系深度的增加而减小。
使用m(i)表示RHS中第i层的关系的半径,并设计m(i-1),m(i)和m(i + 1)之间的比例下降加权策略,
关系三元的基于边距的损失函数。γ是分隔正三元组和负三元组的边距。
最终的损失函数包含:,
训练TransRHS的目标是最小化该损失函数,并迭代更新实体,关系和圆面的嵌入。
Experiments
表1列出了Sport和Location的关系及其推断。表2汇总了这些数据集。
考虑到实验中负三元组的必要性,模型训练过程会涉及从正三元组生成负三元组。采用两种方式
bern:但是,由于实际的KG往往远远不够完整,因此这种随机采样的方式可能会在训练中引入许多假消极三元组。
unif:策略考虑了该关系的映射属性,即1-to-N,N-to-1和N-to-N,并设置了在破坏三元组期间替换头或尾实体的不同概率。
使用最小批次随机梯度下降法,通过测试,模型的最佳配置是batch size B批量为40,边沿γ为1.0,学习率为0.001。所有模型均以相同的维度d = 100进行训练。
该任务不是要求一个最佳答案,而是着重于对知识图中的一组候选实体进行排名。
令rankh(h,r,t)为所有头部损坏的关系中的(h,r,t)的排名,rankt(h,r,t)表示尾部损坏的相似排名。
使用两个评估指标:Hits @ N和平均互惠排名(MRR)。
Hits @ N衡量了T的三元组在颠倒首尾后都位于前t名中的比例。
RESCAL ... :语义匹配模型
(1)就RRR和Hits @ N而言,TransRHS明显优于所有基线,这表明RHS信息已成功编码为实体和关系嵌入,并可以改善知识图谱的表示学习。
(2)“ unif”采样技巧在Sport上效果很好,“ bern”采样技巧在Location上效果不错。
三元组分类的实验结果表明TransRHS胜过所有基线,这再次证实了链接预测中得出的结论,并表明 TransRHS能够将RHS信息编码为知识图谱嵌入。