论文链接:https://arxiv.org/pdf/2002.06757.pdf
代码和数据集:https://github.com/hwwang55/PathCon
知识图补全旨在预测知识图中实体之间缺失的关系。在本文中,我们提出了一种用于知识图补全的关系消息传递方法。与现有的基于嵌入的方法不同,关系消息传递只考虑知识图中没有实体 id 的边特征(即关系类型) ,并在边之间迭代传递关系消息以聚合邻域信息。
具体来说,在关系消息传递框架下,为给定的实体对建模了两种邻域拓扑:
(1)关系上下文,它捕获了邻近给定实体对的边的关系类型;
(2)关系路径,它刻画了给定的两个实体在知识图中的相对位置。
将两个消息传递模块组合在一起进行关系预测。在知识图基准上的实验结果以及我们新提出的数据集表明,我们的方法路径性能大大优于现有的知识图完成方法。路径同样适用于在训练阶段不能看到实体的归纳设置。
关键词:知识图完成;消息传递;图神经网络
知识图(KG)存储现实世界实体和事实的结构化信息。知识图谱通常由三元组组成。每个三元组 (h, r, t) 表示头部实体 h 通过关系类型 r 与尾部实体 t 相关。 尽管如此,KG 通常是不完整且有噪声的。 为了解决这个问题,研究人员提出了许多 KG 补全方法来预测 KG 中缺失的链接/关系。
一般来说,关系类型不是均匀分布在KG上,而是在空间上相互关联。例如,KG中“graduated from”的相邻关系更可能是“person.birthplace”和“university.location”,而不是“movie.language”。因此,对于给定的实体对(h,t),在推断h和t之间的关系类型时,表征h和t的相邻链接的关系类型将提供有价值的信息。
受最近成功的图形神经网络的启发,我们建议使用消息传递来捕获给定实体对的邻域结构。然而,传统的消息传递方法通常假设消息与节点关联,并且消息从节点迭代地传递到节点,这不适用于边缘特征(关系类型)更重要的KG。
关系消息传递。
为了解决上述限制,我们提出了用于知识图谱完成的关系消息传递。 与传统的基于节点的消息传递不同,关系消息传递只考虑边特征(关系类型),将边的消息直接传递到其相邻边。 请注意,由于关系消息传递仅对关系而不是实体进行建模,因此与现有的知识图嵌入方法相比,它带来了三个额外的好处:
1.它是归纳的,因为它可以处理在推理阶段未出现在训练数据中的实体;
2.存储效率高,因为它不计算实体的嵌入;
3.它是可解释的,因为它能够通过对关系类型之间的相关强度进行建模来为预测结果提供可解释性。
然而,关系消息传递的一个潜在问题是其计算复杂度明显高于基于节点的消息传递(定理 2)。 为了解决这个问题,我们提出了交替的关系消息传递,它在 KG 上交替传递节点和边之间的关系消息。 我们证明了交替消息传递方案极大地提高了时间效率,并实现了与传统的基于节点的消息传递相同的计算复杂度(定理 1 和 3)。
关系上下文和关系路径
关系上下文和关系路径。在交替关系消息传递框架下,我们研究了给定实体对(h,t)的两种局部子图拓扑(参见图1的示例):
1.关系上下文。捕获KG中给定实体的相邻关系非常重要,因为相邻关系为我们提供了关于给定实体的性质或“类型”的有价值的信息(图1 a)。KG中的许多实体不是类型化的,或者是非常松散的类型化,因此了解KG中的实体及其上下文很有价值。本文设计了一种多层关系消息传递方案,用于从 (h, t) 的多跳相邻边聚合信息。
2.关系路径。注意,仅建模关系上下文无法识别 (h, t) 的相对位置。捕获 (h, t) 之间的关系路径集也很重要(图1b)。在这里,两个实体之间不同的连接路径揭示了它们之间关系的本质并有助于预测。因此,我们计算KG中连接h和t的所有关系路径,并沿这些路径传递关系消息。最后,我们利用注意机制选择性地聚合不同关系路径的表示,然后将上述两个模块组合在一起进行关系预测。
(a) 考虑我们的目标是预测 Ron Weasley 或 Hedwig 是否是 Harry Potter 的宠物。 这两个实体与哈利波特有相同的关系路径(同住),但它们有不同的关系上下文:罗恩韦斯莱有 {Brother of, Lives with},而海德薇有 {Bought, Lives with}。 捕获实体的关系上下文使我们的模型能够区分人RonWeasley 和猫头鹰Hedwig。
(b) 两个头部实体 Hermione Granger 和 Draco Malfoy 具有相同的关系上下文 {Occupation, House},但到尾部实体 Harry Potter {(House, House), (Occupation, Occupation)} 与 {(Occupation, Occupation)}的关系路径不同,,这使我们的模型能够预测哈利波特和赫敏格兰杰与德拉科马尔福之间的友谊。
实验
我们在五个著名的KG以及我们提出的一个新KG,DDB14数据集上进行了广泛的实验。实验结果表明,我们提出的模型PathCon(关系路径和上下文的缩写)显著优于最先进的KG完成方法,例如绝对路径Hit@1在WN18RR和NELL995上,相对于最佳基线的增益分别为16.7%和6.3%。我们的研究表明了我们方法的有效性,并证明了关系语境和关系路径的重要性。我们的方法也被证明在诱导KG完成中保持了强大的性能,同时它通过识别给定预测关系的重要关系上下文和关系路径来提供高可解释性。
贡献。我们的主要贡献如下:
令 G = (V, E) 是知识图谱的一个实例,其中 V 是节点集,E 是边集。每条边 e 都有一个关系类型 r ∈ R。我们的目标是预测 G 中缺失的关系,即给定一个实体对 (h, t),我们旨在预测它们之间的边关系。具体来说,我们的目标是对给定一对实体 (h, t) 的关系类型的分布进行建模:p(r|h, t)。这相当于对以下项进行建模 p ( r ∣ h , t ) ∝ p ( h , t ∣ r ) ⋅ p ( r ) ( 1 ) p(r|h,t)\propto p(h,t|r)·p(r)(1) p(r∣h,t)∝p(h,t∣r)⋅p(r)(1)根据贝叶斯定理。在式(1)中,p(r)是关系类型的先验分布,并用作模型的正则化。然后第一项可以进一步分解为 p ( h , t ∣ r ) = 1 2 ( p ( h ∣ r ) ⋅ p ( t ∣ h , r ) + p ( t ∣ r ) p ( h ∣ t , r ) ) ( 2 ) p(h,t|r)=\frac12(p(h|r)·p(t|h,r)+p(t|r)p(h|t,r))(2) p(h,t∣r)=21(p(h∣r)⋅p(t∣h,r)+p(t∣r)p(h∣t,r))(2)公式(2)为我们的模型设计提供了指导。 p ( h ∣ r ) p(h|r) p(h∣r)或 p ( h ∣ t , r ) p(h|t,r) p(h∣t,r)衡量给定特定关系的实体的可能性。由于我们的模型不考虑实体的身份,所以我们使用实体的局部关系子图来代替实体本身。例如: p ( C ( h ) ∣ r ) p(C(h)|r) p(C(h)∣r)和 p ( C ( t ) ∣ r ) p(C(t)|r) p(C(t)∣r),其中 C ( ⋅ ) C(·) C(⋅)表示实体的局部关系子图。这也称为h和t的关系上下文。
等式(2)中的术语 p ( t ∣ h , r ) p(t|h, r) p(t∣h,r) 或 p ( h ∣ t , r ) p(h|t, r) p(h∣t,r)考虑到它们之间存在关系 r,测量如何从 h 或其他方式达到 t 的可能性。这启发我们对 KG 中 h 和 t 之间的关系路径进行建模。在下文中,我们将展示如何在我们的方法中对这两个因素进行建模,以及它们如何有助于关系预测。
在本节中,我们首先介绍了关系消息传递框架,然后给出了提出的PathCon的两个模块:关系上下文消息传递和关系路径消息传递。本文中使用的符号列于表1中。
传统的基于节点的消息传递。我们首先简要回顾一下传统的基于节点的通用图消息传递方法。假设每个节点 v 都具有特征 x v x_v xv。然后消息传递在图上运行多个时间步长,在此期间迭代 i 中每个节点 v 的隐藏状态 s v i s_v^i svi 更新为 m v i = A ( { s u i } ) u ∈ N ( v ) ( 3 ) m_v^i=A(\lbrace s_u^i\rbrace)_{u∈N(v)}(3) mvi=A({sui})u∈N(v)(3) s v i + 1 = U ( s v i , m v i ) ( 4 ) s_v^{i+1}=U(s_v^i,m_v^i)(4) svi+1=U(svi,mvi)(4)其中 m v i m_v^i mvi是节点v在第i轮迭代收到的消息。 N ( v ) N(v) N(v)表示图中v的相邻节点集,A(·)是消息聚合函数,U(·)是节点更新函数。初始隐藏状态 s v 0 = x v s_v^0=x_v sv0=xv。
上述框架虽然在一般图中很流行,并衍生了许多变体,如GCN、GraphSAGE和GIN,但在应用于知识图时面临以下挑战:
(1)与一般图不同,在大多数KG中,边有特征(关系类型),但节点没有,这使得KG基于节点的消息传递不那么自然。虽然节点特征可以设置为它们的标识(即一个ont-hot向量),但这将导致另外两个问题:
(2)节点的建模无法在推理期间管理以前没见过的节点,并且没有归纳能力。
(3) 在现实世界的KG中,实体的数量通常比关系类型的数量大得多,这需要大量内存来存储实体嵌入。
关系消息传递。为了解决上述问题,一个自然的想法是通过边而不是节点执行消息传递。 m e i = A ( { s e ′ i } e ′ ∈ N ( e ) ) ( 5 ) m_e^i=A(\lbrace s_{e'}^i\rbrace _{e'∈N(e)})(5) mei=A({se′i}e′∈N(e))(5) s e i + 1 = U ( s e i , m e i ) ( 6 ) s_e^{i+1}=U(s_e^i,m_e^i)(6) sei+1=U(sei,mei)(6)其中 N(e) 表示图中边 e 的一组相邻边(即与 e 至少共享一个公共端点的边), s e 0 s_e^0 se0 是边 e 的初始边特征,即关系类型。 因此,方程。 (5) 和 (6) 称为关系消息传递。
关系消息传递避免了基于节点的消息传递的缺点,但是,它在传递消息时带来了计算效率的新问题。为此,我们分析了两种消息传递方案的计算复杂度(证明见附录A和附录B):
交替关系消息传递。根据上述定理,关系消息传递的复杂度比基于节点的消息传递的复杂度高得多,特别是在节点分布服从幂律分布的现实世界中,由于节点尾长,其方差 (Var [d]) 极大。为了减少关系消息传递中的冗余计算,提高其计算效率,提出了一种面向KGs的消息传递方案: m v i = A 1 ( { s e i } e ∈ N ( v ) ) ( 7 ) m_v^i=A_1(\lbrace s_e^i\rbrace _{e∈N(v)})(7) mvi=A1({sei}e∈N(v))(7) m e i = A 2 ( m v i , m u i ) , u , v ∈ N ( e ) ( 8 ) m_e^i=A_2(m_v^i,m_u^i),u,v∈N(e)(8) mei=A2(mvi,mui),u,v∈N(e)(8) s e i + 1 = U ( s e i , m e i ) ( 9 ) s_e^{i+1}=U(s_e^i,m_e^i)(9) sei+1=U(sei,mei)(9)我们将等式(5)中的边聚集分解为两个步骤,即等式(7)和(8)。在等式(7)中,对于每个节点v,我们通过聚合函数A1(·)来聚合与v连接的所有边并获得消息 m v i m_v^i mvi,其中N(v)表示节点v的相邻边的集合。然后在等式8中,我们通过使用函数A2(·)聚合来自其两个端点v和u的消息来获得边e的消息 m e i m_e^i mei,其中N(e)表示边e的相邻节点集。边e的隐藏状态最终使用消息 m e i m_e^i mei更新,如等式(9)所示。
对交替关系消息传递的直观理解是,这里的节点充当“分布中心”,收集并临时存储来自其相邻边的消息,然后将聚合的消息传播回其每个相邻边缘。因此,我们等式 (7) - (9) 为交替传递关系消息,因为消息在节点和边之间交替传递。
从定理 3 可以清楚地看出,交替的关系消息传递大大减少了时间开销,并实现了与基于节点的消息传递相同的复杂度。
对于知识图谱三元组(h,r,t),h和t的关系上下文通常与r高度相关。例如,如果r是“graduated from”,合理的猜测h的周围关系是“person.birthplace”,“person.gender”等,而 t 的周围关系是“institution.location”,“university.founder”,university.president”等,因此,h和t的上下文在识别它们之间的关系类型时将提供有价值的线索,这里我们使用所提出的消息传递方法来学习关系上下文。
用 s e i s_e^i sei表示迭代i中边e的隐藏状态,用 m v i m_v^i mvi表示迭代i中存储在节点v的消息。我们将公式(7)-(9)中的交替关系消息传递实例化,以学习每个边的表示。 m v i = ∑ e ∈ N ( v ) s e i ( 10 ) m_v^i=\sum_{e∈N(v)}s_e^i(10) mvi=e∈N(v)∑sei(10) s e i + 1 = σ ( [ m v i , m u i , s e i ] ⋅ W i + b i ) , u , v ∈ N ( e ) ( 11 ) s_e^{i+1}=\sigma([m_v^i,m_u^i,s_e^i]·W^i+b^i),u,v∈N(e)(11) sei+1=σ([mvi,mui,sei]⋅Wi+bi),u,v∈N(e)(11)其中 [·] 是连接函数, W i W^i Wi 、 b i b^i bi 和 σ(·) 分别是可学习的变换矩阵、偏置和非线性激活函数。 s e 0 = x e s_e^0=x_e se0=xe 是边 e 的初始特征,可以作为e所属关系类型的一个one-hot向量。
在等式(10)和(11)中传递的关系上下文消息重复K次。最后的消息 m h K − 1 m_h^{K-1} mhK−1和 m t K − 1 m_t^{K-1} mtK−1分别作为头部h和尾部t的表示。我们还在图2中给出了一个关系上下文消息传递的示例,其中红色/粉色边表示一阶/二阶上下文关系。
图 2:PathCon 的一个示例,考虑了头部和尾部实体的 2 跳内的关系上下文(用红色边缘表示)和长度不超过 3 个连接头到尾的关系的关系路径(用绿色箭头表示)。 上下文和路径是根据它们包含的关系类型(而不是实体)捕获的。 通过结合上下文和路径 PathCon 预测关系 r 的概率。
我们遵循第2节中的讨论,讨论如何对p(t | h,r)或p(h | t,r)建模。注意,在关系上下文消息传递中,我们不考虑节点/边身份,这导致了一个潜在的问题,即我们的模型不能识别KG中H和T之间的相对位置。
例如,假设对于给定的实体对(h,t),h被“person.birthplace”,“person.gender”等包围,t被“institution.location”,“university.founder”,“university.president”等包围。那么可以推断出h可能是一个人,t可能是一所大学,并且它们之间应该存在“graduated_from”关系,因为这样的模式在训练数据中经常出现。然而,该人可能与大学没有任何关系,他们在KG中彼此相距甚远。出现这种误报的原因是关系上下文消息传递只能检测h和t的“类型”,而不知道它们在KG中的相对位置。
为了解决这个问题,我们建议探索 h 和 t 之间的连接模式,这些模式由在 KG 中连接它们的路径表示。 具体来说,KG 中从 h 到 t 的原始路径是实体和边的序列 h ( v 0 ) → e 0 v 1 → e 1 v 2 . . . v L − 1 → e L − 1 t ( v L ) h(v_0) \overset{e_0}{\to}v_1\overset{e_1}{\to}v_2...v_{L-1}\overset{e_{L-1}}{\to}t(v_L) h(v0)→e0v1→e1v2...vL−1→eL−1t(vL),其中两个实体 v i v_i vi和 v i + 1 v_{i+1} vi+1由边 e i e_i ei连接,并且路径中的每个实体都是唯一的。对应的关系路径 P 是给定原始路径中所有边的关系类型序列,即 P = ( r e 0 , r e 1 , . . . , r e L − 1 ) P=(r_{e_0},r_{e_1},...,r_{e_{L-1}}) P=(re0,re1,...,reL−1),其中 r e i r_{e_i} rei是边 e i e_i ei的关系类型。 请注意,在对关系路径进行建模时,我们不使用节点的身份,这与关系上下文相同。
将 P h → t P_{h\to t} Ph→t表示为KG中从h到t的所有关系路径的集合。我们的下一步是定义和计算关系路径的表示。在PathCon中,我们为每个关系路径 P ∈ P h → t P∈P_{h\to t} P∈Ph→t分配了一个独立的嵌入向量 s p s_p sp。这里的一个潜在问题是,不同路径的数量随着路径长度呈指数增长(存在 ∣ r ∣ k |r|^k ∣r∣k k-hop路径),然而,在实践中,我们观察到,在现实世界的KG中,大多数路径实际上不会出现(例如,在FB15K数据集中,只有3.2%的长度为2的所有可能路径出现),而对于相对较小的k值(k≤4),不同路径的数量实际上是很容易管理的。关系路径的示例如图2所示,其中两个绿色箭头表示从头实体h到尾实体t的关系路径。
对于关系上下文,我们使用消息传递方案来计算h和t的最终的信息 m h K − 1 m_h^{K-1} mhK−1和 m t K − 1 m_t^{K-1} mtK−1表示,分别总结了他们的上下文信息。 m h K − 1 m_h^{K-1} mhK−1和 m t K − 1 m_t^{K-1} mtK−1进一步组合在一起以计算(h,t)对的上下文: s ( h , t ) = σ ( [ m h K − 1 , m t K − 1 ] ⋅ W K − 1 + b K − 1 ) ( 12 ) s_{(h,t)}=\sigma([m_h^{K-1},m_t^{K-1}]·W^{K-1}+b^{K-1})(12) s(h,t)=σ([mhK−1,mtK−1]⋅WK−1+bK−1)(12)其中 s ( h , t ) s_{(h,t)} s(h,t) 表示实体对 (h, t) 的上下文表示。 请注意,公式(12)应该只把h和t的信息作为输入,而不包括它们的连接边r,因为在训练阶段,基础事实关系r应该被视为未观察到的。
对于关系路径,请注意,对于给定的 (h, t) 对,可能存在多个关系路径,但并非所有路径都与预测的关系 r 有逻辑关系,并且每条路径的重要性也各不相同。在 PathCon 中,由于我们已经知道 (h, t) 对的上下文 s ( h , t ) s_{(h,t)} s(h,t),它可以看作是 h 和 t 之间路径的先验信息,我们可以根据s(h,t)来计算路径的重要性得分。因此,我们首先计算每条路径 P 相对于上下文 s ( h , t ) s_{(h,t)} s(h,t) 的注意力权重: α p = e x p ( s p T s ( h , t ) ) ∑ p ∈ P h → t e x p ( s p T s ( h , t ) ) ( 13 ) \alpha_p=\frac{exp(s_p^Ts_{(h,t)})}{\sum_{p∈P_{h\to t}}exp(s_p^Ts_{(h,t)})}(13) αp=∑p∈Ph→texp(spTs(h,t))exp(spTs(h,t))(13)其中 P h → t P_{h\to t} Ph→t是从h到t的所有路径的集合。 然后注意力权重用于平均所有路径的表示: s h → t = ∑ p ∈ P h → t α p s p ( 14 ) s_{h\to t}=\sum_{p∈P_{h\to t}}\alpha_ps_p(14) sh→t=p∈Ph→t∑αpsp(14)其中 s h → t s_{h\to t} sh→t 是 (h, t) 的关系路径的聚合表示。这样,上下文信息 s(h,t) 用于帮助识别最重要的关系路径。
给定关系上下文表示 s ( h , t ) s_{(h,t)} s(h,t)和关系路径表示 s h → t s_{h\to t} sh→t,我们可以通过先将两个表示相加,然后取softmax来预测关系,如下所示: p ( r ∣ h , t ) = S O F T M A X ( s ( h , t ) + s h → t ) ( 15 ) p(r|h,t)=SOFTMAX(s_{(h,t)}+s_{h\to t})(15) p(r∣h,t)=SOFTMAX(s(h,t)+sh→t)(15)我们的模型可以通过最小化训练三元组的预测和基本事实之间的损失来训练: m i n L = ∑ ( h , r , t ) ∈ D J ( p ( r ∣ h , t ) , r ) ( 16 ) min_L=\sum_{(h,r,t)∈D}J(p(r|h,t),r)(16) minL=(h,r,t)∈D∑J(p(r∣h,t),r)(16)其中 D 是训练集,J(·) 是交叉熵损失。值得注意的是,上下文表示 s ( h , t ) s_{(h,t)} s(h,t)在模型中起着两个作用:它直接有助于预测关系分布,它还有助于确定关系路径相对于预测关系的重要性。
由于 PathCon 仅对没有实体的关系进行建模,因此它能够捕获不同关系类型之间的纯关系,因此可以自然地用于解释预测。 PathCon 的可解释性有两方面:
一方面,关系上下文建模捕获上下文关系和预测关系之间的相关性,可以用来指示给定关系的重要相邻边。例如,, “institution.location”, “university.founder”和 “university.president”可以识别为“graduated from”的重要上下文关系。
另一方面,建模关系路径捕获路径和预测关系之间的相关性,这可以指示给定关系的重要关系路径。例如,(“schoolmate of”, “graduated from”)可以被识别为“graded from”的重要关系路径。
有趣的是,关系路径提供的可解释性也与具有以下形式的第一逻辑逻辑规则相关联: B 1 ( h , x 1 ) ∧ B 2 ( x 1 , x 2 ) ∧ . . . ∧ B L ( x L − 1 , t ) ⟹ r ( h , t ) B_1(h,x_1)\wedge B_2(x_1,x_2)\wedge ...\wedge B_L(x_{L-1},t)\implies r(h,t) B1(h,x1)∧B2(x1,x2)∧...∧BL(xL−1,t)⟹r(h,t)其中, ∧ B i \wedge B_i ∧Bi是路径中关系的连接,r(h,t)是预测的关系。因此,上面的关系路径示例可以写成以下规则: ( h , s c h o o l m a t e o f , x ) ∧ ( x , g r a d u a t e d f r o m , t ) ⇒ ( h , g r a d u a t e d f r o m , t ) (h, schoolmate of, x)\wedge (x, graduated from, t)⇒(h, graduated from, t) (h,schoolmateof,x)∧(x,graduatedfrom,t)⇒(h,graduatedfrom,t)因此,PathCon 也可用于从 KG 学习逻辑规则,就像之前的工作一样。
接下来我们讨论PathCon的几种设计方案。在我们的消融实验中,我们将把PathCon与下列替代实现方式进行比较。
在对关系上下文进行建模时,我们提出了两种上下文聚合器的替代方案,而不是等式(11)和(12)中的串联上下文聚合器:
Mean context aggregator。它采用输入向量的元素平均值,然后是非线性变换函数: s e i + 1 = σ ( 1 3 ( m v i + m u i + s e i ) W + b ) , u , v ∈ N ( e ) ( 17 ) s_e^{i+1}=\sigma(\frac13(m_v^i+m_u^i+s_e^i)W+b),u,v∈N(e)(17) sei+1=σ(31(mvi+mui+sei)W+b),u,v∈N(e)(17)平均上下文聚合器的输出对于它的两个输入节点的排列是不变的,表明它在三元组中平等地对待头部和尾部。
Cross context aggregator。它的灵感来自推荐系统中的组合特征,它衡量单位特征的交互作用(例如,AND(gender=female, language=English))。 请注意,Mean 和 Concatenation 上下文聚合器只是简单地分别转换来自两个输入节点的消息并将它们加在一起,而不需要对它们之间的交互进行建模,这可能对链接预测有用。 在跨上下文聚合器中,我们首先计算来自头部和尾部的消息之间的所有元素级成对交互: m v i m u i T = [ m v i ( 1 ) m u i ( 1 ) ⋯ m v i ( 1 ) m u i ( d ) ⋯ ⋯ m v i ( d ) m u i ( 1 ) ⋯ m v i ( d ) m u i ( d ) ] ( 18 ) m_v^i{m_u^i}^T= \begin{bmatrix} {m_v^i}^{(1)}{m_u^i}^{(1)} & \cdots & {m_v^i}^{(1)}{m_u^i}^{(d)} \\ \cdots & & \cdots \\ {m_v^i}^{(d)}{m_u^i}^{(1)} & \cdots & {m_v^i}^{(d)}{m_u^i}^{(d)} \\\end{bmatrix}(18) mvimuiT=⎣⎢⎡mvi(1)mui(1)⋯mvi(d)mui(1)⋯⋯mvi(1)mui(d)⋯mvi(d)mui(d)⎦⎥⎤(18)其中我们使用带括号的上标来表示元素索引,d 是 m v i m_v^i mvi 和 m u i m_u^i mui 的维度。 然后我们通过将交互矩阵展平为向量然后乘以变换矩阵来总结所有交互: s e i + 1 = σ ( f l a t t e n ( m v i m u i T ) W 1 i + s e i W 2 i + b i ) , u , v ∈ N ( e ) ( 19 ) s_e^{i+1}=\sigma(flatten(m_v^i{m_u^i}^T)W_1^i+s_e^iW_2^i+b^i),u,v∈N(e)(19) sei+1=σ(flatten(mvimuiT)W1i+seiW2i+bi),u,v∈N(e)(19)值得注意的是,跨上下文聚合器保留了输入节点的顺序。
Learning path representation with RNN。在建模关系路径时,可使用递归神经网络(RNN)学习关系路径P=(r1, r2,…)的表示: s p = R N N ( r 1 , r 2 , . . . ) ( 20 ) s_p=RNN(r_1,r_2,...)(20) sp=RNN(r1,r2,...)(20)而不是直接给 P 分配一个嵌入向量。RNN 相对于路径嵌入的优点是它的参数数量是固定的,不依赖于关系路径的数量。 另一个潜在的好处是 RNN 有望捕获不同关系路径之间的相似性。
Mean path aggregator。在计算 (h,t) 对的关系路径的最终表示形式时,我们还可以简单地对从h到t的所有路径表示形式进行平均,而不是等式 (13) 和 (14) 中的注意力路径聚合器: s h → t = ∑ p ∈ P h → t s p ( 21 ) s_{h\to t}=\sum_{p∈P_{h\to t}}s_p(21) sh→t=p∈Ph→t∑sp(21)平均路径聚合器可用于关系上下文表示不可用的情况,因为它不需要注意力权重作为输入。
在本节中,我们评估所提出的 PathCon 模型,并展示其在六个 KG 数据集上的性能。
数据集。我们在五个标准 KG 基准上进行实验:FB15K、FB15K-237、WN18、WN18RR、NELL995,以及我们提出的一个 KG 数据集:DDB14。
FB15K来自 Freebase,一个大规模的人类通用知识 KG。 FB15k-237是 FB15K 的一个子集,其中去除了反向关系。 WN18包含来自 WordNet的英语单词之间的概念语义和词汇关系。 WN18RR是 WN18 的一个子集,其中去除了反向关系。 NELL995是从包含一般知识的 NELL 系统的第 995 次迭代中提取的。
此外,我们提出了一个适用于 KG 相关任务的新数据集 DDB14。 DDB14 是从疾病数据库中收集的,该数据库是一个医学数据库,包含疾病、症状、药物等术语和概念以及它们之间的关系。我们从原始样本中随机抽取 4,000 个三元组的两个子集,分别作为验证集和测试集。
表 2 总结了六个数据集的统计数据。我们还计算并呈现了每个 KG 的节点度分布(即 E[d] 和 Var[d])的均值和方差。很明显,对于所有 KG,Var[d] 都很大,这从经验上表明关系消息传递的复杂性相当高,因此对于真实图来说,交替的关系消息传递是必要的。
基线。 我们将 PathCon 与几个最先进的模型进行比较,包括 TransE、ComplEx、DistMult、RotatE、SimplE、QuatE 和 DRUM。前六个模型是基于嵌入的方法,而 DRUM 仅使用关系路径进行预测。基线(以及我们的方法)的实现细节在附录 D 中提供。
我们还进行了广泛的消融研究,并提出了我们模型的两个简化版本Con和Path,它们分别只使用关系上下文和关系路径来分别测试这两个组件的性能。DDB14上每个型号的参数数量如表3所示。结果表明,PathCon的存储效率比基于嵌入的方法高得多,因为它不需要计算和存储实体嵌入。
评估协议。我们评估了关系预测的所有方法,即,对于测试集中给定的实体对(h,t),我们将基本真理关系类型r与所有其他候选关系类型进行排序。值得注意的是,大多数基线最初设计用于头/尾预测,因此,它们的负采样策略是将头或尾损坏为真正的三元组(h,r,t),即用KGs中随机采样的实体h′或t′替换h或t,并使用(h′,r,t)或(h,r,t′)作为负样本。在关系预测中,由于任务是预测给定对(h,t)的缺失关系,我们通过破坏每个真三元组(h,r,t)的关系r来相应地修改负采样策略,并使用(h,r′,t)作为负样本,其中r′从关系类型集中随机采样。这种新的负采样策略确实可以提高基线在关系预测中的性能。我们使用平均倒数秩(MRR)和Hit@1,3(截止值为1和3的命中率)作为评估指标。
与基线的比较。 表 4 报告了所有数据集的关系预测结果。总的来说,我们的方法优于所有数据集的所有基线。 具体来说,PathCon 在关系预测任务中相对于最佳基线的绝对 Hit@1 增益在六个数据集中分别为 0.2%、0.6%、0.9%、16.7%、6.3% 和 1.8%。 WN18RR 和 NELL995 的提升相当显着,根据表 2 所示的平均节点度,它们恰好是最稀疏的两个 KG。这从经验上证明了 PathCon 在稀疏 KG 上保持了很好的性能,这可能是因为 PathCon 的数量要少得多 参数比基线更不容易过拟合。相比之下,PathCon在FB15K上的性能增益不太显著,这可能是因为FB15K的密度非常高,因此基线更容易处理。
此外,结果还证明了PathCon的稳定性,因为我们观察到大多数标准偏差都很小。表4中的结果还表明,在许多情况下,Con或Path已经超过了大多数基线。将关系上下文和关系路径结合在一起通常会带来更好的性能。
归纳 KG 补全。我们还检查了我们的方法在归纳 KG 完成中的性能。我们随机抽取测试集中出现的节点子集,然后从训练集中删除这些节点及其相关边。剩余的训练集用于训练模型,我们在评估期间将移除的边加回。当移除节点的比率从 0 增加到 1 时,评估从完全转导转变为完全归纳。PathCon、DistMult 和 RotatE 在关系预测任务上的结果如图 3 所示。我们观察到我们方法的性能略有下降在完全归纳设置(从 0.954 到 0.922),而 DistMult 和 RotatE 下降到“随机猜测”水平。这是因为这两个基线是依赖于建模节点身份的基于嵌入的模型,而我们的方法不考虑节点身份,因此可以自然地推广到归纳 KG 完成。
上下文跳数和最大路径长度。我们研究了我们的模型对上下文跳数和最大路径长度的敏感性。我们将这两个数字从0变为4(0表示不使用相应的模块),并在图4中报告WN18RR上所有组合(不含(0,0))的结果。很明显,增加上下文跳数和最大路径长度可以显著改善较小的结果,这表明包含更多的相邻边或计算更长的路径确实有利于性能。但随着层数的增加,边际效益逐渐降低。在其他数据集中也观察到了类似的趋势。
上下文聚合器。我们研究上下文聚合器的不同实现如何影响模型性能。Mean、Concat 和 Cross context 聚合器在四个数据集上的结果如图 5 所示(FB15K 和 WN18 上的结果被省略,因为它们分别类似于 FB15K-237 和 WN18RR)。结果表明,均值在所有数据集上的表现最差,这表明在聚合从节点到边的特征时节点顺序的重要性。有趣的是,Concat 和 Cross 之间的性能比较在不同数据集上有所不同:Concat 在 NELL995 上优于 Cross,在 WN18RR 上比 Cross 差,而它们的性能在 FB15K-237 和 DDB14 上相当。不过需要注意的是,Cross 的一个显着缺陷是它的参数比 Concat 多很多,需要更多的运行时间和内存资源。
路径表示类型和路径聚合器。我们实现了四种路径表示类型和路径聚合器的组合:Embedding+Mean、Embedding+Attention、RNN+Mean 和 RNN+Attention,其结果如图 6 所示。与上下文聚合器不同,六个数据集上的结果是路径表示类型和路径聚合器类似,因此我们只报告 WN18RR 上的结果。我们发现 Embedding 始终优于 RNN,这可能是因为关系路径的长度通常很短(在我们的实验中不超过 4 个),因此 RNN 在建模序列方面几乎无法展示其实力。结果还表明,注意力聚合器的性能略好于平均聚合器。这表明头尾实体的上下文信息确实有助于识别关系路径的重要性。
初始边缘特征。在这里,我们检查三种类型的初始边缘特征:身份、BOW 和关系类型的 BERT 嵌入。我们选择在 NELL995 上进行测试,因为它的关系名称包含相对较多的英文单词,因此在语义上是有意义的(例如,“organization.headquartered.in.state.or.province”)。结果报告在图 7 中,这表明 BOW 特征略好于身份,但 BERT 嵌入的性能明显低于其他两个。我们将此发现归因于 BERT 嵌入更善于识别关系类型之间的语义关系,但我们的模型旨在学习从上下文/路径的 BERT 嵌入到预测关系类型的标识的映射。换句话说,如果预测的关系类型也由 BERT 嵌入表示,则 BERT 可能会表现得更好,这种映射是在嵌入空间中学习的。 我们将探索留作未来的工作。
我们选择 FB15K-237 和 DDB14 作为数据集来展示 PathCon 的可解释性。上下文跳数设置为 1,最大路径长度设置为 2。训练完成后,我们从每个数据集中选择三个关系,并根据上下文的变换矩阵列出最重要的关系上下文/路径/路径聚合器。结果如表 5 所示,从中我们发现大多数已识别的上下文/路径在逻辑上是有意义的。例如,“education Campus of”可以由“educationin”推断,“is associated with”是一个传递关系。此外,附录 E 中包含更多关于 DDB14 数据集的可视化结果和讨论。
KG 为各种下游任务提供外部信息,例如推荐系统 [27-29] 和语义分析 [26]。 大多数现有的 KG 补全方法都基于嵌入,通常为连续嵌入空间中的每个实体和关系分配一个嵌入向量,并根据观察到的事实训练嵌入。 一种 KG 嵌入方法是基于平移的,它将实体视为连续空间中的点,每个关系都平移实体点。目标是,翻译的头部实体应接近真实空间 [3],复杂空间 [22] 或四元数空间 [39] 中的尾部实体,它们已显示出处理多种关系模式并实现最先进的结果的能力。另一种工作是多线性或双线性模型,它们通过实数 [35] 或复数空间 [24] 中的矩阵或矢量点积来计算语义相似度。此外,几种基于嵌入的方法探索了超越点向量的架构设计 [6,21]。但是,这些基于嵌入的模型无法预测归纳设置中的链接,也无法发现任何解释预测的规则。
现有的 GNN 通常遵循神经消息传递 [10] 的思想,该思想由两个过程组成:传播和聚合。 在这个框架下,提出了几个从卷积神经网络 [8、11、15、25]、递归神经网络 [17] 和递归神经网络 [1] 中汲取灵感的 GNN。 然而,这些方法使用基于节点的消息传递,而我们在这项工作中建议基于边缘传递消息。
有两个 GNN 模型在概念上与我们识别图中节点的相对位置的想法相关。 DEGNN [16] 捕获要学习其表示的节点集与图中每个节点之间的距离,该距离用作额外的节点属性或作为 GNN 中消息聚合的控制器。 SEAL [38] 在预测(a,b)之间的链接存在时,用它们到两个节点 a 和 b 的距离来标记节点。 相反,我们使用关系路径来表示两个节点的相对位置。
研究人员还尝试将 GNN 应用于知识图谱。 例如,Schlichtkrull 等人。 [20] 使用 GNN 对 KG 中的实体和关系进行建模,但是,它们的局限性在于它们没有考虑关系路径并且无法在归纳设置中进行预测。 王等人[30, 32] 使用 GNN 来学习 KG 中的实体嵌入,但他们的目的是使用学习的嵌入来提高推荐系统的性能,而不是 KG 补全。
我们提出使用 PathCon 补全 KG。 PathCon 在 KGs 中考虑了两种类型的子图结构,即头/尾实体的上下文关系和头尾实体之间的关系路径。 我们表明,关系上下文和关系路径对于关系预测都至关重要,它们可以进一步结合以实现最先进的性能。 此外,PathCon 还被证明具有归纳性、存储效率和可解释性。
我们指出了未来工作的四个方向。首先,正如我们在备注2中所讨论的,研究PathCon在节点特征感知KGs上的经验性能是值得的。其次,正如我们在4.3节中讨论的,设计一个可以更好地利用预先训练的单词嵌入的模型是一个有前途的方向;第三,值得研究为什么RNN表现不佳,以及我们是否可以更好地建模关系路径;最后,研究上下文表示和路径表示是否可以以更有原则的方式组合是很有趣的。