实体对齐(一):MuGNN

文章目录

    • 一.摘要
    • 二.背景介绍
      • 1.结构的异质性
      • 2.有限的种子对齐
    • 三.MuGNN
      • 1.预备知识
        • 1)KG
        • 2)规则知识
        • 3) 规则接地
        • 4)实体对齐
      • 2.框架
        • 1) KG补全
        • 2) 多通道GNN
      • 3.KG补全
        • 3.1 规则推理和转换
        • 3.2 规则接地
      • 4.多通道GNN
        • 4.1 关系加权
          • 4.1.1 KG Self-Attention
          • 4.1.2 Cross-KG Attention
        • 4.2 多通道GNN编码器
        • 4.3 对齐模型
      • 5.规则知识约束
    • 四.总结
    • 五.附录

一.摘要

实体对齐通常会遇到结构异质性和种子对齐受限的问题。 在本文中,我们提出了一种新颖的多通道图神经网络模型 (MuGNN),通过多个通道对两个 KG 进行稳健编码来学习面向对齐的知识图 (KG) 嵌入。 每个通道通过不同的关系加权方案对 KG 进行编码,分别针对 KG 完成的自我关注和用于修剪专有实体的跨 KG 关注,通过池化技术进一步组合。 此外,我们还推断和转移规则知识以一致地完成两个 KG。 MuGNN 有望调和两个 KG 的结构差异,从而更好地利用种子比对。 在五个公开可用的数据集上进行的大量实验证明了我们的卓越性能(平均提高 5% Hits@1)。

二.背景介绍

知识图谱(KG)以有向图的形式存储世界知识,其中节点表示实体,边表示它们的关系。 自提出以来,构建了许多 KG(例如YAGO)为不同的应用程序和语言提供结构知识。 这些 KG 通常包含互补的内容,吸引研究人员将它们整合成一个统一的 KG,这将有利于许多知识驱动的任务,例如信息提取和推荐。
由于不同的表面形式,对齐不同的 KG 并非易事,这使得基于符号的方法并不总是有效。 相反,最近的工作利用通用的 KG 嵌入方法(例如TransE)并基于一些种子对齐将等效实体对齐到统一的向量空间中。 假设是不同 KG 中的实体及其对应物应该具有相似的结构,因此也应该具有相似的嵌入。 然而,对齐性能并不令人满意,主要是由于以下挑战:

1.结构的异质性

不同的 KG 通常会有很大差异,并且可能会误导种子的表示学习和对齐信息。 以实体吉林市为例(图 1),KG1 和 KG2 分别展示了其衍生自英文和中文维基百科的子图。由于是中国城市,KG2 比 KG1(用虚线和椭圆表示)信息量更大,例如 Dialect 和 Nearby 的关系,以及通过关系 Mayor 的实体 Liu Fei。 显然,KG1 中的吉林省和 KG2 中的吉林市在向量空间中更可能靠近,因为它们具有更多相似的结构(例如,东北普通话和长春)。 更糟糕的是,这种不正确的对齐方式会在图表上进一步蔓延。
实体对齐(一):MuGNN_第1张图片

2.有限的种子对齐

最近基于通用嵌入方法的努力严重依赖现有的对齐作为训练数据,而种子对齐通常不足以用于高质量的实体嵌入。 王等人引入了图卷积网络 (GCN) ,通过对结构特征进行建模来增强实体嵌入,但没有考虑结构异质性。

为了解决这些问题,我们建议联合执行 KG 推理和对齐,以明确协调不同 KG 之间的结构差异,并利用基于图的模型更好地利用种子对齐信息。 结构和解的基本思想是补全缺失的关系,修剪排他性的实体。 如图1所示,为了调和吉林市的差异,需要在KG1中补全缺失关系Dialect和Nearby,在KG2中过滤掉实体刘飞专属。 不对称的实体和关系不仅是由知识图谱的不完备性造成的,而且还源于它们的不同需求。

在本文中,我们提出了一种新颖的多通道图神经网络模型 MuGNN,它可以编码不同的 KG 来学习面向对齐的嵌入。 对于每个 KG,MuGNN 使用不同的通道来补全和修剪 KG,以调和两种类型的结构差异:缺失关系和排斥实体。 通过池化技术组合不同的通道,从而从不同的角度通过协调结构增强实体嵌入,从而有效和高效地利用种子对齐。 在 KG 之间,每个通道通过共享参数传递结构知识。

具体来说,对于 KG 补全,我们首先在每个 KG 上使用 AMIE+ 来诱导规则,然后在 KG 之间转移它们以实现一致的补全。 在图注意网络 (GAT) 之后,我们利用 KG 自注意对 GNN 通道的加权关系进行加权。 对于 KG 剪枝,我们设计了跨 KG 注意力,通过为对应关系分配低权重来过滤掉排他性实体。 我们将主要贡献总结如下:
1)我们提出了一种新颖的多通道 GNN 模型 MuGNN,它通过从不同角度对图进行编码来学习面向对齐的嵌入:补全和修剪,从而对结构差异具有鲁棒性。
2)我们提出KG推理和对齐联合执行,以便通过规则推理和转移完成知识补全和跨KG注意力进行修剪的方式来调和KG的异构性。
3)我们针对实体对齐任务对五个公开可用的数据集进行了广泛的实验,平均实现了 5% Hits@1 的显着改进。 进一步的消融研究证明了我们关键组件的有效性。

三.MuGNN

1.预备知识

1)KG

KG 是一个有向图 G = (E, R, T),涉及一组实体 E、关系类型 R 和三元组 T。每个三元组 t = (ei, rij , ej ) ∈ T 表示头实体 ei 与 尾部实体 ej 通过关系 rij ∈ R 相连。

2)规则知识

K = {k} 可以从 KG 推导出来,例如,以 ∀x, y ∈ E : (x, rs, y) ⇒ (x, rc, y) 的形式,如果它们通过 rs 相关联,说明两个实体可能通过 rc 相关。 箭头左侧定义为前提,右侧定义为结论。 我们将规则表示为 k = (rc|rs1, · · · , rsp),由一个或多个|p|前提组成,只有一个结论。

3) 规则接地

规则接地是找到满足规则定义的前提-结论关系的合适的三元组。 对于规则 k,我们将其理由之一表示为 g(k) = (tc|ts1, · · · , tsp),包括 |p| + 1 个三元组,满足: ts1 ∧ · · · ∧ tsp ⇒ tc,其中 ∧ 是与“和”起类似作用的逻辑连词。 其他组合包括析取∨(类似于’or’)和否定¬(类似于’not’)。 例如,给定一个规则 BornIn(x, y) ∧ cityOf(y, z) ⇒ nationality(x, z),我们将其置于 KG 中,得到:bornIn(Obama, Hawaii) ∧ cityOf(Hawaii, United States ) ⇒ 国籍(奥巴马,美国)。 我们使用 G(k) = {g(k)} 来表示规则 k 的所有基础。

4)实体对齐

实体对齐以两个异构KG G 和 G’ = (E’, R’, T’) 作为输入,目标是找到尽可能多的对齐 Ae = {(e, e’) ∈ E × E’ |e ↔ e’} 等价关系 ↔ 在 e 和 e’ 之间成立。也就是说,e 和 e’ 在不同的 KG 中,但表示相同的东西。 如图1所示,英文维基百科(即KG1)和中文维基百科(即KG2)中的吉林市结构不同,但表示同一个中国城市。 通常,实体 A e s A^s _e Aes 的一些先前对齐和关系 A r s = ( r , r ′ ) ∈ R × R ′ ∣ r ↔ r ′ A^s _r = {(r, r' ) ∈ R × R' |r ↔ r'} Ars=(r,r)R×Rrr 可以很容易地手动或通过简单的基于词典的方法(例如,实体标题翻译)获得,即种子对齐(简称种子)。 我们在整篇论文中使用粗体字母来表示相应术语的向量表示。

2.框架

MuGNN 旨在学习面向对齐的 KG 嵌入以进行实体对齐。 它引入了 KG 推理和转换以显式补全KG,并利用不同的关系加权方案:KG self-attention 和 cross-KG attention,对 KG 进行鲁棒编码。 如图 2 所示,我们的框架中有两个主要步骤:
实体对齐(一):MuGNN_第2张图片

1) KG补全

KG补全旨在通过完成缺失的关系来调和结构差异。 它不仅通过使用流行的规则挖掘系统AMIE+来诱导规则,而且还基于 KG 之间的种子对齐关系将它们相互转换。 规则转换是基于这样的假设:即知识可以推广到各种KG中,无论是在哪种语言或领域。

2) 多通道GNN

多通道图神经网络是通过不同的通道对每个 KG 进行编码。 通道从不同的角度增强实体嵌入:补全和修剪,以便实体及其对应物具有相似的结构。MuGNN 包含三个主要组件:(1)关系加权,根据两种方案为每个 KG 生成权重矩阵:KG self-attention 和 cross-KG attention。 每种注意力都指一个 GNN 通道,该通道在 KG 之间共享参数以进行结构性知识转移; (2) GNN 编码器通过改进与其邻居的实体嵌入来对整个图的特征进行建模,因此种子对齐信息应在整个图上传播; 我们通过池化技术将不同通道中 GNN 编码器的输出组合为 (3) Align 模型的输入,该模型通过将对齐的种子实体(和关系)推在一起,将两个 KG 嵌入到统一的向量空间中。

3.KG补全

在本节中,我们将介绍如何利用规则知识显式完成 KG,首先从每个 KG 中推断规则,然后基于知识不变假设在 KG 之间传递这些规则,最后在每个 KG 中建立规则以实现一致完成。

3.1 规则推理和转换

由于规则知识的获取不是本文的重点,我们利用现代规则挖掘系统AMIE+从大规模KG中高效地找到喇叭规则。
形式上,给定两个KG分别为G和G’ ,我们首先分别挖掘规则,得到两组规则知识K和K’。 这些规则知识是完全不同的,因为KG是为满足应用或语言的不同需求而构建的。 虽然它们可以用来分别完成自己的KG,但我们通过知识不变假设进一步将两组规则相互转换:知识无论在何种语言或领域都具有普遍性。
给定对齐关系 A r s A^s _r Ars 和规则 k ∈ K k ∈ K kK,如果存在 ( r c , r c ′ ) , ( r s i , r s i ′ ) ∈ A r s , i = 1 , ⋅ ⋅ ⋅ , p (r_c, r'_c),(r_{si}, r'_{si}) ∈ A^s _r, i = 1, · · · , p (rc,rc),(rsi,rsi)Ars,i=1,⋅⋅⋅,p。 因此,我们得到这样的规则$ k’ = (r’c|r’{s1},····, r’_{sp}) $并将其添加到 K~’ = K’ ∪ k’ 如果 k ′ ∉ K ′ k' \notin K' k/K。 迁移规则的真实例子可以在实验中找到。 请注意,如果无法找到对齐关系,则可能没有转移规则 A r s = ∅ A^s _r = ∅ Ars=

3.2 规则接地

我们现在将每个规则集建立在相应的 KG 上进行完成,这不仅通过更密集的 KG 来加速对齐模型的效率进行传播,而且还增加了额外的约束,有助于高质量的实体嵌入学习。
以 KG G 为例,给定一条规则 k ∈K,我们收集它的理由,即在 KG 中可以找到前提三元组,而不是结论三元组:$ G(k) = {g(k)|t_{s1}, · · · , t_{sp} ∈ T, t_c \notin T}$。 因此,我们将所有结论三元组添加到KG $G∼ = G∪t_c, t_c ∈ G(k) $中。 类似地,我们可以完成 KG G’ 到 G~'。

4.多通道GNN

在本节中,我们描述了 MuGNN 中涉及的三个主要组件,用于将不同的图编码为面向对齐的嵌入学习:关系加权、多通道 GNN 编码器和对齐模型。

4.1 关系加权

关系加权是基于图G生成加权连接矩阵A作为GNN编码器的输入结构特征,后面会详细介绍。 矩阵中的每个元素 a i j a_{ij} aij 表示 e i e_i ei e j e_j ej 之间的加权关系。
如第 1 节所述,存在两种类型的结构差异:由于 KG 的不完备性而导致的缺失关系,以及由于应用程序或语言的不同构建需求导致的排他性实体。 我们为每个 KG 使用两个通道的 GNN 编码器,以便分别调和两种类型的差异。 也就是说,我们为每个通道生成两个邻接矩阵:基于 KG 自注意力的 A 1 A_1 A1和基于跨 KG 注意力的 A 2 A_2 A2。 接下来,我们将描述如何计算 A 1 A_1 A1 A 2 A_2 A2 中的每个元素 a i j a_{ij} aij。 同样,我们可以得到 KG G’ 的 A 1 ′ A'_1 A1 A 2 ′ A'_2 A2

4.1.1 KG Self-Attention

KG自注意力旨在更好地利用基于 KG 结构本身的种子对齐。 该组件根据当前实体选择信息邻居,并为它们分配高权重。 遵循 GAT,我们在 A1 中定义归一化元素 a i j a_{ij} aij,表示从实体 e i e_i ei e j e_j ej 的连通性,如下所示:
实体对齐(一):MuGNN_第3张图片

其中 $e_k ∈ N_{ei} ∪ {e_i} $表示具有自环的 e i e_i ei 的邻居, c i j c_{ij} cij 是衡量 e i e_i ei e j e_j ej 重要性的注意力系数,由注意力函数 attn 计算如下:
实体对齐(一):MuGNN_第4张图片

这里 || 表示向量连接,W和p是可训练的参数。

4.1.2 Cross-KG Attention

跨KG注意力旨在将两个 KG 的公共子图建模为结构特征以实现一致性。 它通过为在另一个 KG 中没有对应关系的对应关系分配较低的权重来修剪排他实体。 我们将 A2 中的 aij 定义如下:
在这里插入图片描述

其中 1(·) 表示如果成立取1 ,否则取0。sim(·) 是关系类型之间的相似性度量,定义为内积$ sim(r,r’) =r^Tr’ 。因此, 。 因此, 。因此,a_{ij}$ 是寻找两个 KG 之间的最佳映射,如果不存在排他实体的这种关系类型,则为0。

4.2 多通道GNN编码器

GNN是一种处理图结构数据的神经网络模型,其主要思想类似于传播模型:根据其相邻节点增强节点(即实体)的特征。 因此,我们可以堆叠多个 L 层 GNN 以实现进一步的传播。
它的一种变体基于光谱图卷积,例如 GCN 。 每个 GNN 编码器都将当前层中节点表示的隐藏状态作为输入,并将新节点表示计算为:
在这里插入图片描述

其中 A 是显示节点之间连接性的邻接矩阵,H 是当前节点表示,W 是学习参数,σ 是选择为 ReLU(·) = max(0,·) 的激活函数。
受多头注意力网络的启发,我们使用上述两种策略将连接矩阵计算为不同的通道,以从不同方面传播信息,并通过池化函数将它们聚合。 至于我们的多通道 GNN 编码器,它是通过堆叠多个 GNN 编码器构建的,定义为:
实体对齐(一):MuGNN_第5张图片

其中 c 是通道数, A i A_i Ai 是第 i 个通道中的连接矩阵,$H^{l+1}_i $是计算的第 (l + 1) 层和第 i 个通道中的隐藏状态,可以表示为:
在这里插入图片描述

其中 W i W_i Wi是第 i 个通道中的权重参数。 在这里,我们参考上述两个注意力方案设置 i = 1, 2。 我们将 H 0 H^0 H0 设置为随机初始化的实体嵌入。 在实验中,由于其优越的性能,我们为 Pooling 函数选择了平均池化技术。
我们使用这样的多通道 GNN 编码器对每个 KG 进行编码,并获得表示增强实体嵌入的 H L H^L HL H ′ L H'^L HL,其中每个通道共享参数 W 1 = W 1 ′ W_1 = W'_1 W1=W1 和 $W_2 = W’_2 $用于结构知识转换。

4.3 对齐模型

对齐模型是通过将实体(和关系)的种子对齐推到一起,将两个 KG 嵌入到统一的向量空间中。 我们通过它们之间的距离来判断两个实体或两个关系是否等价。 对齐模型的目标如下:
实体对齐(一):MuGNN_第6张图片

其中 [·]+ = max{0,·} 表示 0 和输入之间的最大值,d(·) = || ·||2 是选择作为 L2 距离的距离度量, A e s − A^{s-}_e Aes A r s − A^{s-}_r Ars 表示 A e s A^s_e Aes A r s A^s_r Ars 的负对集合, γ 1 > 0 γ_1 > 0 γ1>0 γ 2 > 0 γ_2 > 0 γ2>0 是分隔正负实体和关系对齐的边距超参数。 在实验过程中,通过计算余弦相似度,我们在同一 KG 中选择最接近对应实体的 25 个实体作为负样本。 负样本将每 5 个 epoch 重新计算一次。

5.规则知识约束

由于我们通过添加新的三元组(即接地规则)来改变 KG 结构,因此我们还引入了三元组损失以保持接地规则在统一向量空间中有效。损失函数如下:
实体对齐(一):MuGNN_第7张图片

其中 g 是规则接地 g(k) 的缩写,G(K) 和 T 表示所有规则接地和所有三元组。 G − ( K ) G^-(K) G(K) T − T^- T 是通过使用最近采样替换相关实体之一获得的负样本集。 I(·) 是三元组 t 的真值函数:
在这里插入图片描述

或接地 g = (tc|ts1, · · · , tsp),其递归计算公式为:
实体对齐(一):MuGNN_第8张图片

其中 d 是嵌入大小。 类似地,我们获得了 KG G’ 的损失 L r ′ L'_r Lr。 因此,多通道 GNN 的整体损失函数如下:
在这里插入图片描述

四.总结

在本文中,我们提出了一种新颖的多通道图神经网络模型 MuGNN,它学习了面向对齐的 KG 嵌入以进行实体对齐。 它能够减轻由结构异质性和有限的种子比对造成的负面影响。 通过两个通道,MuGNN 不仅明确地完成了 KG,而且还通过使用不同的关系加权方案来修剪专有实体:KG selfattention 和 cross-KG attention,显示出强大的图编码能力。 在五个公开可用的数据集上进行的广泛实验和进一步的分析证明了我们方法的有效性。 未来,我们有兴趣通过考虑词的歧义来引入实体的文本信息进行对齐; 同时,通过跨 KG 实体接近(Cao et al., 2015)。

五.附录

论文链接:https://arxiv.org/pdf/1908.09898.pdf
代码链接:https://github.com/thunlp/MuGNN

你可能感兴趣的:(自然语言处理,图神经网络,基础理论,知识图谱,人工智能)