GAEAT: 面向知识图谱补全的图自动编码注意网络

核心问题:

现有方法专注于独立处理三元组中的实体和关系,无法捕获三元组周围局部邻域内固有的隐藏的复杂信息, 文章提出了一种既能封装实体特征又能封装关系特征的知识图谱补全方法.具体地说,我们通过扩展图注意机制来同时获得实体和关系的潜在表示,构造了一个三级自动编码器

(简单来说,就是构造了一个自动编码器,可以利用三元组的语义信息,来补全知识图谱。例如,利用与KG中的Jada Ko- ren Pinkett-Smith相关的两个三元组,即(Will Smith,妻子,Jada Koren Pinkett-Smith)和(Jada Koren Pinkett-Smith,是Jaden Smith的母亲)来推断相应的三重事实(Will Smith,是Jaden Smith的父亲)的知识。但是文章中并没有以这个例子做详细说明,可解释性差)

具体实现:

GAEAT模型包括两个部分:

(1)一个编码器: 通过扩展图注意力机制,用两层图注意力在给定实体的多跳邻居中同时产生实体和关系特征 (2)一个解码器: DistMult(张量分解模型)利用这些表示提取三元组的内部潜在特征

(DistMult:语义匹配模型,利用基于相似性的评分函数。它们通过匹配实体的潜在语义和向量空间表示中包含的关系来度量事实的可信性,只能处理对称关系,文章中使用这个模型的解释是DisMult强制所有的关系嵌入为对角矩阵,这一致地减少了需要学习的参数空间)GAEAT: 面向知识图谱补全的图自动编码注意网络_第1张图片

知识图谱补全任务:给定一个实体和关系去预测另一个实体(可以是头实体,也可以是尾实体),即预测一个三元组是否有效

第一步:Initial Triple Embedding 定义三元组的embedding

(最终目的是为了得到一个新的实体embedding,是根据在KG中与该实体相关的三元组们转换获取,所以先定义与该实体相关的三元组embedding)

具体来说,给定一个实体e_i,在KG中存在与它相关的三元组(e_i, r_k, e_j ),然后我们将这三者串联乘上一个转换矩阵M1后作为激活函数的输入,其输出就是这个三元组的embedding g_ikj。

第二步:Graph Auto-encoder Attention Network 图自编码器注意力网络(获取新的实体 embedding)

原文:利用图自编码注意力网络可以同时获得实体和关系的潜在表示

上述已经得到每个三元组的embedding,乘上M2进行参数化线性转换后作为leakyRelu函数的输入,再通过soft Max函数归一化来获取实体的n-hop邻居的相对关注值(即该实体的每个邻居在邻域内的注意力权重)然后再利用多头注意力机制获取多个这样注意力权重,然后聚合得到实体embedding,(多头的本质是多个独立的attention计算,作为一个集成的作用,防止过拟合)但是论文中是将得到的多个embedding加权平均后作为激活函数的输入得到final entity embedding

第三步:Decoder 为了提取三元组内部的潜在特征

使用DsitMult模型对三元组(h,r,t)进行打分,f(h,r,t)= e_h^M_r^e_t, 这个模型迫使所有关系embedding都存在于对角矩阵M_r中,采用负采样,利用交叉熵作为损失函数进行训练。负才研的设置是通过替换每个有效三元组的头实体或尾实体来生成个无效三元组。

评测协议:我们移除头部或尾部实体,并用语料库中的所有其他实体替换它,然后为每个这样的三元组分配一个分数。随后,我们将这些分数按降序排序,得到正确的三元组的排名。

(所以论文只是提供一个描述知识图谱中实体和关系的模型,并没有对具体的知识图谱补全进行实验?)

你可能感兴趣的:(GAEAT: 面向知识图谱补全的图自动编码注意网络)