论文阅读 Convolutional 2D Knowledge Graph Embeddings

Convolutional 2D Knowledge Graph Embeddings

卷积二维知识图谱嵌入

摘要:知识图的链接预测是预测实体之间缺失关系的任务。以往关于链接预测的工作主要集中在浅层、快速的模型上,这些模型可以扩展到大型知识图。然而,与深层、多层模型相比,这些模型学习的功能表达性较差,这可能会限制性能。在这项工作中,我们引入了ConvE,一个用于链路预测的多层卷积网络模型,并报告了几个已建立的数据集的最新结果。我们还表明,该模型具有很高的参数效率,与DistMult和R-GCN相同的性能,但参数少8倍和17倍。对我们模型的分析表明,它在建模具有高度独立性的节点时特别有效——这在Freebase和Y AGO3等高度连接的复杂知识图中很常见。此外,已经注意到WN18和FB15k数据集受到测试集泄漏的影响,这是由于训练集存在于测试集的反关系造成的——然而,到目前为止,这个问题的程度还没有被量化。我们发现这个问题很严重:一个简单的基于规则的模型可以在WN18和FB15k上取得最先进的结果。为了确保模型在简单地利用逆关系不能产生竞争性结果的数据集上进行评估,我们调查并验证了几种常用的数据集——在必要的地方获得健壮的变量。然后,我们对我们自己的和之前提出的几个模型的鲁棒数据集进行了实验,发现ConvE在大多数数据集上实现了最先进的平均倒数Rank。
在本文中,我们引入了ConvE模型,该模型利用嵌入的2D卷积来预测知识图中的缺失环节。ConvE是用于链路预测的最简单的多层卷积架构:它由单个卷积层、嵌入维的投影层和内积层定义。
1D卷积与2D卷积的交互次数:
使用2D而不是1D卷积增加了嵌入卷积时的交互点,提高了模型的表现能力。例如,考虑这样一种情况,我们连接两行一维嵌入,a和b的维数为n=3:
在这里插入图片描述
一个带有滤波器大小k= 3的填充1D卷积将能够模拟在连接点周围的这两个嵌入之间的交互(交互的数量与k成比例)。
注:也就是说如果是一个1D卷积,设滤波器为1x3,则每一次卷积时滤波器都将两个嵌入信息分开读取。
如果我们连接(即堆叠)两行二维嵌入,维度为m×n,其中m= 2, n= 3,我们得到:
在这里插入图片描述
我们可以将这一原则扩展到交替模式,如:
在这里插入图片描述
在这种情况下,一个2D卷积操作能够模拟更多的a和b之间的交互(交互的数量与m、n和k成比例)。因此,与1D卷积相比,2D卷积能够提取两个嵌入之间更多的特征交互。同样的原理可以扩展到更高维度的卷积,但我们把这个留作未来的工作。
论文阅读 Convolutional 2D Knowledge Graph Embeddings_第1张图片

在这项工作中,我们提出了一个神经连接预测模型,其中输入实体和关系之间的交互是由卷积和全连接层建模的。模型分数是由2D卷积定义的。图1总结了架构;评分函数定义如下:
在这里插入图片描述
其中rr∈Rk是一个依赖于R的关系参数,es和rr分别表示es和rr的二维重构:如果es,rr∈Rk,则es,rr∈Rkw×kh,其中k=kwkh
在前馈传递中,模型对两个嵌入矩阵进行行向量查找操作,一个是实体,表示为E|E|×k,一个是关系,表示为R|R|×k0,其中k和k0是实体和关系嵌入维数,|E|和|R|表示实体和关系的数量。该模型然后连接es和rr,并使用它作为输入的二维卷积层与滤波器ω。这样一个层返回一个特征映射张量T∈Rc×m×n,其中c是维数为m和n的二维特征映射的个数。然后,这个张量T被重塑为向量vec(T)∈Rcmn,然后通过矩阵W∈Rcmn×k参数化的线性变换将其投影到k维空间中,并通过内积匹配对象嵌入eo。对于实体s和o以及关系r,卷积滤波器的参数和矩阵W是独立于参数的。
为训练模型参数,我们将sigmoid函数σ(·)应用于得分函数,即p= σ(ψr(es,eo)),并使以下二元交叉熵损失最小化:
在这里插入图片描述
其中,1-1评分的标签向量为R1x1, 1-N评分的标签向量为R1xN(参见下一节的1-N评分);对于存在的关系,向量t的元素为1,否则为0。
链接预测实验结果:
论文阅读 Convolutional 2D Knowledge Graph Embeddings_第2张图片

你可能感兴趣的:(算法,矩阵,python)