摘要:
知识库补全目的是预测知识库中缺少的信息,在本文中,作者提出用于解决知识库之外的实体问题:如何回答在训练时未观测到的信息;现存的基于嵌入的知识库补全不能解决知识库之外的信息,解决这个问题的方法是再训练,但是此方法缺少灵活性;我们提出使用图神经网络来完成知识实体嵌入;
知识库被用于知识提取、问答系统与语义理解方面,这些只是库被定义问三元组,三元组由头部 尾部 关系组成的,(h, r, t)head relation tail ,知识库的补全目的在于对缺少边的信息;最近几年 Embeddng-based KBC models 在在知识库上取得成果,这些模型基于向量分布,向量的操作来进行缺失元组的预测;
接下来,阐述了解决这个问题的重要性,目前存在很多的解决方法,但是都需要使用外部资源,解决这个问题,作者提出了使用GNN,实体当作是节点、边代表关系,图神经网络主要是传播模型与输出模型,传播模型采用 取得节点e的邻节点的嵌入向量,然后转换向量成为节点的特征,换句话说是把每被嵌入节点作为一个向量在连续的特征空间,输出模型定义了基于节点向量的面向任务的目标函数。
贡献点:
2.1 Knowledge Graph
知识图谱:是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理;
三元组如果属于全局内 ,正样本,反正 属于负样本
2.2 KBC: Triplet Classification
是对正负样本的分类;
2.3 OOKB Entity Problem
三元组 在训练中没有存在,但是在测试的时候出现了,此三元组不属于之前的实体之中,但是关系所属实体之中,我们称这样的实体为OOKB,三元组中存在两个实体,其中一个属于,另一个不属于;任务就是正确的识别缺少的三元组的关系
3提出的模型
3.1 图神经网络
在此文章中,我们修改了传播模型更适合于知识图谱 在GNN的基础上[Scarselli et al., 2009; Li et al., 2015]
3.2 传播模型
Thead()函数,转化函数 把邻节点和其当前节点整合到一起,利用其边信息
修改这个传播函数:
使用了池化函数P函数;(包含 累加,均值,最大最小函数)
转化函数(修改相邻节点的向量,以反映当前节点与相邻节点之间的关系):
实验中使用了下面的转换函数
堆叠与展开图神经网络(传播方式的两种):
展开方法:使用相同的模型参数在每个传播过程中 如公式2-4
堆叠方法:使用不同的模型参数,主要取决于时间步n
3.3 输出模型
源函数:评估三元组triple(h, r, r)的不信任度,越小越好
Pairwise-Margin Objective Function成对边界优化函数,判定是否更新参数 ,更关注正负样本的差异性The objective (loss) function defines the quantity to be minimized through optimization.
Absolute-Margin Objective Function绝对边际函数:
τ是个超参数,这个函数是代表正负样本的差异的阈值在τ值,函数趋于0 并在实验中取得很好的效果;
4 实验部分
4.1参数设置
使用了这神经网络库 Chainer (http://chainer.org/).
数据和代码 https://github.com/takuo-h/GNN-for-OOKB.
训练过程使用随机梯度后向传播stochastic gradient descent with backpropagation;
特别是使用 the Adam optimization method
4.2标准三元组分类
Datasets 数据集
wordnet11
Freebase13 下载link http://cs.stanford.edu/people/danqi/
数据集的情况如表1
实验结果如表2所示
4.3 关于OOKB 的实验
表3 、4 代表数据集的说明与实验结果
5 结论
提出了新的KBC 得任务;提出了GNN的解决方法,两种分类验证算法模型的高效性