论文笔记 | 使用GCN建模关系数据

本文主要复述论文["Modeling Relational Data with Graph Convolutional Networks"] 的主要内容
感谢小姐妹带我读论文~

 

摘要

本论文介绍的是关系图卷积网络模型(R-GCN),并在两个已知的知识库上实现关系预测与实体分类。R-GCN是在GCN的基础上优化得到的神经网络模型,原来的GCN处理的是具有拓扑结构的数据集之间的单关系,R-GCN则可以处理知识库中的多关系数据特征。与仅解码器的基准对比,改模型在FB15K-237上有29.8%的改进。

问题介绍

 

 

目前知识库的信息不完整,预测知识库中丢失的信息是SRL的主要任务。依据先前工作,考虑知识库的存储模式是三元组式的集合(主语,谓语,宾语),例如(Mikhail Baryshnikov, educated at, Vaganova Academy)。并假定实体为类型标签,例如(Vaganova Academy is marked as a university)。则知识库的表示完成带标签的有向图,具有带标签编码的节点和三元组实体。具体结构见Figure1。

论文笔记 | 使用GCN建模关系数据_第1张图片

Figure 1

论文中考虑两个基本的SRL任务:关系预测(丢失三元组的恢复)和实体分类(为实体分配类型或分类属性)。 在这两种情况下,通过图结构编译器可以获得丢失的信息。比如,知道Mikhail Baryshnikov是在Vaganova学院接受教育的,这意味着Mikhail Baryshnikov应该有标签person,其三元组 (Mikhail Baryshnikov, lived in, Russia)属于知识图。

GCN

图卷积神经网络应用在具有拓扑结构的图数据集上,其与CNN的计算方式类似,滤波器参数在图中的所有位置或者说所有局部位置都可共享,目标是学习图G=(V, E)上的特征映射。
定义卷积网络中的第l+1层,其向前传播的非线性激活方程可表示为


其中H(0)=X,H(L)=ZX∈(N×D)是节点特征向量的输入矩阵,N为节点数,D为特征维数。Z∈(N×F)为输出矩阵,A为图结构的邻接矩阵,描述每个节点的度数。O是非线性激活函数,比如ReLu。W是当前层的权重矩阵。
上式的传播规则有两个限制:一是节点本身的信息量未被计入,二是A本身未被正则化,直接进行矩阵运算会改变特征向量的域。Kipf & Welling (ICLR 2017)提出了矩阵的对称归一化,对第一个问题引入节点自环,即此时的A=A+I;对第二个问题引入节点度的对角化矩阵,由可以实现节点特征的归一化。实际上,借鉴对拉普拉斯矩阵的标准化公式可以更好的描述邻接矩阵的动态特性,其中

此处引入拉普拉斯矩阵进行归一化的行为我不是很理解,关于谱论的知识我也没有补,想要深入探讨的旁友可以参阅其他资料,此处发一个GCN传播规则的解释的链接,大嘎可以参考参考----GCN的空间域理解

那么带入之后我们就可以得到下列的前向传播公式:


再应用Weisfeiler-Lehman算法到这个GCN模型上,可以得到下式中以向量形式表示的传播规则。是边的归一化常数,也就是经该算法得到的对邻接矩阵进行对称归一化的变体。

则是对当前节点i得到的邻居节点j的特征向量,并经过hash(·)进行特征更新。

 

R-GCN

GCNs可以有效获取局部图特征,在图分类、基于图的半监督学习模型中得到改进。作者对于R-GCNs定义了下述的传播准则:

论文笔记 | 使用GCN建模关系数据_第2张图片

对于节点或实体,表示关系r∈R下的节点i的邻居节点集,是归一化常数,可以预先学习或选择(例如)。

 

正则化

多关系模型中的参数数量和关系数量增长很快,在计算过程中很容易导致稀疏关系矩阵的过度拟合。论文中引入了两种正则化权重矩阵的方式:基函数分解和块对角分解。

块对角分解视为每种关系类型对权重矩阵的稀疏约束,通过块分解可以将潜在特征分组为变量集,这些变量集在组内比在组间更加紧密的耦合。这两种分解都可以帮助我们减少训练当中的参数规模。

论文笔记 | 使用GCN建模关系数据_第3张图片

 

模型结构

 

 

与常规GCN不同,该模型引入了由边的类型与方向决定的关系转换,等式中+的后一项表示节点的自连接。模型中每个节点参数的更新过程可以Figure2来描述,红色部分为节点或者说实体,与蓝色的邻接节点进行矩阵运算,再对每种关系的边类型进行转换,得到绿色部分的已做归一化处理的结果总和,累加后经过激活函数传递,由此在模型中并行更新节点参数。

论文笔记 | 使用GCN建模关系数据_第4张图片

Figure2

整个模型采用堆叠层,即上一级的输出作为下一级的输入。作者在初始化时仅考虑了无特征向量方法,选择图节点的独热编码作为第一层的节点向量输入,对于块表示,通过线性变换将one-hot编码映射为密集表示。

  • Entity classification:
    在模型堆叠的最后一层,对每个节点使用softmax分类器,财通R-GCN提供的节点表示来预测标签,将所有标记节点上的交叉熵最小化。实体分类的模型示意图可参考Figure a3。

     

    论文笔记 | 使用GCN建模关系数据_第5张图片

    Figure 3

  • Link prediction:
  • 论文笔记 | 使用GCN建模关系数据_第6张图片
  •  

实验评估

实体分类

数据集选择了RDF格式的四个数据集,详细见table1。

论文笔记 | 使用GCN建模关系数据_第7张图片

结果见table2。

论文笔记 | 使用GCN建模关系数据_第8张图片

链接预测

数据集的选择见table3。

论文笔记 | 使用GCN建模关系数据_第9张图片

实验结果见table4。

论文笔记 | 使用GCN建模关系数据_第10张图片

 

 

你可能感兴趣的:(论文笔记 | 使用GCN建模关系数据)