本文记录GCN原经典论文的阅读笔记
论文链接:GCN原论文
论文提出了一种可扩展的方法,用于在图结构数据上进行半监督学习,该方法基于一种直接在图上操作的卷积神经网络的有效变体。论文通过对谱图卷积的局部一阶近似来形成卷积框架
论文的贡献:
首先,为直接操作图这种非欧式数据的神经网络模型引入了一种简单且性能良好的分层传播规则,并展示了如何从谱图卷积的一阶近似中来激发它
其次,演示了这种形式的基于图的神经网络模型如何用于快速和可扩展的图中节点的半监督分类
论文考虑在具有对称邻接矩阵A(二元或加权)的图上使用两层GCN来进行半监督节点分类,在预训练步骤先计算(注意叠加多层时,该值是不变的,可理解为共享):
A ^ = D ~ − 1 2 A ~ D ~ − 1 2 \begin{equation} \hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} \end{equation} A^=D~−21A~D~−21
模型表示为:
Z = f ( X , A ) = softmax ( A ^ ReLU ( A ^ X W ( 0 ) ) W ( 1 ) ) \begin{equation} Z=f(X, A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right) \end{equation} Z=f(X,A)=softmax(A^ReLU(A^XW(0))W(1))
上述公式中:W0(C * H)为输入层到隐藏层的参数矩阵,C为输入通道数(即每个节点的特征向量维度),有H个feature maps,W1(H * F)为隐藏层到输出层的参数矩阵,其中F可理解为类别个数,这两个W都是模型需要进行学习的。卷积结果为Z(N * F)
两层GCN模型图示:
训练模型的损失函数:
以row-wise(按行)进行Softmax,softmax(xi) = 1/z * exp(xi),exp(xi)可理解为某个类别的logits,z是所有类别的logits,那么损失函数可以表达为:
L = − ∑ l ∈ Y L ∑ f = 1 F Y l f ln Z l f \begin{equation} \mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f} \end{equation} L=−l∈YL∑f=1∑FYlflnZlf
其实就是多分类上的交叉熵,yL为带标签的节点集合,l表示卷积的隐藏层个数
论文采用以下实验来测试所提出的模型:引文网络中的半监督文档分类、从知识图谱中提取的二部图中的半监督实体分类、各种图传播模型的评估和随机图的运行时效分析
上表中展示了每个数据集的节点数量、边的数量、类别数、特征维度、带标签节点占比
**Citation networks:**该类型共有三个数据集:Citeseer、Cora、Pubmed。数据集包含每个文档的稀疏词袋特征向量和文档之间的引用链接列表。将每篇文档视为节点,文档间的引用链接视为无向边,其中每篇文档都有类的标签。对于训练,每一个类只使用20个标签,但使用所有的特征向量
**NELL:**NELL是从引入的知识图谱中提取的数据集。知识图谱由一组实体,用有向的、有标记的边(关系)连接起来。实体节点用稀疏特征向量描述:通过为每个关系节点分配一个唯一的 one-hot 表示来扩展NELL中的特征数量,有效地得到每个节点61278-dim的稀疏特征向量。这里的半监督任务考虑的是训练集中每个类只有一个标记示例的极端情况。
**Random Graphs:**论文中通过模拟各种大小的随机图数据集,用于测量每个epoch的训练时间。对于具有N个节点的数据集,我们创建一个随机图,均匀随机分配2N条边。我们将单位矩阵IN作为输入特征矩阵X,从而隐式地采用一种无特征的方法,其中模型只被告知每个节点的标识,由唯一的one-hot向量指定,并且为每个节点添加虚拟标签Yi = 1。
分别比较了ManiReg、SemiEmb、LP、DeepWalk、ICA、Planetoid这些方法。这些方法在这四个数据集上的结果是直接从Planetoid这篇论文中搬过来的(该篇论文中,Planetoid是在各个数据集上表现最好的模型)
ManiReg、SemiEmb、LP、DeepWalk、ICA的结果是直接从Planetoid这篇论文中搬过来的( (Yang et al., 2016))
论文还比较了文中提出模型的不同变体在citation network数据集上的精度(用随机权重矩阵初始化的100次重复运行的平均分类精度)
其中Θ表示卷积参数矩阵,在每层有多个变量Θi的情况下,则对第一层的所有权重矩阵施加L2正则化
论文还记录了随机图上100个epoch的每个epoch平均训练时间
标记表示5倍交叉验证的平均分类精度(训练vs.测试)。阴影区域表示标准误差。论文展示了标准GCN模型(虚线)和隐藏层(实线)之间添加残差连接的模型的结果。
结论:对于论文中使用的数据集,最好的结果是用2层或3层的模型。此外,随着模型深度的增加,过拟合也可能成为一个问题。
论文提出了一种针对图结构数据的半监督分类的新方法。文中提出的GCN模型使用了一种高效的分层传播规则,该规则基于图上谱卷积的一阶近似。在大量网络数据集上的实验表明,论文所提出的GCN模型能够以一种对半监督分类有用的方式对图结构和节点特征进行编码。在这种情况下,该模型在计算效率高的同时,显著优于最近提出的几种方法。
CN模型使用了一种高效的分层传播规则,该规则基于图上谱卷积的一阶近似。在大量网络数据集上的实验表明,论文所提出的GCN模型能够以一种对半监督分类有用的方式对图结构和节点特征进行编码。在这种情况下,该模型在计算效率高的同时,显著优于最近提出的几种方法。