[解读] Semi-Supervised Classification with Graph Convolutional Networks

作者受到谱图卷积的局部一阶近似的启发, 提出一种可扩展的图卷积网络, 可用于具有图结构数据的半监督学习.

论文链接: https://arxiv.org/abs/1609.02907v4

相关工作

本文考虑节点分类的半监督问题, 即所有节点中只有一部分的标签是已知的. (Zhu et al., 2003; Zhou et al., 2004; Belkin et al.,2006; Weston et al., 2012) 等提出的方法, 标签信息通过某种显式的正则化基于图的正则化项来表达, 并且标签 信息是连续的. 例如在损失函数中使用一个图拉普拉斯正则化项:
L = L 0 + λ L r e g ,  with  L r e g = ∑ i , j A i j ∥ f ( X i ) − f ( X j ) ∥ 2 = f ( X ) ⊤ Δ f ( X ) \mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}}, \quad \text { with } \quad \mathcal{L}_{\mathrm{reg}}=\sum_{i, j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X) L=L0+λLreg, with Lreg=i,jAijf(Xi)f(Xj)2=f(X)Δf(X)
具体解释请参考原文. 作者指出, 这个损失函数依赖于一个假设, 即图中相连接的节点差不多具有相同的标签. 此假设可能会限制模型的表达能力, 因为图的边不一定需要编码点之间的相似性, 而可能包含其他信息.

本文的的方法基于 Bruna et al. (2014) 提出的谱图卷积神经网络. 后来由 Defferrard et al. (2016) 扩展为快速局部卷积. 与这些工作不同的是本文考虑在大规模网络节点的分类任务.

本文方法

本文提出一种多层的图卷积网络 (GCN), 按层的传播法则如下:
H ( l + 1 ) = σ ( D ~ − 1 2 A ~ D ~ − 1 2 H ( l ) W ( l ) ) , H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right), H(l+1)=σ(D~21A~D~21H(l)W(l)),
其中 A ~ = A + I N \tilde{A}=A+I_{N} A~=A+IN 是无向图 G \mathcal{G} G 的带有自连接的邻接矩阵, D ~ i i = ∑ j A ~ i j \tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j} D~ii=jA~ij 是节点的度, W ( l ) W^{(l)} W(l) 是可训练的权重矩阵, σ \sigma σ 是激活函数.

下面考虑半监督学习的情形. 在训练之前, 可以先计算出 A ^ = D ~ − 1 2 A ~ D ~ − 1 2 \hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} A^=D~21A~D~21, 于是一个两层的模型可以表达为
Z = f ( X , A ) = softmax ⁡ ( A ^ ReLU ⁡ ( A ^ X W ( 0 ) ) W ( 1 ) ) . Z=f(X, A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right). Z=f(X,A)=softmax(A^ReLU(A^XW(0))W(1)).
输入层权重矩阵 W ( 0 ) ∈ R C × H W^{(0)} \in \mathbb{R}^{C \times H} W(0)RC×H, 输出层权重矩阵 W ( 1 ) ∈ R H × F W^{(1)} \in \mathbb{R}^{H \times F} W(1)RH×F.

对于所有带标签的样本, 定义其交叉熵损失函数为
L = − ∑ l ∈ Y L ∑ f = 1 F Y l f ln ⁡ Z l f . \mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f}. L=lYLf=1FYlflnZlf.
Y L \mathcal{Y}_{L} YL 是所有带标签节点的索引集合, Y Y Y 即是真实标签, Z Z Z 是网络输出. 经过训练后, 便可以得到无标签节点的标签.

参考

Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in neural information processing systems (NIPS), 2016.

你可能感兴趣的:(机器学习)