《基于图卷积网络的半监督分类》阅读笔记

《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》

该文于2017发表于 ICLR 会议
作者:Max Welling、Thomas N. Kipf
机构:阿姆斯特丹大学

基于图卷积网络的半监督分类目录

    • 《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》
      • ABSTRACT
    • 1.introduction
    • 2.FAST APPROXIMATE CONVOLUTIONS ON GRAPHS
      • 2.1SPECTRAL GRAPH CONVOLUTIONS
      • 2.2LAYER-WISE LINEAR MODEL
    • 3 SEMI-SUPERVISED NODE CLASSIFICATION
      • 3.1 EXAMPLE
      • 3.2 IMPLEMENTATION
    • 4 RELATED WORK
      • 4.1 GRAPH-BASED SEMI-SUPERVISED LEARNING
      • 4.2 NEURAL NETWORKS ON GRAPHS
    • 5 EXPERIMENTS
      • 5.1 DATASETS
      • 5.2 EXPERIMENTAL SET-UP
      • 5.3 BASELINES
    • 6 RESULTS
      • 6.1 SEMI-SUPERVISED NODE CLASSIFICATION
      • 6.2 EVALUATION OF PROPAGATION MODEL
    • 7 DISCUSSION
      • 7.1 SEMI-SUPERVISED MODEL
    • #7.2 LIMITATIONS AND FUTURE WORK
    • 8 CONCLUSION

ABSTRACT

我们提出了一种可扩展的基于图结构数据的半监督学习方法,该方法基于卷积神经网络的一种有效变体,该网络直接在图上操作。我们通过谱图卷积的局域一阶近似来激励我们的卷积结构的选择。我们的模型在图的边数中线性缩放,并学习同时编码局部图结构和节点特征的隐含层表示。在引文网络和知识图数据集上的大量实验中,我们证明了我们的方法比相关方法有很大的优势。

1.introduction

我们考虑对图(如引文网络)中的节点(如文档)进行分类的问题,其中标签只对一小部分节点可用。该问题可以被框架为基于图的半监督学习,其中通过某种显示的基于图的正则化在图上平滑标签信息,例如通过在损失函数中使用图拉普拉斯正则化项:
L = L 0 + λ L r e g \mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}} L=L0+λLreg L r e g = ∑ i j A i j ∥ f ( X i ) − f ( X j ) ∥ 2 = f ( X ) ⊤ Δ f ( X ) ( 1 ) \mathcal{L}_{\mathrm{reg}}=\sum_{i j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X) (1) Lreg=ijAijf(Xi)f(Xj)2=f(X)Δf(X)1
L 0 \mathcal{L}_{0} L0:表示有监督的损失;
f ( ⋅ ) f(\cdot) f():神经网络中的可微函数;
λ:权重因子;
X X X:Xi节点特征向量矩阵;
∆=D−A:G的为归一化拉普拉斯矩阵;
A ∈ R N × N A \in \mathbb{R}^{N \times N} ARN×N:邻接矩阵;
⁡ D i i = ∑ j A i j \operatorname{ } D_{i i}=\sum_{j} A_{i j} Dii=jAij:度矩阵;

等式(1)依赖于图中连接的节点可能共享相同标签的假设。然而,该假设可能会限制建模能力,因为图的边不一定需要编码节点相似性,但可以包含附加信息。

在这项工作中,我们直接使用神经网络模型 f ( X , A ) f(X, A) f(X,A)对图结构进行编码,并针对所有有标签的节点在监督目标 L 0 \mathcal{L}_{0} L0上进行训练,从而避免显式地对基于图的损失函数进行正则化计算。在图的邻接矩阵上调节 f ( ⋅ ) f(\cdot) f()将允许模型从监督损失 L 0 \mathcal{L}_{0} L0中分开梯度信息,并且将使其能够学习具有和不具有标签的节点的表示。

我们的贡献是双重的。首先,我们介绍了一种简单且行为良好的神经网络模型的分层传播规则,该规则直接在图上操作,并展示了如何从谱图卷积的一阶近似中激励它(Hammond等人,2011年)。其次,我们演示了这种形式的基于图的神经网络模型如何用于对图中的节点进行快速且可伸缩的半监督分类。在大量数据集上的实验表明,我们的模型在时间效率上都优于现有最先进的半监督学习方法。

2.FAST APPROXIMATE CONVOLUTIONS ON GRAPHS

在这一部分,我们提供了一个特定的基于图的神经网络模型f(X,A)的理论动机,我们将在本文的其余部分使用该模型。我们考虑多层图卷积网络(GCN)具有以下分层传播规则:
H ( l + 1 ) = σ ( D ~ − 1 2 A ~ D ~ − 1 2 H ( l ) W ( l ) ) (2) H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right) \tag2 H(l+1)=σ(D~21A~D~21H(l)W(l))(2)

A ~ = A + I N \tilde{A}=A+I_{N} A~=A+IN
A ~ \tilde{A} A~:邻接矩阵的逆;
I N I_{N} IN:单位矩阵;
D ˉ i i ≡ ∑ j A ⃗ i j \bar{D}_{i i} \equiv \sum_{j} \vec{A}_{i j} DˉiijA ij:度矩阵;
W ( l ) W^{(l)} W(l):特定层的可训练权重矩阵;
σ ( ⋅ ) \sigma(\cdot) σ():激活函数;
H ( l ) ∈ R N × D H^{(l)} \in \mathbb{R}^{N \times D} H(l)RN×D:L层 中的激活矩阵;其中 H ( 0 ) = X H^{(0)}=X H(0)=X
在下文中,我们证明了该传播规则的形式可以通过图上的局域谱滤波的一阶近似来激发。

2.1SPECTRAL GRAPH CONVOLUTIONS

我们考虑在图上的谱卷积定义为信号 x ∈ R N x \in \mathbb{R}^{N} xRN与滤波器 g θ = diag ⁡ ( θ ) g_{\theta}=\operatorname{diag}(\theta) gθ=diag(θ)在傅立叶域中的乘积的:
g θ ⋆ x = U g θ U ⊤ x (3) g_{\theta} \star x=U g_{\theta} U^{\top} x\tag3 gθx=UgθUx(3)
x:每个节点的标量;
θ ∈ R N \theta \in \mathbb{R}^{N} θRN:参数;
U U U:归一化图Laplacian的特征向量矩阵;
L = I N − D − 1 2 A D − 1 2 = U Λ U ⊤ L=I_{N}-D^{-\frac{1}{2}} A D^{-\frac{1}{2}}=U \Lambda U^{\top} L=IND21AD21=UΛU
Λ \Lambda Λ:特征值的对角矩阵
U T x U^{T} x UTx:x的图傅里叶变换。
我们可以将 g θ g_{\theta} gθ理解为一个关于L特征值的函数,例如gθ(Λ)。公式(3)的计算是昂贵的,因为和特征向量矩阵 U U U相乘的复杂度为 O ( N 2 ) O(N^2) O(N2)。此外,对于大型图来说,首先计算L的特征分解可能是昂贵得令人望而却步的。为了规避这个问题,Hammond等人提出了这一建议。(2011年)gθ(Λ)可以通过切比雪夫多项式Tk(X)的截断展开来很好地近似,直到第k阶:
g θ ′ ( Λ ) ≈ ∑ k = 0 K θ k ′ T k ( Λ ~ ) (4) g_{\theta^{\prime}}(\Lambda) \approx \sum_{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{\Lambda})\tag4 gθ(Λ)k=0KθkTk(Λ~)(4)

Λ ~ = 2 λ max ⁡ Λ − I N \tilde{\Lambda}=\frac{2}{\lambda_{\max }} \Lambda-I_{N} Λ~=λmax2ΛIN

λ max ⁡ \lambda_{\max } λmax: 表示 L L L的最大特征值;
θ ′ ∈ R K \theta^{\prime} \in \mathbb{R}^{K} θRK:是一个切比雪夫系数向量;
切比雪夫多项式递归地定义为:
T k ( x ) = 2 x T k − 1 ( x ) − T k − 2 ( x ) T_{k}(x)=2 x T_{k-1}(x)-T_{k-2}(x) Tk(x)=2xTk1(x)Tk2(x)并且满足初始条件 T 0 ( x ) = 1 T_{0}(x)=1 T0(x)=1 T 1 ( x ) = x T_{1}(x)=x T1(x)=x。回到我们对信号 x x x与滤波器 g θ gθ gθ的卷积的定义,我们现在具有:
g θ ′ ⋆ x ≈ ∑ k = 0 K θ k ′ T k ( L ~ ) x (5) g_{\theta^{\prime}} \star x \approx \sum_{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{L}) x\tag5 gθxk=0KθkTk(L~)x(5)
其中的 L ~ = 2 λ max ⁡ L − I N \widetilde{L}=\frac{2}{\lambda_{\max }} L-I_{N} L =λmax2LIN,并且可以得证 ( U ∧ U T ) k = U ∧ k U T \left(U \wedge U^{T}\right)^{k}=U \wedge^{k} U^{T} (UUT)k=UkUT.注意,该表达式现在是K局部化的,因为它是拉普拉斯中的第k阶多项式,即它仅依赖于距离中心节点(第k阶邻域)最大K步的节点。
计算公式5所用到的时间复杂度为 O ( ∣ E ∣ ) \mathcal{O}(|\mathcal{E}|) O(E),也就是说和边的数量是线性关系。

2.2LAYER-WISE LINEAR MODEL

因此,可以通过(5)公式的多层堆叠来建立基于图卷积的神经网络模型。,每一层后面都有一个逐点非线性。现在,假设我们将分层卷积运算限制为K=1(参见公式)。5),即线性的w.r.t.函数。L,因此是图的拉普拉斯谱上的线性函数。
即一个线性的w.r.t.; L的函数,因此是图拉普拉斯谱上的一个线性函数。

以这种方式,我们仍然可以通过堆叠多个这样的层来恢复丰富的卷积滤波函数类,但我们不限于由例如切比雪夫多项式给出的显式参数化。我们直观地期望这种模型可以缓解具有非常广泛的节点度分布的图的局部邻域结构过度拟合的问题,例如社会网络、引文网络、知识图和许多其他现实世界的图数据集。此外,对于固定的计算预算,这种分层线性公式允许我们建立更深层次的模型,这一做法已知可以提高一些领域的建模能力(他等人,2016年)。

我们进一步近似λmax≈2,因为我们可以预期神经网络参数将在训练期间适应这种规模的变化。在这些近似下,公式5简化为:
g θ ′ ⋆ x ≈ θ 0 ′ x + θ 1 ′ ( L − I N ) x = θ 0 ′ x − θ 1 ′ D − 1 2 A D − 1 2 x (6) g_{\theta^{\prime}} \star x \approx \theta_{0}^{\prime} x+\theta_{1}^{\prime}\left(L-I_{N}\right) x=\theta_{0}^{\prime} x-\theta_{1}^{\prime} D^{-\frac{1}{2}} A D^{-\frac{1}{2}} x \tag6 gθxθ0x+θ1(LIN)x=θ0xθ1D21AD21x(6)

有两个自由参数 θ 0 θ0 θ0 θ 1 θ1 θ1。过滤器参数可以在整个图上共享。然后,连续应用这种形式的滤波器有效地卷积节点的第k阶邻域,其中k是神经网络模型中连续滤波操作或卷积层的数目。

在实践中,进一步限制参数的数量以解决过度拟合问题并最小化每层的运算数量(例如矩阵乘法)可能是有益的。这就给我们留下了以下表达式:
g θ ⋆ x ≈ θ ( I N + D − 1 2 A D − 1 2 ) x (7) g_{\theta} \star x \approx \theta\left(I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) x\tag7 gθxθ(IN+D21AD21)x(7)

使用单个参数 θ = θ 0 = − θ 1 θ=θ0=−θ1 θ=θ0=θ1
请注意, I N + D − 1 2 A D − 1 2 I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}} IN+D21AD21的特征值在[0,2]范围内。因此,当在深度神经网络模型中使用该算子时,重复应用该算子可能导致数值不稳定性和爆炸/消失梯度。为了解决这一问题,我们引入了再归一化技巧:
I N + D − 1 2 A D − 1 2 → D ~ − 1 2 A ~ D ~ − 1 2 I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \rightarrow \widetilde{D}^{-\frac{1}{2}} \widetilde{A} \widetilde{D}^{-\frac{1}{2}} IN+D21AD21D 21A D 21
A ~ = A + I N \widetilde{A}=A+I_{N} A =A+IN and D ~ i i = ∑ j A ~ i j \widetilde{D}_{i i}=\sum_{j} \widetilde{A}_{i j} D ii=jA ij
我们可以将该定义推广到输入信号 X ∈ R N × C X \in \mathbb{R}^{N \times C} XRN×C具有C个输入通道(即,每个节点的C维特征向量)F维滤波器的特征映射,如下所示:
Z = D ~ − 1 2 A ~ D ~ − 1 2 X Θ (8) Z=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} X \Theta\tag8 Z=D~21A~D~21XΘ(8) Θ ∈ R C × F \Theta \in \mathbb{R}^{C \times F} ΘRC×F:滤波器参数矩阵;
Z ∈ R N × F Z \in \mathbb{R}^{N \times F} ZRN×F:卷积信号矩阵;
这个滤波计算的复杂度是 O ( ∣ ϵ ∣ F C ) O(|\epsilon|FC) O(ϵFC),这样可以有效实现 A ~ X \widetilde{A}X A X稠密矩阵和稀疏矩阵的乘积操作。

3 SEMI-SUPERVISED NODE CLASSIFICATION

在介绍了一个简单而灵活的模型 f ( X , A ) f(X, A) f(X,A)用于图上的有效信息传播之后,我们可以回到半监督节点分类问题上来。如导言中所述,通过将我们的模型 f ( X , A ) f(X, A) f(X,A)限制在数据X和底层图结构的邻接矩阵 A A A上,我们可以放松在基于图的半监督学习中通常做出的某些假设。我们期望该设置在邻接矩阵包含数据X中不存在的信息(例如引文网络中的文档之间的引文链接或知识图中的关系)的情况下特别强大。总体模型,用于半监督学习的多层GCN,如图1所示。在介绍了一个简单而灵活的模型 f ( X , A ) f(X, A) f(X,A)用于图上的有效信息传播之后,我们可以回到半监督节点分类问题上来。如导言中所述,通过将我们的模型 f ( X , A ) f(X, A) f(X,A)限制在数据X和底层图结构的邻接矩阵 A A A上,我们可以放松在基于图的半监督学习中通常做出的某些假设。我们期望该设置在邻接矩阵包含数据 X X X中不存在的信息(例如引文网络中的文档之间的引文链接或知识图中的关系)的情况下特别强大。总体模型,用于半监督学习的多层GCN,如图1所示。
《基于图卷积网络的半监督分类》阅读笔记_第1张图片
图1:左:用于半监督学习的多层图形卷积网络(GCN)示意图,输入C个通道输出有和F个特征映射。图的结构(边用黑线表示)在层间共享,标签用 Y i Yi Yi表示。右:T-SNE(Maten&Hinton,2008)使用5%的标签对在CORA数据集上训练的两层GCN的隐藏层激活进行可视化(Sen等人,2008年)。颜色表示文档类。

3.1 EXAMPLE

在下文中,我们考虑了具有对称邻接矩阵A(二进制或权重矩阵)的图上的半监督节点分类的两层GCN。我们首先在预处理步骤中计算 A ^ = D ~ − 1 2 A ~ D ~ − 1 2 \hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} A^=D~21A~D~21。然后,我们的预期模型采用简单的形式: Z = f ( X , A ) = softmax ⁡ ( A ^ ReLU ⁡ ( A ^ X W ( 0 ) ) W ( 1 ) ) (9) Z=f(X, A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right)\tag9 Z=f(X,A)=softmax(A^ReLU(A^XW(0))W(1))(9)

这里, W ( 0 ) ∈ R C × H W^{(0)} \in \mathbb{R}^{C \times H} W(0)RC×H是具有H个特征映射的隐藏层的输入到隐藏权重矩阵。 W ( 1 ) ∈ R H × F W^{(1)} \in \mathbb{R}^{H \times F} W(1)RH×F是隐藏到输出权矩阵。按行应用定义激活函数为 softmax ⁡ ( x i ) = 1 z exp ⁡ ( x i ) \operatorname{softmax}\left(x_{i}\right)=\frac{1}{z} \exp \left(x_{i}\right) softmax(xi)=z1exp(xi) with Z = ∑ i exp ⁡ ( x i ) \mathcal{Z}=\sum_{i} \exp \left(x_{i}\right) Z=iexp(xi),对于半监督多类分类,我们然后评估所有标记样本的交叉熵误差: L = − ∑ l ∈ Y L ∑ f = 1 F Y l f ln ⁡ Z l f (10) \mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f}\tag{10} L=lYLf=1FYlflnZlf(10)其中 Y L YL YL是具有标签的节点索引的集合。

神经网络权值 W ( 0 ) W(0) W(0) W ( 1 ) W(1) W(1)采用梯度下降法进行训练。在这项工作中,我们使用每个训练迭代的完整数据集进行批量梯度下降,这是一个可行的选择,只要数据集可以放在内存中。使用A的稀疏表示,存储器要求是 O ( ∣ E ∣ ) O(|E|) O(E),即边的数量是线性的。训练过程中的随机性是通过 d r o p o u t dropout dropout引入的(Sriastava等人,2014年)。我们将小批量随机梯度下降算法应用到内存效率较高的扩展算法中,以备将来的工作使用。

3.2 IMPLEMENTATION

在实践中,我们基于公式9,利用TensorFlow(Abadi等人,2015年)来实现高效的基于GPU实现稀疏-密集矩阵乘法。等式9计算复杂度 O ( ∣ E ∣ C H F ) O(|E|CHF) O(ECHF),即图的边数是线性的。

4 RELATED WORK

我们的模型既从基于图的半监督学习领域获得灵感,也从最近在图上操作的神经网络方面的工作中获得灵感。在接下来的内容中,我们将简要概述这两个领域的相关工作。

4.1 GRAPH-BASED SEMI-SUPERVISED LEARNING

近年来,已经提出了大量的基于图表示的半监督学习方法,其中大部分可分为两大类:使用某种形式的显式图Laplacian正则化的方法和基于图嵌入的方法。图Laplacian正则化的突出例子包括标签传播(朱等人,2003年)、流形正则化(Belkin等人,2006年)和深度半监督嵌入(Weston等人,2012年)。

最近,人们的注意力已经转移到用受跳过语法模型启发的方法学习图嵌入的模型上(Mikolov等人,2013年)。DeepWalk(Perozzi等人,2014)通过预测从图上的随机行走中采样的节点的局部邻域来学习嵌入。Line(Don等人,2015)和node2vec(Grover&Leskovec,2016)用更复杂的随机行走或广度优先搜索方案扩展了DeepWalk。然而,对于所有这些方法,需要包括随机游动生成和半监督训练的多步骤流水线,其中每个步骤都必须单独优化。Planetoid(Yang等人,2016)通过在学习嵌入的过程中注入标签信息来缓解这一问题。

4.2 NEURAL NETWORKS ON GRAPHS

在Gori等人之前已经介绍了在图上操作的神经网络。(2005);Scarselli等人。(2009)作为递归神经网络的一种形式。它们的框架要求重复应用压缩映射作为传播函数,直到节点表示达到稳定的固定点。这一限制后来在Li等人中得到了缓解。(2016)将递归神经网络训练的现代实践引入原有的图形神经网络框架。Duvenaud等人。(2015)在图上引入了一种类似卷积的传播规则和图级分类的方法。他们的方法需要学习特定节点度的权重矩阵,这不适用于具有广泛节点度分布的大型图。相反,我们的模型每层使用单个权重矩阵,并通过邻接矩阵的适当归一化来处理不同的节点度(参见3.1节)。

最近在Atwood&Towsley(2016)中引入了一种基于图的神经网络的相关节点分类方法。他们报告了O(N2)复杂度,限制了可能的应用范围。在一个不同但相关的模型中,Niepert等人。(2016)将图在本地转换为序列,这些序列被馈送到传统的1D卷积神经网络,这需要在预处理步骤中定义节点排序。

我们的方法是基于Bruna等人介绍的谱图卷积神经网络。(2014),后来由Defferrard等人延长。(2016)具有快速局部化卷积。与这些工作不同的是,我们在这里考虑的是规模明显更大的网络中的传导节点分类任务。我们表明,在这种情况下,可以将一些简化(参见第2.2节)引入Bruna等人的原始框架。(2014)和Defferrard等人。(2016),提高了大规模网络中的可扩展性和分类性能。

5 EXPERIMENTS

我们在一系列实验中对我们的模型进行了测试:引文网络中的半监督文档分类,从知识图中提取的二部图中的半监督实体分类,各种图传播模型的评估,以及对随机图的运行时分析。

5.1 DATASETS

我们密切关注杨等人的实验装置。(2016年)。表1汇总了数据集统计数据。在引文网络数据集-Citeseer、Cora和Pubmed(Sen等人,2008年)中,节点是文档,边是引文链接。标签率表示用于训练的标记节点的数量除以每个数据集中的节点总数。Nell(Carlson等人,2010年;Yang等人,2016)是从具有55,864个关系节点和9,891个实体节点的知识图中提取的二部图数据集。
《基于图卷积网络的半监督分类》阅读笔记_第2张图片
Citation networks我们考虑三个引用网络数据集:Citeseer,Cora和Pubmed(Sen等人,2008年)。数据集包含每个文档的稀疏词袋特征向量和文档之间的引用链接列表。我们将引文链接视为(无向)边,并构造一个二进制对称邻接矩阵A。每个文档都有一个类标签。对于训练,我们每类只使用20个标签,但是所有的特征向量。
NELL
Nell是从(Carlson等人,2010年)中介绍的知识图中提取的数据集。知识图是一组由有向的、标记的边(关系)连接的实体。我们遵循Yang等人描述的预处理方案。(2016年)。我们为每个实体对(e1,r,e2)分配单独的关系节点r1和r2作为(e1,r1)和(e2,r2)。实体节点采用稀疏特征向量描述。我们通过为每个关系节点分配唯一的一热表示来扩展NELL中的特征数量,从而有效地得到每个节点61,278维的稀疏特征向量。这里的半监督任务考虑了训练集中每个类只有一个标记样本的极端情况。如果节点i和j之间存在一条或多条边,则通过设置条目aij=1,我们从该图构造二进制对称邻接矩阵。
Random graphs我们模拟不同大小的随机图数据集进行实验,其中我们测量每个历元的训练时间。对于一个有N个节点的数据集,我们创建一个随机图,随机分配 2 N 2N 2N条边。我们将单位矩阵 I n In In作为输入特征矩阵 X X X,从而隐含地采取无特征的方法,其中模型仅被告知由唯一的一个热点向量指定的每个节点的身份。我们为每个节点添加伪标签 Y i = 1 Yi=1 Yi=1

5.2 EXPERIMENTAL SET-UP

除非另有说明,否则我们按照3.1节中的描述训练一个双层GCN,并在1,000个标签示例的测试集上评估预测准确性。在附录B中,我们使用最多10层的深度模型提供了额外的实验。我们采用与Yang等人相同的数据集分割。(2016)以及用于超参数优化的500个标签示例的附加验证集(所有层的丢失率、第一个GCN层的L2正则化因子和隐藏单元的数量)。我们不使用验证集标签进行训练。

对于引文网络数据集,我们仅在CORA上优化超参数,并对Citeseer和Pubmed使用相同的参数集。我们使用Adam(Kingma&Ba,2015)以0.01的学习率训练所有模型最多200个历元(训练迭代),并以10的窗口大小提前停止,即如果验证损失连续10个历元没有减少,我们就停止训练。我们使用Glorot&Bengio(2010)中描述的初始化来初始化权重,并相应地(行)归一化输入特征向量。在随机图数据集上,我们使用32个单元的隐藏层大小,并省略了正则化(即既不丢弃也不使用L2正则化)。

5.3 BASELINES

我们与Yang等人相同的基线方法进行了比较。(2016),即标签传播(LP)(朱等人,2003)、半监督嵌入(SemiEmb)(Weston等人,2012)、流形正则化(ManiReg)(Belkin等人,2006年)和基于跳跃文法的图嵌入(DeepWalk)(Perozzi等人,2014)。我们省略了TSVM(Joachims,1999),因为它不能扩展到我们数据集中的大量类。

我们进一步与Lu>oor(2003)提出的迭代分类算法(ICA)结合两个Logistic回归分类器进行了比较,一个分类器仅用于局部节点特征,另一个用于使用局部特征和聚集算子的关系分类,如Sen等人所述。(2008年)。我们首先使用所有有标签的训练集节点来训练局部分类器,并使用它来引导未标签节点的类标签用于关系分类器的训练。我们使用随机节点排序在所有未标记的节点上运行迭代分类(关系分类器)10次迭代(使用本地分类器进行引导)。L2正则化参数和聚合运算符(分别计数与属性.

最后,我们与Planetoid(Yang等人,2016)进行了比较,在那里我们总是选择它们表现最好的模型变体(传导式与感应式)作为基线。

6 RESULTS

6.1 SEMI-SUPERVISED NODE CLASSIFICATION

结果汇总在表2中。报告的数字以百分比表示分类准确率。对于ICA,我们报告了随机节点排序下100次运行的平均精度。所有其他基线方法的结果取自行星状论文(Yang等人,2016年)。PLAETOID*表示在他们的论文中提出的各种变种中,适用于各个数据集的最佳模型。
《基于图卷积网络的半监督分类》阅读笔记_第3张图片
对于我们的方法,我们进一步报告直到收敛(在括号中)的训练时间(以秒为单位。后来,我们使用了作者提供的实现3,并在与我们的GCN模型相同的硬件(使用GPU)上进行了培训。我们在与Yang等人相同的数据集拆分上训练和测试了我们的模型。(2016),并报告随机权重初始化的100次运行的平均准确率。对于Citeseer、CORA和PUBMED,我们使用了以下超参数集:0.5(丢失率)、5·10−4(L2正则化)和16(隐藏单元数);对于NEL:0.1(丢失率)、1·10−5(L2正则化)和64(隐藏单元数)。

此外,我们报告了我们的模型在10个随机抽取的数据集分割上的性能,这些数据集的大小与Yang等人的相同。(2016),由GCN(rand.。拆分)。在这里,我们报告测试集上预测精度的平均误差和标准误差(以百分比表示)。

6.2 EVALUATION OF PROPAGATION MODEL

我们在引文网络数据集上比较了我们提出的逐层传播模型的不同变体。我们遵循上一节中描述的实验设置。表3总结了结果。我们原始GCN模型的传播模型由重整化技巧(粗体)表示。在所有其他情况下,两个神经网络层的传播模型都将替换为传播模型下指定的模型。报告的数字表示具有随机权重矩阵初始化的100次重复运行的平均分类精度。在多变量 Θ I ΘI ΘI层的情况下,我们对第一层的所有权重矩阵进行L2正则化。
《基于图卷积网络的半监督分类》阅读笔记_第4张图片
这里,我们在模拟随机图上报告100个epoch的每个epoch的平均训练时间(前向传递、交叉熵计算、反向传递)的结果,以秒钟时间衡量。有关这些实验中使用的随机图形数据集的详细说明,请参见第5.1节。我们比较了在GPU和仅在CPU实现4in TensorFlow上的结果(Abadi等人,2015年)。图2总结了结果
《基于图卷积网络的半监督分类》阅读笔记_第5张图片

7 DISCUSSION

7.1 SEMI-SUPERVISED MODEL

在本文的实验中,我们的半监督节点分类方法的性能明显优于目前的相关方法。基于图-拉普拉斯正则化的方法(朱等人,2003;Belkin等人,2006;Weston等人,2012)最有可能受到限制,因为它们假设边仅仅编码节点的相似性。另一方面,基于跳图的方法由于其基于多步流水线的事实而受到限制,该流水线很难优化。我们提出的模型可以克服这两个限制,同时在效率(以挂钟时间衡量)方面仍优于相关方法。与仅聚集标签信息的ICA(Lu>oor,2003)等方法相比,来自每一层中相邻节点的特征信息的传播提高了分类性能。

我们进一步证明了所提出的重整化传播模型(Eq.。8)提供了更高的效率(更少的参数和运算,例如乘法或加法)和对许多数据集的更好的预测性能(与NA?ıve一阶模型(Eq.。6)或使用切比雪夫多项式(等式)的高阶图卷积模型。5)。

#7.2 LIMITATIONS AND FUTURE WORK

在这里,我们描述了我们当前模型的几个限制,并概述了在未来的工作中如何克服这些限制。

内存需求在当前设置中,随着整批梯度下降,内存需求随着数据集的大小线性增长。我们已经证明,对于GPU内存无法容纳的大型图形,在CPU上进行培训仍然是一个可行的选择。小批量随机梯度下降可以缓解这一问题。然而,生成小批量的过程应该考虑GCN模型中的层数,因为具有K层的GCN的第k阶邻域必须存储在存储器中以用于精确的过程。对于非常大且紧密连接的图形数据集,可能需要进一步的近似。

有向边和边特征我们的框架目前不自然地支持边特征,并且仅限于无向图(加权或未加权)。然而,在Nell上的结果表明,通过将原始有向图表示为具有表示原始图中的边的附加节点的无向二部图,可以同时处理有向边和边特征(有关详细信息,请参见5.1节)。

通过第2节中介绍的近似来限制假设,我们隐含地假设局部性(对于具有K层的GCN,依赖于第k阶邻域)以及自连接与相邻节点的边同等重要。但是,对于某些数据集,在λA的定义中引入折衷参数˜可能是有益的:

A ~ = A + λ I N \tilde{A}=A+\lambda I_{N} A~=A+λIN
此参数现在的作用类似于典型半监督设置中监督和非监督损失之间的权衡参数(参见公式)。1)。然而,在这里,它可以通过梯度下降来学习。

8 CONCLUSION

介绍了一种新的基于图结构数据的半监督分类方法。我们的GCN模型使用了一种有效的分层传播规则,该规则基于图上谱卷积的一阶近似。在大量网络数据集上的实验表明,提出的GCN模型能够同时对图结构和节点特征进行编码,对半监督分类是有用的。在这种情况下,我们的模型比最近提出的几种方法有很大的优势,同时在计算上是有效的。

你可能感兴趣的:(神经网络,卷积,算法,python,深度学习)