《Simple and Deep Graph Convolutional Networks》--论文阅读笔记

《Simple and Deep Graph Convolutional Networks》

简单和深度图卷积网络目录

    • 《Simple and Deep Graph Convolutional Networks》
    • Abstract
    • 1. Introduction
    • 2. Preliminaries
    • 3. GCNII Model
    • 4. Spectral Analysis
      • 4.1. Spectral analysis of multi-layer GCN.
      • 4.2. Spectral analysis of GCNII
    • 5. Other Related Work
    • 6. Experiments
      • 6.1. Semi-supervised Node Classification
      • 6.2. Full-Supervised Node Classification
    • 6.3. Inductive Learning
    • 6.4. Over-Smoothing Analysis for GCN
    • 6.5. Ablation Study
    • 7. Conclusion

作者:魏哲巍、Ming Chen、Zengfeng Huang、Bolin Ding、Yaliang Li
时间:2020年 ICML
篇幅:11页
魏老师简介:http://www.weizhewei.com/

Abstract

图卷积网络(GCNS)是一种强大的图结构数据深度学习方法。最近,GCNS及其后续变体在真实数据集上的各个应用领域都显示出了优异的性能。尽管取得了成功,但由于过度平滑的问题,目前的大多数GCN模型都很浅。本文研究了深图卷积网络的设计与分析问题。我们提出了GCNII模型,它是对vanilla GCN 型的扩展,使用了两个简单而有效的技术:初始残差和单位映射。我们提供了理论和经验证据,证明这两种技术有效地缓解了过平滑问题。我们的实验表明,深度GCNII模型在各种半监督和全监督任务上的性能优于最先进的方法。

注:

**- vanilla GCN(原版GCN) :Kipf, T. N. and Welling, M. Semi-supervised
classification with graph convolutional networks. In ICLR, 2017.
vanlilla GCN的解读可以点击查看:vanlilla GCN 论文解读

现有GCN大多数是浅层结构(GCN、GAT;2层结构),如果做深,将会出现过平滑现象(随着层数增加,节点的表示趋于某一个值,节点变得无法区分),ResNet使用残差连接解决了计算机深层网络训练问题。但是在GCN中增加残差连接只能缓解过平滑问题,所以GCN、GAT浅层结构的性能超过深层GCN。**本文研究了深图卷积网络的设计与分析问题,提出了GCNII模型,使用了两个简单而有效的技术(初始残差和单位映射)实现了对vanilla GCN 型的扩展,有效解决了过平滑问题,并随着GCNII网络深度的增加而不断提高其性能。特别是,深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

1. Introduction

图形卷积网络将卷积神经网络(CNNs)推广到图结构数据。为了了解图形表示,“图形卷积”操作将相同的线性变换应用于节点的所有邻居,后跟非线性激活函数。近年来,GCN及其变体已成功地应用于广泛的应用包括社会分析、交通预测、生物学、推荐系统、交通预测、推荐系统、交通预测、推荐系统。

尽管取得了巨大的成功,但目前的大多数GCN模式都很肤浅。大多数最近的型号,如gcn和gat,都在2层模型上实现了最佳性能。这种浅层体系结构限制了它们从高阶邻居中提取信息的能力。但是,堆叠更多的层和添加非线性往往会降低这些模型的性能。这种现象被称为过平滑,这表明随着层数的增加,GCN中节点的表示倾向于收敛到某个值,因此变得无法区分。RESNET解决了具有残余连接的计算机视觉中的类似问题,这对于训练非常深的神经网络是有效的。不幸的是,在 ;深层GCN模型的表现仍然被GCN或GAT等2层模型所超越。

最近,有几项工作试图解决超平滑问题。JKNet(Xu等人,2018年)使用密集跳过连接来组合每层的输出,以保持节点表示的局部性。最近,DropEdge(Rong等人,2020)建议通过从输入图中随机删除一些边,可以减轻过度平滑的影响。实验(Rong等人,2020)表明,随着网络深度的增加,这两种方法可以减缓性能下降。然而,对于半监督任务,最先进的结果仍然是通过浅层模型实现的,因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面,有几种方法将深度传播和浅层神经网络相结合。SGC(Wu等人,2019年)试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息。PPNP和APPNP(Klicpera等人,2019a)用个性化PageRank矩阵取代了图的卷积矩阵的幂,以解决过平滑问题。GDC(Klicpera等人,2019b)通过将个性化PageRank(Page等人,1999)推广到任意图扩散过程,进一步扩展了APPNP。然而,这些方法在每一层中对相邻特征进行线性组合,失去了深层非线性结构的强大表达能力,这意味着它们仍然是浅层模型。

总之,如何设计一个GCN模型来有效地防止过度平滑,并通过真正深入的网络结构实现最先进的结果,仍然是一个悬而未决的问题。由于这一挑战,在设计新的图神经网络时,网络深度是一种资源还是一种负担甚至是不清楚的。在本文中,我们通过证明Vanilla GCN(Kipf&Well,2017)可以通过两个简单而有效的修改将其扩展到深度模型,从而给出了这个开放问题的肯定答案。特别地,我们提出了基于初始残差和单位映射的图卷积网络(GCNII),这是一种解决过平滑问题的深层GCN模型。在每一层,初始残差从输入层构建跳过连接,而单位映射将单位矩阵添加到权重矩阵。实证研究表明,这两种简单得令人惊讶的技术可以防止过度平滑,并随着GCNII网络深度的增加而不断提高其性能。特别是,深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

其次,对GCN和GCNII模型进行了理论分析。众所周知(Wu等人,2019年),通过堆叠k层,其次,对GCN和GCNII模型进行了理论分析。众所周知(Wu等人,2019年),通过堆叠k层,香草GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人,2019年)指出,这样的滤波器模拟懒惰的随机行走,最终收敛到静止向量,从而导致过度平滑。另一方面,我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式,并分析了香草GCN的收敛速度。我们的分析表明,在多层GCN模型中,度数越高的节点更有可能遭受过平滑,并通过实验证实了这一理论猜想。GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人,2019年)指出,这样的滤波器模拟懒惰的随机行走,最终收敛到静止向量,从而导致过度平滑。另一方面,我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式,并分析了香草GCN的收敛速度。我们的分析表明,在多层GCN模型中,度数越高的节点更有可能遭受过平滑,并通过实验证实了这一理论猜想。

注解:
面对过平滑问题前人的研究:

1.2018年JKNet使用密集跳过连接来组合每层的输出,以保持节点表示的局部性。

2.2020年DropEdge等人建议通过从输入图中随机删除一些边,可以减轻过度平滑的影响。 效果:随着网络深度的增加,这两种方法可以减缓性能下降。

问题: 对于半监督任务,最先进的结果仍然是通过浅层模型实现的,因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面的研究,将深度传播和浅层神经网络相结合解决过平滑问题:

1.2019年 Wu等人提出的SGC试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息;
2.2019a年Klicpera等人 的PPNP和APPNP用个性化PageRank矩阵取代了图的卷积矩阵的幂,以解决过平滑问题。
3.2019b年Klicpera等人提出的GDC通过将个性化PageRank推广到任意图扩散过程,进一步扩展了APPNP。

**问题:**这些方法在每一层中对相邻特征进行线性组合,失去了深层非线性结构的强大表达能力,这意味着它们仍然是浅层模型。

因此,如何设计一个GCN模型来有效地防止过度平滑,并通过真正深入的网络结构实现最先进的结果,仍然是一个悬而未决的问题。

**设计新图神经网络挑战:**理论较少,网络深度是一种资源还是一种负担甚至是不清楚的。
在此贡献:对GCN和GCNII模型进行了理论分析。还推导了平稳向量的闭合形式,并分析了原始GCN的收敛速度。

2. Preliminaries

符号。给出一个有n个结点和m条边的简单连通无向图G=(V,E)。定义自环图 G ~ = ( V , E ~ ) \tilde{G}=(V, \tilde{E}) G~=(V,E~)为G中每个结点都有一个自环的图,用{1,…,n}表示G和 G ~ \tilde{G} G~的节点ID,用dj和dj+1表示G和 G ~ \tilde{G} G~中的节点j的度.。设A表示邻接矩阵,D表示对角度矩阵。因此, G ~ \tilde{G} G~的邻接矩阵和对角度矩阵分别定义为 A ~ = A + I \tilde{A}=A+I A~=A+I D ~ = D + I \tilde{D}=D+I D~=D+I。设 X ∈ R n × d \mathbf{X} \in \mathbf{R}^{n \times d} XRn×d表示节点特征矩阵,即每个节点v有一个d维特征向量 X v X_v Xv相关联。规范图拉普拉斯矩阵定义为 L = I n − D − 1 / 2 A D − 1 / 2 \mathbf{L}=\mathbf{I}_{n}-\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2} L=InD1/2AD1/2,L的对称特征分解矩阵 U Λ U T UΛU^T UΛUT
Λ是L的特征值的对角矩阵, U ∈ R n × n \mathbf{U} \in \mathbf{R}^{n \times n} URn×n是由L的特征向量组成的酉矩阵.,信号x与滤波器gγ(Λ)=diag(γ)之间的图形卷积运算被定义为 g γ ( L ) ∗ x = U g γ ( Λ ) U T x gγ(L)∗x=Ugγ(Λ)U^{T}x gγ(L)x=Ugγ(Λ)UTx,其中参数 γ ∈ R n × n \mathbf{γ} \in\mathbf{R}^{n \times n} γRn×n对应于谱滤波器系数的向量。

Vanilla GCN. 建议可以进一步用拉普拉斯的K次多项式来逼近图的卷积运算: U g θ ( Λ ) U T x ≈ U ( ∑ ℓ = 0 K θ ℓ Λ ℓ ) U ⊤ x = ( ∑ ℓ = 0 K θ ℓ L ℓ ) x \mathbf{U} g_{\theta}(\Lambda) \mathbf{U}^{T} \mathbf{x} \approx \mathbf{U}\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{\Lambda}^{\ell}\right) \mathbf{U}^{\top} \mathbf{x}=\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{L}^{\ell}\right) \mathbf{x} Ugθ(Λ)UTxU(=0KθΛ)Ux=(=0KθL)x
其中 θ ∈ R K + 1 \mathbf{ θ} \in\mathbf{R }^{K+1} θRK+1对应于多项式系数的向量。

其中 θ ∈ R K + 1 \theta \in \mathbf{R}^{K+1} θRK+1 对应于多项式系数的向量。vanilla GCN设置 K = 1 , θ 0 = 2 θ K=1, \theta_{0}=2 \theta K=1,θ0=2θ and θ 1 = − θ \theta_{1}=-\theta θ1=θ 来获得卷积运算 g θ ∗ x = θ ( I + D − 1 / 2 A D − 1 / 2 ) x . \mathbf{g}_{\theta} * \mathbf{x}=\theta\left(\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}\right) \mathbf{x} . gθx=θ(I+D1/2AD1/2)x. 。最后,通过重整化技巧,用归一化版本 P ~ = \tilde{\mathbf{P}}= P~= D ~ − 1 / 2 A ~ D ~ − 1 / 2 = ( D + I n ) − 1 / 2 ( A + I n ) ( D + I n ) − 1 / 2 \tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}=\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}\left(\mathbf{A}+\mathbf{I}_{n}\right)\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2} D~1/2A~D~1/2=(D+In)1/2(A+In)(D+In)1/2替换矩阵 I + D − 1 / 2 A D − 1 / 2 \mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2} I+D1/2AD1/2 得到图的卷积层:
H ( ℓ + 1 ) = σ ( P ~ H ( ℓ ) W ( ℓ ) ) \mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right) H(+1)=σ(P~H()W())其中σ:表示RELU操作。

SGC: 证明了在 G ˉ \bar{G} Gˉ.的图谱域上, L ~ = I n − D ~ − 1 / 2 A ~ D ~ − 1 / 2 \tilde{\mathbf{L}}=\mathbf{I}_{n}-\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2} L~=InD~1/2A~D~1/2表示自环图˜G的归一化图拉普拉斯矩阵。因此,对信号x应用K层GCN ( D ~ − 1 / 2 A ~ D ~ − 1 / 2 ) K x = ( I n − L ~ ) K x . \left(\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}\right)^{K} \mathbf{x}=\left(\mathbf{I}_{n}-\tilde{\mathbf{L}}\right)^{K} \mathbf{x} . (D~1/2A~D~1/2)Kx=(InL~)Kx.中。(Wu等人,2019年)还表明,通过向每个节点添加自循环, L \mathbf{L} L 有效地缩小了底层图谱。

APPNP 使用 PageRank获得K阶的固定滤波器。设 f θ ( X ) f_θ(X) fθ(X)表示特征矩阵X上的两层全连接层的输出,PPNP的模型被定义为:
H = α ( I n − ( 1 − α ) A ~ ) − 1 f θ ( X ) \mathbf{H}=\alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1} f_{\theta}(\mathbf{X}) H=α(In(1α)A~)1fθ(X)由于个性化PageRank的特性,这种过滤器保持了局部性,因此适合于分类任务。也提出了APPNP,它取代了 α ( I n − ( 1 − α ) A ~ ) − 1 ) \alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1} ) α(In(1α)A~)1)中,用截断幂迭代法得到一个近似值。形式上,K跳聚合的APPNP定义为:
H ( ℓ + 1 ) = ( 1 − α ) P ~ H ( ℓ ) + α H ( 0 ) \boldsymbol{H}^{(\ell+1)}=(1-\alpha) \tilde{\boldsymbol{P}} \boldsymbol{H}^{(\ell)}+\alpha \boldsymbol{H}^{(0)} H(+1)=(1α)P~H()+αH(0)其中 H ( 0 ) = f θ ( X ) H^{(0)}=f_θ(X) H(0)=fθ(X)。通过解耦特征变换和传播,PPNP和APPNP可以在不增加神经网络层数的情况下聚合来自多跳邻居的信息。

JKNet: 第一个深度GCN框架是由Xu等人(Xu等人,2018年)提出的。在最后一层,JKNet组合前面所有的表示(H(1),…,H(K))来学习针对不同图子结构的不同阶的表示。(Xu等,2018年)证明了:K层Vanilla gcn模型模拟了自循环图˜G中K步的随机行走;通过组合前面层的所有表示,JKnet缓解了过度平滑的问题。

DropEdge 最近的一项工作(Rong等人,2020年)表明,从 G ~ \tilde{G} G~中随机删除一些边会延缓超平滑的收敛速度。设 P ~ drop  \tilde{\mathbf{P}}_{\text {drop }} P~drop 表示任意去掉某条边的重整化图的卷积矩阵,则带有DropEdge 的Vanilla GCN被定义为:

H ( ℓ + 1 ) = σ ( P ~ d r o p H ( ℓ ) W ( ℓ ) ) \mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}}_{\mathrm{drop}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right) H(+1)=σ(P~dropH()W())

3. GCNII Model

众所周知(Wu等,2019年),通过堆叠K层vanilla GCN 模拟多项式滤波器 ( ∑ ℓ = 0 K θ ℓ L ~ ℓ ) x \left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x} (=0KθL~)x G ~ \tilde{G} G~的图谱域上具有固定系数的K阶 θ \theta θ。固定系数限制了多层GCN模型的表达能力,从而导致过平滑。为了将GCN扩展到真正的深度模型,我们需要使GCN能够表示任意系数的K阶多项式滤波器。我们证明了这可以通过两个简单的技术来实现:初始剩余连接和恒等映射。形式上,我们将GCNII的第 ℓ \ell 层定义为: H ( ℓ + 1 ) = σ ( ( ( 1 − α ℓ ) P ~ H ( ℓ ) + α ℓ H ( 0 ) ) ( ( 1 − β ℓ ) I n + β ℓ W ( ℓ ) ) ) \mathbf{H}^{(\ell+1)}=\sigma\left(\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\alpha_{\ell} \mathbf{H}^{(0)}\right)\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)}\right)\right) H(+1)=σ(((1α)P~H()+αH(0))((1β)In+βW()))

其中 α ℓ \alpha_{\ell} α β ℓ {\beta_{\ell}} β是两个超参数。 P ~ = D ~ − 1 / 2 A ~ D − 1 / 2 \tilde{P} =\tilde{D}^{−1/2}\tilde{A}D^{−1/2} P~=D~1/2A~D1/2是具有重整化技巧的图形卷积矩阵。
注意,与Vanilla GCN模型(方程(1))相比,我们做了两点修改:

  • 1)我们组合了平滑表示 P ~ H ( ℓ ) \tilde{P}H^{(\ell)} P~H()与到第一层 H ( 0 ) H^{(0)} H(0)的初始残差连接相结合;
  • 2)我们增加了一个恒等式映射 I n In In ℓ \ell 层权重矩阵 W ( ℓ ) W(\ell) W()中。

初始剩余连接。 为了模拟Resnet中的跳过连接(他等人,2016年),(Kipf&Well,2017年)提出了将平滑表示 P ~ H ℓ ) \tilde{P}H\ell) P~H) H ( ℓ ) H^{(\ell)} H()相结合的剩余连接。然而,在(Kipf&Wling,2017)中也表明,这种剩余连接仅部分缓解了过度平滑问题;随着堆叠的层越多,模型的性能仍会降低。

我们建议,不使用剩余连接来携带来自上一层的信息,而是构造到初始表示 H ( 0 ) H^{(0)} H(0)的连接。即使我们堆叠了许多层,初始剩余连接确保每个节点的最终表示至少保留输入层的一小部分 α ℓ α^\ell α,实际上,我们可以简单地设置 α ℓ α^\ell α=0.1或0.2,以便每个节点的最终表示至少包含输入特征的一小部分。我们还注意到, H ( 0 ) H^{(0)} H(0)不一定是特征矩阵X。如果特征维数d大,我们可以在 X X X上应用全连接神经网络,以在前向传播之前获得较低维的初始表示 H ( 0 ) H^{(0)} H(0)

最后,我们记得APPNP(Klicpera等人,2019a)在个性化PageRank的上下文中采用了类似的方法来处理初始剩余连接。然而,(Klicpera等人,2019a)也表明,对特征矩阵执行多次非线性运算将导致过拟合,从而导致性能下降。因此,APPNP在不同层之间采用线性组合,因此仍然是一个浅层模型。这表明,仅有初始残差的想法不足以将GCN扩展到更深的模式。

恒等映射。 为了弥补APPNP的不足,我们借鉴了ResNet中身份映射的思想。在第 ℓ 层 , 我 们 将 单 位 矩 阵 \ell层,我们将单位矩阵 I n In In添加到权重矩阵 W ( ℓ ) W^{(\ell)} W()中。在下文中,我们总结了将恒等映射引入到我们的模型中的动机。

  • 与ResNet(他等人,2016)的动机类似,恒等映射确保深层GCNII模型至少实现与其浅层版本相同的性能。特别地,通过将 β ℓ β_\ell β设置得足够小,深度GCNII忽略权重矩阵 W ( ℓ ) W^{(\ell)} W(),并且本质上模拟APPNP(公式(3))。
  • 已经观察到特征矩阵不同维度之间的频繁交互(Klicpera等人,2019a)降低了模型在半监督任务中的性能。将平滑表示 P ~ H ( ℓ ) \tilde{P}H^{(\ell)} P~H()直接映射到输出减少了这种交互。
  • 恒等映射被证明在半监督任务中特别有用。Hardt&Ma,2017)证明了形式为 H ( ℓ + 1 ) = H ( ℓ ) H^{(\ell+1)}=H^{(\ell)} H(+1)=H()( W ( ℓ ) W^{(\ell)} W() + I n +In +In)的线性ResNet满足以下性质:
    1)最优权矩阵 W ( ℓ ) W^{(\ell)} W()具有小范数; 2)唯一的临界点是全局极小值。第一个性质允许我们将强正则化
    W ( ℓ ) W^{(\ell)} W()避免过度拟合,而后者在训练数据有限的半监督任务中是可取的。
  • (Oono&Suzuki,2020)从理论上证明了K层GCNS的节点特征会收敛到一个子空间,从而导致信息丢失。特别地,收敛速度依赖于 S K S^K SK,其中s是权矩阵 W ( ℓ ) , ℓ = 0 , … , K − 1 W^{(\ell)},\ell=0,…,K−1 W()=0K1的最大奇异值。通过将 W ( ℓ ) W^{(\ell)} W()替换为 ( ( 1 − β ℓ W ( ℓ ) ) I n + β ℓ W ( ℓ ) ((1−β^\ell W^{(\ell)}) In + β_\ell W^{(\ell)} ((1βW())In+βW()并对
    W^{(\ell)}施加正则化,我们强制 W ( ℓ ) W^{(\ell)} W()的范数小。因此, ( 1 − β ℓ ) I n + β ℓ W ( ℓ ) \left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)} (1β)In+βW()的奇异值将接近1。因此,最大奇异值s也将接近1,这意味着 s K s^K sK过大,信息损失得到缓解。

设置 β ℓ β_\ell β的原则是确保权重矩阵的衰减随着层数的增加而自适应地增加。在实践中,我们设置 β ℓ = log ⁡ ( λ ℓ + 1 ) ≈ λ ℓ \beta_{\ell}=\log \left(\frac{\lambda}{\ell}+1\right) \approx \frac{\lambda}{\ell} β=log(λ+1)λ,其中λ是一个超参数。

与迭代收缩阈值的连接。最近,已经有了以优化为灵感的网络结构设计工作(Zhang&Ghanem,2018年;Papyan等人,2017年)。其思想是,前馈神经网络可以被视为最小化某些函数的迭代优化算法,并且假设更好的优化算法可能会导致更好的网络结构(Li等人,2018a)。因此,数值优化算法中的理论可能会启发设计出更好、更易解释的网络结构。正如我们接下来将展示的,在我们的结构中使用恒等映射也是出于这个原因。我们认为套索是客观的:

min ⁡ x ∈ R n 1 2 ∥ B x − y ∥ 2 2 + λ ∥ x ∥ 1 \min _{x \in \mathcal{R}^{n}} \frac{1}{2}\|\mathbf{B} \mathbf{x}-\mathbf{y}\|_{2}^{2}+\lambda\|\mathbf{x}\|_{1} xRnmin21Bxy22+λx1

与压缩感知类似,我们认为x是我们试图恢复的信号,B是测量矩阵,y是我们观察到的信号。在我们的设置中,y是节点的原始特征,x是嵌入网络尝试学习的节点。与标准回归模型不同,设计矩阵B是未知参数,将通过反向传播学习。因此,这与稀疏编码问题的精神相同,稀疏编码问题已被用于设计和分析CNN(Papyan等人,2017年)。迭代收缩阈值算法是解决上述优化问题的有效算法,其中第(t+1)次迭代的更新为:

x t + 1 = P μ t λ ( x t − μ t B T B x t + μ t B T y ) \mathbf{x}^{t+1}=P_{\mu_{t} \lambda}\left(\mathbf{x}^{t}-\mu_{t} \mathbf{B}^{T} \mathbf{B} \mathbf{x}^{t}+\mu_{t} \mathbf{B}^{T} \mathbf{y}\right) xt+1=Pμtλ(xtμtBTBxt+μtBTy)

这里 µ t µ_t µt是步长, P β ( ⋅ ) ( β > 0 ) P_{β}(·)(β>0) Pβ()(β>0)是入门级软阈值函数:

P θ ( z ) = { z − θ ,  if  z ≥ θ 0 ,  if  ∣ z ∣ < θ z + θ ,  if  z ≤ − θ P_{\theta}(z)=\left\{\begin{array}{lr} z-\theta, & \text { if } z \geq \theta \\ 0, & \text { if }|z|<\theta \\ z+\theta, & \text { if } z \leq-\theta \end{array}\right. Pθ(z)=zθ,0,z+θ, if zθ if z<θ if zθ
现在,如果我们用W重新参数化 − B T B -B^TB BTB,上述更新公式将变得非常类似于我们的方法中使用的公式。更具体地说,我们有 X t + 1 = P µ t λ ( ( I + µ t W ) X t + µ t B T y ) X^{t+1}=P_{µtλ}((I+µ_tW)X_t+µ_tB^Ty) Xt+1=Pµtλ((I+µtW)Xt+µtBTy),其中,术语 µ t B T y µ_tB^Ty µtBTy对应于初始残差,而 ( I + µ t W ) X t (I+µ_tW)X_t (I+µtW)Xt对应于我们模型(5)中的恒等映射。软阈值算子作为非线性激活函数,类似于RELU的激活效果。总之,我们的网络结构,特别是恒等映射的使用,是从迭代收缩阈值算法求解套索中得到很好解决 LASSO。

注解:
1.GCNII的第 ℓ \ell 层定义为: H ( ℓ + 1 ) = σ ( ( ( 1 − α ℓ ) P ~ H ( ℓ ) + α ℓ H ( 0 ) ) ( ( 1 − β ℓ ) I n + β ℓ W ( ℓ ) ) ) \mathbf{H}^{(\ell+1)}=\sigma\left(\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\alpha_{\ell} \mathbf{H}^{(0)}\right)\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)}\right)\right) H(+1)=σ(((1α)P~H()+αH(0))((1β)In+βW()))
对vanilla GCN 模型公式 (equation(1))进行修改而来:

  • 增加残链接
  • 恒等映射
    《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第1张图片

设计灵感:
1.ResNet的残差连接、恒等映射进行修改。
2.为了弥补APPN的不足,增加恒等映射。
《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第2张图片

4. Spectral Analysis

4.1. Spectral analysis of multi-layer GCN.

我们考虑以下具有残差连接的GCN模型:
H ( ℓ + 1 ) = σ ( ( P ~ H ( ℓ ) + H ( ℓ ) ) W ( ℓ ) ) \mathbf{H}^{(\ell+1)}=\sigma\left(\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\mathbf{H}^{(\ell)}\right) \mathbf{W}^{(\ell)}\right) H(+1)=σ((P~H()+H())W())
回想一下, P ~ = \tilde{\mathbf{P}}= P~= D ~ − 1 / 2 A ~ D ~ − 1 / 2 \tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2} D~1/2A~D~1/2是具有重整化技巧的图形卷积矩阵。(Wang等,2019年)指出,方程(6)用转移矩阵
1 n + D ˉ − 1 / 2 A ˉ D ˉ − 1 / 2 2 . \frac{1_{n}+\bar{D}^{-1 / 2} \bar{A} \bar{D}^{-1 / 2}}{2} . 21n+Dˉ1/2AˉDˉ1/2. 模拟了贪婪的随机行走。这种贪婪的随机行走最终收敛到静止状态,从而导致过度平滑。现在我们推导出平稳向量的闭合形式,并分析这种收敛速度。我们的分析表明,单个节点的收敛速度取决于其度,并通过实验支持了这一理论发现。特别地,我们有以下定理。

定理1. 假设自环图 G ~ \tilde{G} G~ 是连通的。设 h ( K ) = ( I n + D ‾ − 1 / 2 A ~ D ‾ − 1 / 2 2 ) K ⋅ x \mathbf{h}^{(K)}=\left(\frac{\mathbf{I}_{n}+\overline{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \overline{\mathbf{D}}^{-1 / 2}}{2}\right)^{K} \cdot \mathbf{x} h(K)=(2In+D1/2A~D1/2)Kx表示对图信号x应用具有残差连接的K层重整化图卷积的表示。设λ G ~ \tilde{G} G~ 表示自环图 G ~ \tilde{G} G~ 的谱间隙,即归一化拉普拉斯算子的最小非零本征值 L ~ = I n − D ~ − 1 / 2 A ~ D ‾ − 1 / 2 . \tilde{\mathbf{L}}=\mathbf{I}_{n}-\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \overline{\mathbf{D}}^{-1 / 2} . L~=InD~1/2A~D1/2. 我们有:

1)当K趋于无穷大时, h ( K ) h^{(K)} h(K)收敛到 π = ⟨ D ~ 1 / 2 1 , x ⟩ 2 m + n \boldsymbol{\pi}=\frac{\left\langle\tilde{\mathbf{D}}^{1 / 2} \mathbf{1}, \mathbf{x}\right\rangle}{2 m+n} π=2m+nD~1/21,x D ~ 1 / 2 1 , \tilde{\mathbf{D}}^{1 / 2} \mathbf{1}, D~1/21,,其中1表示全一向量。

2)收敛速度由下式决定:
h ( K ) = π ± ( ∑ i = 1 n x i ) ⋅ ( 1 − λ G ~ 2 2 ) K ⋅ 1 \mathbf{h}^{(K)}=\pi \pm\left(\sum_{i=1}^{n} x_{i}\right) \cdot\left(1-\frac{\lambda_{\tilde{G}}^{2}}{2}\right)^{K} \cdot \mathbf{1} h(K)=π±(i=1nxi)(12λG~2)K1

回想一下,m和n是原始图G中的节点数和边数。我们使用运算符±来表示对于每个条目 h ( K ) ( J ) h^{(K)}(J) h(K)(J) π ( J ) , j = 1 , . . . , n , π(J),j=1,...,n, π(J)j=1...n
∣ h ( K ) ( j ) − π ( j ) ∣ ≤ ( ∑ i = 1 n x i ) ⋅ ( 1 − λ G ~ 2 2 ) K \left|\mathbf{h}^{(K)}(j)-\pi(j)\right| \leq\left(\sum_{i=1}^{n} x_{i}\right) \cdot\left(1-\frac{\lambda_{\tilde{G}}^{2}}{2}\right)^{K} h(K)(j)π(j)(i=1nxi)(12λG~2)K

定理1的证明可以在补充材料中找到。

定理1有两个推论:第一, G C N h ( K ) GCNh^{(K)} GCNh(K)的第K次表示收敛到向量 π = ⟨ D ~ 1 / 2 1 , x ⟩ 2 m + n \boldsymbol{\pi}=\frac{\left\langle\tilde{\mathbf{D}}^{1 / 2} \mathbf{1}, \mathbf{x}\right\rangle}{2 m+n} π=2m+nD~1/21,x D ~ 1 / 2 1 , \tilde{\mathbf{D}}^{1 / 2} \mathbf{1}, D~1/21,。这种收敛导致过度平滑,因为矢量π仅携带两种信息:每个节点的程度以及初始信号x和矢量 D 1 / 2 1 D^{1/2}1 D1/21之间的内积。

收敛速度和节点度。公式(7)表明收敛速度取决于整个特征项的和 ∑ i = 1 n x i \sum_{i=1}^{n} x_{i} i=1nxi和谱间隙 λ G ~ \lambda_{\tilde{G}} λG~。如果我们仔细观察单个节点j的相对收敛速度,我们可以将其最终表示 h ( K ) ( j ) \mathbf{h}^{(K)}(j) h(K)(j) 为:

h ( K ) ( j ) = d j + 1 ( ∑ i = 1 n d i + 1 2 m + n x i ± ∑ i = 1 n x i ( 1 − λ 2 2 ) K d j + 1 ) \mathbf{h}^{(K)}(j)=\sqrt{d_{j}+1}\left(\sum_{i=1}^{n} \frac{\sqrt{d_{i}+1}}{2 m+n} x_{i} \pm \frac{\sum_{i=1}^{n} x_{i}\left(1-\frac{\lambda^{2}}{2}\right)^{K}}{\sqrt{d_{j}+1}}\right) h(K)(j)=dj+1 i=1n2m+ndi+1 xi±dj+1 i=1nxi(12λ2)K

这表明,如果节点j具有较高的dj度(并且因此具有较大的 d j + 1 ) \sqrt{d_{j}+1}) dj+1 ),则其表示 h ( K ) ( J ) h^{(K)}(J) h(K)(J)更快地收敛到稳态 π ( J ) π(J) π(J)。基于这一事实,我们作出以下猜想。

猜想1: - 阶数越高的节点越容易出现过度平滑。

在我们的实验中,我们将在真实世界的数据集上验证猜想1。

4.2. Spectral analysis of GCNII

我们考虑自环图 G ~ \tilde{G} G~的谱域。回想一下,图信号x上的K阶多项式滤波定义为 ( ∑ ℓ = 0 K θ ℓ L ~ ℓ ) x \left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x} (=0KθL~)x,其中 L ~ \tilde{L} L~ G ~ \tilde{G} G~的归一化拉普拉斯矩阵, θ k θ_{k} θk是多项式系数。(Wu等人,2019年)证明了K层GCN模拟具有固定系数θ的K阶多项式滤波器。正如我们稍后将证明的那样,这种固定的系数限制了GCN的表达能力,从而导致过度平滑。另一方面,我们证明了K层GCNII模型可以表示任意系数的K阶多项式滤波器。

定理2. 考虑自环图 G ~ \tilde{G} G~和一个图信号x,K层GCNII可以表示一个K阶多项式滤波器 ( ∑ ℓ = 0 K θ ℓ L ~ ℓ ) x \left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x} (=0KθL~)x具有任意系数θ的X。定理2的证明可以在补充材料中找到。直观地,参数β允许GCNII模拟多项式滤波器的系数 θ ℓ θ_{\ell} θ

表现力强,过平滑。 用任意系数表示多项式滤波器的能力对于防止过平滑是必不可少的。要了解为什么会出现这种情况,请回想一下定理1建议K层 vanilla GCN模拟固定的K阶多项式滤波器 P ~ K x \tilde{P}^{K}x P~Kx,其中 P ~ \tilde{P} P~是重整化的图卷积矩阵。过平滑是由于 P ~ K x \tilde{P}^{K}x P~Kx收敛到与输入特征x隔离的分布的事实而引起的,从而导致梯度消失。,DropEdge(Rong等人,2020)放慢了收敛速度,但最终会随着K变得无穷大而失败。

另一方面,定理2认为深度GCNII收敛到一个分布,该分布携带来自输入特征和图结构的信息。仅此属性就可以确保GCNII不会受到过度平滑的影响,即使层的数量达到无穷大也是如此。,更确切地说,定理2指出K层GCNII可以用任意系数θ表示 h ( K ) h(K) h(K)= ( ∑ ℓ = 0 K θ ℓ L ~ ℓ ) x \left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x} (=0KθL~)x。由于重整化图的卷积矩阵 P ~ = I n − L ~ \tilde{P}=In−\tilde{L} P~=InL~中,因此可以表示 h ( K ) = ( ∑ ℓ = 0 K θ ℓ ′ P ~ ℓ ) ⋅ x \mathbf{h}^{(K)}=\left(\sum_{\ell=0}^{K} \theta_{\ell}^{\prime} \tilde{\mathbf{P}}^{\ell}\right) \cdot \mathbf{x} h(K)=(=0KθP~)x。请注意,通过适当选择 θ ′ \theta^{\prime} θ,即使K为无穷大,h(K)也可以同时携带来自输入特征和图形结构的信息。例如,APPNP(Klicpera等人,2019a)和GDC(Klicpera等人,2019b)将 θ i ′ = α ( 1 − α ) i \theta_{i}^{\prime}=\alpha(1-\alpha)^{i} θi=α(1α)i设置为某个常数0<α<1。当K变为无穷大时, h ( K ) = ( ∑ ℓ = 0 K θ ℓ ′ P ~ ℓ ) ⋅ x \mathbf{h}^{(K)}=\left(\sum_{\ell=0}^{K} \theta_{\ell}^{\prime} \tilde{\mathbf{P}}^{\ell}\right) \cdot \mathbf{x} h(K)=(=0KθP~)x收敛到x的个性化页面排名向量,它是邻接矩阵 A ~ \tilde{A} A~和输入特征向量x的函数。

GCNII和APPNP/GDC的不同之处在于:,
1)我们的模型中的系数向量θ是从输入特征和标签中学习的;
2)我们在每一层都实施了RELU操作。

5. Other Related Work

基于谱的GCN在过去几年中得到了广泛的研究。
1.2018c Li等人《Adaptive graph convolutional neural networks》
通过在训练时为每个图形数据学习任务驱动的自适应图来提高灵活性。

2.2019年Xu等人《Graph wavelet neural network》使用图形小波基代替傅立叶基来提高稀疏性和局部性。

3.2018年Veliˇckovi‘c等人《 Graph Attention Networks》全球认知模型,该模型基于节点特征学习每层的边权重。

4.2019年Abu-El-Haija等人,《A. Mixhop: Higher-order graph convolutional architec-
tures via sparsified neighborhood mixing.》通过混合不同距离的邻居信息来学习邻居混合关系,但仍然使用两层模型。

5.2019年Gao&J等人《 Graph u-nets》致力于将汇集操作扩展到图神经网络。对于无监督信息,通过最大化互信息训练图形卷积编码器。

6.2020年Pei在图嵌入的潜在空间中建立结构邻域进行聚集,以提取更多的结构信息。

7.2019年Dave等人,《A. Neuralbrane: Neural bayesian personalized ranking for at-
tributed network embedding.》使用单个表示向量来捕获两个拓扑图嵌入中的信息和节点属性。许多基于抽样的方法都是为了提高GCN的可扩展性而提出的。

8.2017年Hamilton等人,《 Inductive representation learning on large graphs.》通过层使用固定大小的邻域样本。

9.2018年Huang等人提出了《Fastgcn: Fast learning with graph convolutional networks via importance sampling.》基于重要性采样的有效变体。

10.2019年Chiang等人《Cluster-gcn: An efficient algorithm for training deep
and large graph convolutional networks.》。

《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第3张图片

6. Experiments

在这一部分中,我们将评估GCNII在各种开放图形数据集上与最先进的图形神经网络模型的性能。
Dataset and experimental setup.
我们使用三个标准引文网络数据集Cora、Citeseer和Pubmed进行半监督节点分类。在这些引文数据集中,节点对应于文档,边对应于引文;每个节点特征对应于文档的词袋表示,属于一个学术主题。对于全监督节点分类,我们还包括Chameleon、Cornell, Texas, and Wisconsin。这些数据集是Web网络,其中节点和边分别表示网页和超链接。每个节点的特征是相应页面的词袋表示。对于归纳学习,我们使用蛋白质-蛋白质相互作用(PPI)网络(Hamilton等人,2017年),它包含24个图。在之前的工作(VELIˇCckovi‘c等人,2018年)的设置之后,我们使用20个图表进行训练,2个图表用于验证,其余的用于测试。表1汇总了数据集的统计数据。

除了GCNII(5)之外,我们还包括GCNII*,它是GCNII的一个变体,它对平滑的表示使用不同的权重矩阵 P ~ \tilde{P} P~ H ( ℓ ) H^{(\ell)} H()。形式上,GCNII*的第KaTeX parse error: Undefined control sequence: \elld at position 2: (\̲e̲l̲l̲d̲+1)层定义为:
H ( ℓ + 1 ) = σ ( ( 1 − α ℓ ) P ~ H ( ℓ ) ( ( 1 − β ℓ ) I n + β ℓ W 1 ( ℓ ) ) + + α ℓ H ( 0 ) ( ( 1 − β ℓ ) I n + β ℓ W 2 ( ℓ ) ) ) \begin{aligned} \mathbf{H}^{(\ell+1)}=& \sigma\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{1}^{(\ell)}\right)+\right.\\ &\left.+\alpha_{\ell} \mathbf{H}^{(0)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{2}^{(\ell)}\right)\right) \end{aligned} H(+1)=σ((1α)P~H()((1β)In+βW1())++αH(0)((1β)In+βW2()))
《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第4张图片

《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第5张图片
如第3节所述,我们设置了 β ℓ = log ⁡ ( λ ℓ + 1 ) ≈ λ / ℓ \beta_{\ell}=\log \left(\frac{\lambda}{\ell}+1\right) \approx \lambda / \ell β=log(λ+1)λ/,其中λ是一个超参数。

6.1. Semi-supervised Node Classification

Setting and baselines.
对于半监督节点分类任务,我们在三个数据集Cora、Citeseer和Pubmed上应用标准的固定训练/验证/测试分裂(Yang等人,2016),每个类有20个节点用于训练,500个节点用于验证,1000个节点用于测试。对于基线,我们包括最近的两个深度GNN模型:JKNet(Xu等人,2018年)和DropEdge(Rong等人,2020年)。正如Rong等人(Rong等人,2020)所建议的那样,我们在三个主干上配备了DropEdge:GCN(Kipf&Well,2017)、JKNet(Xu等人,2018年)和IncepGCN(Rong等人,2020)。我们还包括三种最先进的浅层模式:APPNP(KIPF&WELING,2017年)、GAT(VELIˇckovi‘c等人,2018年)和APPNP(Klicpera等人,2019a)。

我们使用学习率为0.01的Adam SGD优化器(Kingma&Ba,2015),以100个epoch的提前停止训练GCNII和GCNII*。对于所有数据集上的全连接层,我们将α‘=0.1和L2正则化设置为0.0005。我们根据验证集上的精度执行网格搜索来调整不同深度模型的其他超参数。补充材料中列出了超参数的更多详细信息。

Comparison with SOTA.
表2报告了GCN和GCNII测试节点100次运行后的平均分类精度和标准差。我们为GCN、GAT和APPNP重用了(Fey&Lenssen,2019年)中报告的指标,为JKNet、JKNet(Drop)和incep(Drop)重用了(Rong等人,2020)中报告的最佳指标。我们的结果成功地证明了GCNII和GCNII*在所有三个数据集上都实现了最先进的性能。值得注意的是,GCNII的性能比以前最先进的方法至少高出2%。还值得注意的是,最近的两个深层模型-JKNet和IncepGCN with DropEdge-似乎没有提供比浅层模型APPNP更大的优势。另一方面,我们的方法通过64层模型实现了这一结果,展示了深层网络结构的优势。

《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第6张图片

Adetailedcomparisonwithotherdeepmodels.
表3总结了不同层数的深部模式的结果。我们对JKNet、JKNet(Drop)和incep(Drop)1重复使用了最好的报告结果。我们观察到,在CORA和Citeseer上,GCNII和GCNII的性能随着层数的增加而不断提高。在Pubmed上,GCNII和GCNII在16层时达到最佳效果,并且在我们将网络深度增加到64层时保持相似的性能。我们将这一品质归功于身份映射技术。总体而言,结果表明,通过初始残差和恒等式映射,我们可以解决过平滑问题,并将香草GCN扩展为真正深入的模型。另一方面,当层数超过32时,DropEdge和JKNet的GCN的性能会迅速下降,这意味着它们仍然存在过度平滑的问题。

6.2. Full-Supervised Node Classification

我们现在评估GCNII在全监督节点分类任务中的性能。根据(Pei et al.,2020)中的设置,我们使用7个数据集:Cora、Citeseer、Pubmed、Cornell, Texas, and Wisconsin.对于每个数据集,我们将每个类的节点随机分为60%、20%和20%用于训练、验证和测试,并按照Pei等人的建议,在10个随机拆分上测量测试集上所有模型的性能(Pei等人,2020年)。我们将所有数据集的学习率固定为0.01,丢失率固定为0.5,隐藏单元数固定为64,并基于验证集执行超参数搜索以调整其他超参数。全监督节点分类的所有模型的详细配置可以在补充资料中找到。除了前面提到的基线,我们还包括Geom-GCN的三个变体(Pei等人,2020年),因为它们是这些数据集上最先进的模型。

《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第7张图片
表5报告了每个模型的平均分类精度。我们为GCN、GAT和Geom-GCN重用了(Pei等人,2020年)中报告的指标。我们观察到GCNII和GCNII在7个数据集中的6个上取得了新的最先进的结果,这表明了深度GCNII框架的优越性。值得注意的是,在威斯康星州的数据集上,GCNII的表现比APPNP高出12%以上。这一结果表明,通过在各层引入非线性,GCNII的预测能力强于线性模型APPNP。
《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第8张图片

6.3. Inductive Learning

对于归纳学习任务,我们在PPI数据集上应用了9层GCNII和 G C N I I ∗ GCNII^* GCNII模型,有2048个隐藏单元。我们确定了以下超参数集:α‘=0.001.5,λ=1.0,学习率为0.001。由于训练数据量大,我们将丢失率设置为0.2,将权值衰减设置为零。继(VELIˇCckoviüc等人,2018年)之后,我们还增加了从GCNII和GCNII*的第‘层到第 ( ℓ + 1 ) (\ell+1) (+1)层的跳过连接,以加快训练过程的收敛。我们将GCNII与以下最先进的方法进行比较:GraphSAGE(Hamilton等人,2017年)、VR-GCN(Chen等人,2018b)、Gaan(Zhang等人,2018年)、GAT(VELIˇckovi‘c等人,2018年)、JKnet(Xu等人,2018年)、JKNet(Xu等人,2018年)、JKnet(Xu等人,2018年)、GeniePath(Liu等人,2019年)、Cluster-GCN(Chiang等人,2019年)。表4总结了这些指标。与我们的预期一致,结果显示GCNII和 G C N I I ∗ GCNII^* GCNII在PPI上实现了新的最先进性能。特别地,GCNII采用9层模型,而所有基线模型的层数均小于或等于5层,这表明在归纳学习任务中,通过增加网络深度也可以利用更大的预测能力

6.4. Over-Smoothing Analysis for GCN

回想一下,猜想1表明阶数越高的节点越容易出现过度平滑。为了验证这一猜想,我们研究了在Cora、Citeseer和Pubmed上的半监督节点分类任务中,分类精度是如何随节点度的变化而变化的。更具体地说,我们根据度对每个图的节点进行分组。第i组由阶数在[2i,2i+1)(i=0,…,∞)范围内的节点组成。对于每一组,我们在图1中报告了具有与不同网络深度的剩余连接的GCN的平均分类精度。我们有以下观察结果。首先,我们注意到两层GCN模型的精度随着节点度的增加而提高。这与预期不谋而合,因为度数较高的节点通常会从邻居那里获得更多信息。但是,随着网络深度的扩大,高度节点的准确率比低度节点下降得更快。值得注意的是,具有64层的GCN无法对度数大于100的节点进行分类。这表明过度平滑确实会对阶数较高的节点产生更大的影响。

6.5. Ablation Study

图2显示了消融研究的结果,该研究评估了我们的两种技术的贡献:初始剩余连接和身份映射。我们从图2中观察到三点:1)直接将标识映射应用到普通GCN会略微延迟过度平滑的效果。2)直接将初始残差连接应用于香草GCN可显著缓解过平滑。但是,2层模型仍然实现了最佳性能。3)同时应用身份映射和初始剩余连接,保证了精度随网络深度的增加而提高。这一结果表明,这两种技术都需要解决过平滑问题。

7. Conclusion

我们提出了GCNII,这是一个简单而深入的GCN模型,它通过初始剩余连接和单位映射来防止过度平滑。理论分析表明,GCNII能够表示任意系数的K阶多项式滤波器。对于具有多层的香草GCN,我们提供了理论和经验证据,证明阶数越高的节点更容易遭受过平滑。实验表明,深度GCNII模型在各种半监督和全监督任务上都取得了新的研究成果。未来工作的有趣方向包括将GCNII与注意机制相结合,以及分析GCNII与RELU操作的行为。
《Simple and Deep Graph Convolutional Networks》--论文阅读笔记_第9张图片

你可能感兴趣的:(神经网络,pytorch,人工智能,机器学习,算法)