Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum

Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum_第1张图片

1. 摘要

  图对比学习(GCL)是通过扩充图来学习节点表示的一种学习方法,近年来受到了广泛的关注。尽管各种图形增强策略层出不穷,但一些基本问题仍然不清楚:GCL学习到的表示中基本上编码了什么信息?在不同的扩充之后,是否有一些通用的图形扩充规则?如果是,它们是什么?它们能带来什么见解?在本文中,我们通过建立GCL和图谱之间的联系来回答这些问题。通过对谱域的实验研究,我们首先发现GCL的广义图增广(GAME)规则,即两个增广图之间的高频部分的差异应该大于低频部分的差异。这条规则揭示了重新审视当前图形扩充并设计新的有效图形扩充的基本原理。然后,我们从理论上证明了GCL能够通过对比不变性定理和我们的GAME规则学习不变性信息,首次揭示了GCL学习的表示本质上是对低频信息的编码,这解释了GCL的工作原理。在这个规则的指导下,我们提出了一个光谱图对比学习模块(SpCo1),它是一个通用的GCL友好插件。我们将其与不同的现有GCL模型相结合,大量实验表明,它可以进一步提高各种不同GCL方法的性能。

2. 动机以及贡献

Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum_第2张图片

基本的增强机制不清晰,存在以下问题

  1. 应该在增广图中保留或者丢弃哪些信息?
  2. 不同的图增强策略之间是否有一些一般规则?
  3. 如何使用这些一般规则来验证和改进当前的GCL方法?

主要贡献

  1. 提出一个通用的图增强规则(GAME):两张对比图中高频振幅的差异应该大于低频振幅的差异(如图1(b)所示)。
  2. 提出对比不变性,首次从理论上证明了GCL可以从两个对比图中学习不变性信息。同时,如1(b)所示,由于最低频率信息的振幅差远小于高频信息的振幅,因此最低频率信息将是两个图 V 1 V_1 V1 V 2 V_2 V2之间的近似不变模式,由此可以得出结论,GCL所学习的信息主要是低频信息。
  3. 提出新的通用图对比学习框架(SpCo),通过优化对比对来改进现有的GCL方法,即使其高频振幅提升,同时保持低频与原始结构相同。

3. 符号定义

  • 仅含图谱相关符号定义

   L ^ \hat{L} L^是对称归一化的Laplacian矩阵,其特征分解为 U Λ U ⊤ U \Lambda U^\top UΛU,其中 Λ = d i a g ( λ 1 , . . . , λ N ) \Lambda = diag(\lambda_1,...,\lambda_N) Λ=diag(λ1,...,λN) U = [ u 1 ⊤ , . . . , u N ⊤ ] ∈ R N × N U=[u_1^\top,...,u_N^\top]\in R^{N\times N} U=[u1,...,uN]RN×N分别是 L ^ \hat{L} L^的特征值和特征向量。在不损失一般性的情况下,假设 0 ≤ λ 1 ≤ . . . ≤ λ N < 2 ( λ N ≈ 2 ) 0\leq \lambda_1 \leq ...\leq \lambda_N < 2 (\lambda_N \approx 2) 0λ1...λN<2λN2。用 F L = { λ 1 , . . . , λ ⌊ N / 2 ⌋ } F_L=\{\lambda_1,...,\lambda_{\lfloor N/2 \rfloor}\} FL={λ1,...,λN/2}表示低频分量的振幅,用 F H = { λ N , . . . , λ ⌊ N / 2 ⌋ + 1 } F_H=\{\lambda_N,...,\lambda_{\lfloor N/2 \rfloor + 1}\} FH={λN,...,λN/2+1}表示高频分量的振幅。图谱定义为不同频率分量的振幅,表示为 ϕ ( λ ) \phi(\lambda) ϕ(λ),表示频率的哪些部分增强或者减弱。另外重写 L ^ = λ 1 ⋅ u 1 u 1 ⊤ + . . . + λ N ⋅ u N u N ⊤ \hat{L}=\lambda_1·u_1u_1^\top+...+\lambda_N·u_Nu_N^\top L^=λ1u1u1+...+λNuNuN,其中 u i u i ⊤ ∈ R N × N u_iu_i^\top \in R^{N \times N} uiuiRN×N为与 λ i \lambda_i λi相关的特征空间,表示为 S i S_i Si

4. 图形增强的影响:一项实验研究

Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum_第3张图片
  如图2所示,设计一个简单的GCL框架,输入为 A A A和( V V V A A A的增强),利用一个共享的GCN编码为 H A H_A HA H V H_V HV,并利用InfoNCE损失训练。

生成增强 V V V

Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum_第4张图片

  为了分析不同信息的影响,从原始图中提取不同频率的信息来构造图增广,过程如图3所示。具体来说,将 L L L的特征值分为 F L F_L FL F H F_H FH,分别进行增强。
  以 F L F_L FL的增强为例,将高频部分保持为 u ⌊ N / 2 ⌋ + 1 u ⌊ N / 2 ⌋ + 1 ⊤ + . . . + u N u N ⊤ u_{\lfloor N/2 \rfloor +1}u_{\lfloor N/2 \rfloor +1}^\top+...+u_Nu_N^\top uN/2+1uN/2+1+...+uNuN。然后从最低频率开始,逐步将 F L F_L FL的特征空间加回来,速率为[20%,40%,60%,80%]。 F L F_L FL中20%增强的 V V V u 1 u 1 ⊤ + . . . + u 0.1 ∗ ⌊ N / 2 ⌋ u 0.1 ∗ ⌊ N / 2 ⌋ ⊤ + u ⌊ N / 2 ⌋ + 1 u ⌊ N / 2 ⌋ + 1 ⊤ + . . . + u N u N ⊤ u_1u_1^\top+...+u_{0.1*\lfloor N/2 \rfloor}u_{0.1*\lfloor N/2 \rfloor}^\top +u_{\lfloor N/2 \rfloor+1}u_{\lfloor N/2 \rfloor+1}^\top +...+u_Nu_N^\top u1u1+...+u0.1N/2u0.1N/2+uN/2+1uN/2+1+...+uNuN。相似地, F H F_H FH中20%增强的 V V V u 1 u 1 ⊤ + . . . + u ⌊ N / 2 ⌋ u ⌊ N / 2 ⌋ ⊤ + u ⌊ N / 2 ⌋ + 1 u ⌊ N / 2 ⌋ + 1 ⊤ + . . . + u 0.6 ∗ N u 0.6 ∗ N ⊤ u_1u_1^\top+...+u_{\lfloor N/2 \rfloor}u_{\lfloor N/2 \rfloor}^\top +u_{\lfloor N/2 \rfloor+1}u_{\lfloor N/2 \rfloor+1}^\top +...+u_{0.6*N}u_{0.6*N}^\top u1u1+...+uN/2uN/2+uN/2+1uN/2+1+...+u0.6Nu0.6N

结果和分析

Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum_第5张图片
结果: 对于每个数据集,在生成的 V V V中,(1)当保持频率的最低部分时,获得最佳性能;(2)当 F H F_H FH中涉及更多频率时,性能通常会提高。

分析: (1)当保持频率的最低部分时, A A A V V V之间的振幅差,即图谱,在 F L F_L FL中变小;(2)当 F H F_H FH中涉及更多频率时, F H F_H FH A A A V V V之间的裕度变大。

GAME规则

给定两个随机增强 V 1 V_1 V1 V 2 V_2 V2,它们的图谱为 ϕ 1 ( λ ) \phi_1(\lambda) ϕ1(λ) ϕ 2 ( λ ) \phi_2(\lambda) ϕ2(λ)。然后, ∀ λ m ∈ [ 1 , 2 ] ∀ λ_m∈ [1,2] λm[1,2] λ n ∈ [ 0 , 1 ] λ_n∈ [0,1] λn[0,1],如果满足以下条件就说明 V 1 V_1 V1 V 2 V_2 V2是一对有效的图增强,定义为最佳对比对。
∣ ϕ 1 ( λ m ) − ϕ 2 ( λ m ) ∣ > ∣ ϕ 1 ( λ n ) − ϕ 2 ( λ n ) ∣ |\phi_1(\lambda_m)-\phi_2(\lambda_m)|>|\phi_1(\lambda_n)-\phi_2(\lambda_n)| ϕ1(λm)ϕ2(λm)>ϕ1(λn)ϕ2(λn)

5. 通用图增强规则分析

实验分析

  将MVGRL、GCA和GraphCL中提出的增强替换成 V V V。(MVGRL提出了PPR矩阵、热扩散矩阵、成对距离矩阵;GCA主要基于度、特征向量和PageRank然后随机丢弃边;GraphCL采用随机丢弃节点、边缘扰动和子图采样。)
  采用矩阵微扰理论准确描述在 λ i \lambda_i λi增加后振幅的变化(特征值分解无序无法直接匹配):
在这里插入图片描述
   λ i ′ \lambda_i' λi是变化后的特征值, ∆ A = A ′ − A ∆A=A'− A A=AA表示增强后边缘的修改, ∆ D ∆D D是度矩阵中的相应变化。图谱绘制如图6所示,采用前文中的GCL框架分别对比邻接矩阵与增强的结果如表1。
Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum_第6张图片

理论分析

理论1 对比不变性 给定邻接矩阵 A A A和生成的增量 V V V A A A V V V的第 i i i频率振幅分别为 λ i \lambda_i λi γ i \gamma_i γi。通过优化InfoNCE损失 L I n f o N C E L_{InfoNCE} LInfoNCE,可以建立以下上限( θ i \theta_i θi是第 i i i项的自适应权重):
在这里插入图片描述
因此,较大的 θ i θ_i θi将分配给较小的 ( λ i − γ i ) 2 (λ_i− γ_i)^2 (λiγi)2 λ i ≈ γ i λ_i≈γ_i λiγi。同时,如果 λ i ≈ γ i λ_i≈γ_i λiγi,这两个对比增强被认为在第 i i i频率上具有相同的不变性。因此,通过对比学习,编码器将强调来自频谱域的两个对比增强之间的不变性。
  GAME规则表明 F L F_L FL中的两个增强之间的差异较小。因此,在GAME规则的指导下,GCL试图捕获两个增强的共同低频信息,从而指出了一种通用的增强策略来操纵编码器以捕获低频信息,获得更好的性能。

6. 图谱对比学习

Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum_第7张图片
  基于GAME规则,需要学习一个转换 ∆ A ∆_A A将邻接矩阵 A A A转换为增强 A A A_其中 A A A A A A_必须是最佳对比对,然后将它们输入现有的GCL方法。如图7所示。
  首先将 ∆ A ∆_A A分为 ∆ A = ∆ A + − ∆ A − ∆_A=∆_{A_+}-∆_{A_-} A=A+A ∆ A + ∆_{A_+} A+ ∆ A − ∆_{A_-} A分别指添加和删除的边。以 ∆ A + ∆_{A_+} A+为例,以下优化目标应该最大化:
在这里插入图片描述
总共包含三个部分:

  1. 匹配项: ∀ P , Q ∈ R N × N , < P , Q > = ∑ i j P i j Q i j ∀ P,Q∈ R^{N×N},=\sum_{ij}P_{ij}Q_{ij} P,QRN×N<P,Q>=ijPijQij C = U g ( λ ) U ⊤ C=Ug(\lambda)U^\top C=Ug(λ)U U U U g ( λ ) g(\lambda) g(λ)分别代表特征向量矩阵和 A A A的特征值相关函数。根据GAME规则, ϕ ∆ ( λ ) = ∣ ϕ A ( λ ) − ϕ A − ( λ ) ∣ \phi_∆(λ) =|\phi_A(λ)− \phi_{A-}(λ)| ϕλ=ϕA(λ)ϕA(λ)应该单调递增,因此 g ( λ ) g(\lambda) g(λ)同样应该单调递增,而拉普拉斯 L L L的图谱满足要求,设 C = θ L C=\theta L C=θL θ \theta θ为训练中更新的参数。
  2. 熵正则化: H ( P ) = − ∑ i j P i j ( l o g ( P i j − 1 ) ) H(P)=-\sum_{ij}P_{ij}(log(P_{ij}-1)) H(P)=ijPij(log(Pij1)),其中 ϵ \epsilon ϵ为该部分权重。该部分目的在于增加不确定性,鼓励更多边加入优化。
  3. 拉格朗日约束条件: f ∈ R N × 1 , g ∈ R N × 1 f\in R^{N\times 1},g\in R^{N \times 1} fRN×1,gRN×1是拉格朗日乘子, a ∈ R N × 1 , b ∈ R N × 1 a\in R^{N\times 1}, b\in R^{N\times 1} aRN×1,bRN×1是分布,该部分限制 ∆ A + ∆_{A_+} A+的行列数在一定范围内。

你可能感兴趣的:(python,算法,机器学习,对比学习)