图对比学习(GCL)是通过扩充图来学习节点表示的一种学习方法,近年来受到了广泛的关注。尽管各种图形增强策略层出不穷,但一些基本问题仍然不清楚:GCL学习到的表示中基本上编码了什么信息?在不同的扩充之后,是否有一些通用的图形扩充规则?如果是,它们是什么?它们能带来什么见解?在本文中,我们通过建立GCL和图谱之间的联系来回答这些问题。通过对谱域的实验研究,我们首先发现GCL的广义图增广(GAME)规则,即两个增广图之间的高频部分的差异应该大于低频部分的差异。这条规则揭示了重新审视当前图形扩充并设计新的有效图形扩充的基本原理。然后,我们从理论上证明了GCL能够通过对比不变性定理和我们的GAME规则学习不变性信息,首次揭示了GCL学习的表示本质上是对低频信息的编码,这解释了GCL的工作原理。在这个规则的指导下,我们提出了一个光谱图对比学习模块(SpCo1),它是一个通用的GCL友好插件。我们将其与不同的现有GCL模型相结合,大量实验表明,它可以进一步提高各种不同GCL方法的性能。
基本的增强机制不清晰,存在以下问题
主要贡献
L ^ \hat{L} L^是对称归一化的Laplacian矩阵,其特征分解为 U Λ U ⊤ U \Lambda U^\top UΛU⊤,其中 Λ = d i a g ( λ 1 , . . . , λ N ) \Lambda = diag(\lambda_1,...,\lambda_N) Λ=diag(λ1,...,λN)和 U = [ u 1 ⊤ , . . . , u N ⊤ ] ∈ R N × N U=[u_1^\top,...,u_N^\top]\in R^{N\times N} U=[u1⊤,...,uN⊤]∈RN×N分别是 L ^ \hat{L} L^的特征值和特征向量。在不损失一般性的情况下,假设 0 ≤ λ 1 ≤ . . . ≤ λ N < 2 ( λ N ≈ 2 ) 0\leq \lambda_1 \leq ...\leq \lambda_N < 2 (\lambda_N \approx 2) 0≤λ1≤...≤λN<2(λN≈2)。用 F L = { λ 1 , . . . , λ ⌊ N / 2 ⌋ } F_L=\{\lambda_1,...,\lambda_{\lfloor N/2 \rfloor}\} FL={λ1,...,λ⌊N/2⌋}表示低频分量的振幅,用 F H = { λ N , . . . , λ ⌊ N / 2 ⌋ + 1 } F_H=\{\lambda_N,...,\lambda_{\lfloor N/2 \rfloor + 1}\} FH={λN,...,λ⌊N/2⌋+1}表示高频分量的振幅。图谱定义为不同频率分量的振幅,表示为 ϕ ( λ ) \phi(\lambda) ϕ(λ),表示频率的哪些部分增强或者减弱。另外重写 L ^ = λ 1 ⋅ u 1 u 1 ⊤ + . . . + λ N ⋅ u N u N ⊤ \hat{L}=\lambda_1·u_1u_1^\top+...+\lambda_N·u_Nu_N^\top L^=λ1⋅u1u1⊤+...+λN⋅uNuN⊤,其中 u i u i ⊤ ∈ R N × N u_iu_i^\top \in R^{N \times N} uiui⊤∈RN×N为与 λ i \lambda_i λi相关的特征空间,表示为 S i S_i Si。
如图2所示,设计一个简单的GCL框架,输入为 A A A和( V V V为 A A A的增强),利用一个共享的GCN编码为 H A H_A HA和 H V H_V HV,并利用InfoNCE损失训练。
生成增强 V V V
为了分析不同信息的影响,从原始图中提取不同频率的信息来构造图增广,过程如图3所示。具体来说,将 L L L的特征值分为 F L F_L FL和 F H F_H FH,分别进行增强。
以 F L F_L FL的增强为例,将高频部分保持为 u ⌊ N / 2 ⌋ + 1 u ⌊ N / 2 ⌋ + 1 ⊤ + . . . + u N u N ⊤ u_{\lfloor N/2 \rfloor +1}u_{\lfloor N/2 \rfloor +1}^\top+...+u_Nu_N^\top u⌊N/2⌋+1u⌊N/2⌋+1⊤+...+uNuN⊤。然后从最低频率开始,逐步将 F L F_L FL的特征空间加回来,速率为[20%,40%,60%,80%]。 F L F_L FL中20%增强的 V V V为 u 1 u 1 ⊤ + . . . + u 0.1 ∗ ⌊ N / 2 ⌋ u 0.1 ∗ ⌊ N / 2 ⌋ ⊤ + u ⌊ N / 2 ⌋ + 1 u ⌊ N / 2 ⌋ + 1 ⊤ + . . . + u N u N ⊤ u_1u_1^\top+...+u_{0.1*\lfloor N/2 \rfloor}u_{0.1*\lfloor N/2 \rfloor}^\top +u_{\lfloor N/2 \rfloor+1}u_{\lfloor N/2 \rfloor+1}^\top +...+u_Nu_N^\top u1u1⊤+...+u0.1∗⌊N/2⌋u0.1∗⌊N/2⌋⊤+u⌊N/2⌋+1u⌊N/2⌋+1⊤+...+uNuN⊤。相似地, F H F_H FH中20%增强的 V V V为 u 1 u 1 ⊤ + . . . + u ⌊ N / 2 ⌋ u ⌊ N / 2 ⌋ ⊤ + u ⌊ N / 2 ⌋ + 1 u ⌊ N / 2 ⌋ + 1 ⊤ + . . . + u 0.6 ∗ N u 0.6 ∗ N ⊤ u_1u_1^\top+...+u_{\lfloor N/2 \rfloor}u_{\lfloor N/2 \rfloor}^\top +u_{\lfloor N/2 \rfloor+1}u_{\lfloor N/2 \rfloor+1}^\top +...+u_{0.6*N}u_{0.6*N}^\top u1u1⊤+...+u⌊N/2⌋u⌊N/2⌋⊤+u⌊N/2⌋+1u⌊N/2⌋+1⊤+...+u0.6∗Nu0.6∗N⊤。
结果和分析
结果: 对于每个数据集,在生成的 V V V中,(1)当保持频率的最低部分时,获得最佳性能;(2)当 F H F_H FH中涉及更多频率时,性能通常会提高。
分析: (1)当保持频率的最低部分时, A A A和 V V V之间的振幅差,即图谱,在 F L F_L FL中变小;(2)当 F H F_H FH中涉及更多频率时, F H F_H FH在 A A A和 V V V之间的裕度变大。
GAME规则
给定两个随机增强 V 1 V_1 V1和 V 2 V_2 V2,它们的图谱为 ϕ 1 ( λ ) \phi_1(\lambda) ϕ1(λ)和 ϕ 2 ( λ ) \phi_2(\lambda) ϕ2(λ)。然后, ∀ λ m ∈ [ 1 , 2 ] ∀ λ_m∈ [1,2] ∀λm∈[1,2]和 λ n ∈ [ 0 , 1 ] λ_n∈ [0,1] λn∈[0,1],如果满足以下条件就说明 V 1 V_1 V1和 V 2 V_2 V2是一对有效的图增强,定义为最佳对比对。
∣ ϕ 1 ( λ m ) − ϕ 2 ( λ m ) ∣ > ∣ ϕ 1 ( λ n ) − ϕ 2 ( λ n ) ∣ |\phi_1(\lambda_m)-\phi_2(\lambda_m)|>|\phi_1(\lambda_n)-\phi_2(\lambda_n)| ∣ϕ1(λm)−ϕ2(λm)∣>∣ϕ1(λn)−ϕ2(λn)∣
实验分析
将MVGRL、GCA和GraphCL中提出的增强替换成 V V V。(MVGRL提出了PPR矩阵、热扩散矩阵、成对距离矩阵;GCA主要基于度、特征向量和PageRank然后随机丢弃边;GraphCL采用随机丢弃节点、边缘扰动和子图采样。)
采用矩阵微扰理论准确描述在 λ i \lambda_i λi增加后振幅的变化(特征值分解无序无法直接匹配):
λ i ′ \lambda_i' λi′是变化后的特征值, ∆ A = A ′ − A ∆A=A'− A ∆A=A′−A表示增强后边缘的修改, ∆ D ∆D ∆D是度矩阵中的相应变化。图谱绘制如图6所示,采用前文中的GCL框架分别对比邻接矩阵与增强的结果如表1。
理论分析
理论1 对比不变性 给定邻接矩阵 A A A和生成的增量 V V V, A A A和 V V V的第 i i i频率振幅分别为 λ i \lambda_i λi和 γ i \gamma_i γi。通过优化InfoNCE损失 L I n f o N C E L_{InfoNCE} LInfoNCE,可以建立以下上限( θ i \theta_i θi是第 i i i项的自适应权重):
因此,较大的 θ i θ_i θi将分配给较小的 ( λ i − γ i ) 2 (λ_i− γ_i)^2 (λi−γi)2或 λ i ≈ γ i λ_i≈γ_i λi≈γi。同时,如果 λ i ≈ γ i λ_i≈γ_i λi≈γi,这两个对比增强被认为在第 i i i频率上具有相同的不变性。因此,通过对比学习,编码器将强调来自频谱域的两个对比增强之间的不变性。
GAME规则表明 F L F_L FL中的两个增强之间的差异较小。因此,在GAME规则的指导下,GCL试图捕获两个增强的共同低频信息,从而指出了一种通用的增强策略来操纵编码器以捕获低频信息,获得更好的性能。
基于GAME规则,需要学习一个转换 ∆ A ∆_A ∆A将邻接矩阵 A A A转换为增强 A A A_其中 A A A和 A A A_必须是最佳对比对,然后将它们输入现有的GCL方法。如图7所示。
首先将 ∆ A ∆_A ∆A分为 ∆ A = ∆ A + − ∆ A − ∆_A=∆_{A_+}-∆_{A_-} ∆A=∆A+−∆A−, ∆ A + ∆_{A_+} ∆A+和 ∆ A − ∆_{A_-} ∆A−分别指添加和删除的边。以 ∆ A + ∆_{A_+} ∆A+为例,以下优化目标应该最大化:
总共包含三个部分:
=\sum_{ij}P_{ij}Q_{ij}
∀P,Q∈RN×N,<P,Q>=∑ijPijQij, C = U g ( λ ) U ⊤ C=Ug(\lambda)U^\top C=Ug(λ)U⊤, U U U和 g ( λ ) g(\lambda) g(λ)分别代表特征向量矩阵和 A A A的特征值相关函数。根据GAME规则, ϕ ∆ ( λ ) = ∣ ϕ A ( λ ) − ϕ A − ( λ ) ∣ \phi_∆(λ) =|\phi_A(λ)− \phi_{A-}(λ)| ϕ∆(λ)=∣ϕA(λ)−ϕA−(λ)∣应该单调递增,因此 g ( λ ) g(\lambda) g(λ)同样应该单调递增,而拉普拉斯 L L L的图谱满足要求,设 C = θ L C=\theta L C=θL, θ \theta θ为训练中更新的参数。