提出了对抗性图对比学习——AD-GCL,它通过优化GCL中使用的对抗性图增强策略,使GNN在训练过程中避免捕获冗余(图特征)信息。
InfoMax原则可能会有风险,因为它可能会推动编码器捕获与下游任务无关的冗余信息。与InfoMax不同,information bottleneck(IB)要求编码器捕获下游任务的最小的足够信息。具体来说,IB最小化来自原始数据的信息,同时最大化与下游任务相关的信息。随着冗余信息被移除,IB学习到的编码器往往更鲁棒和可转移。
当有关下游任务的知识不可用时,如何训练可能删除冗余信息的GNN?本文提出了一个方法,将GCL与对抗性训练相匹配,称为AD-GCL。AD-GCL由两个组成部分组成:
AD-GCL本质上允许编码器捕获最小的足够信息来区分数据集中的图。结果表明,在增强器的搜索空间上有一定的正则化,AD-GCL可以产生下游任务相关信息的下界保证,同时保持原始图中冗余信息的上界保证,匹配IB原理的目标。
我们进一步给出了AD-GCL的一个实例化:GNN增强器使用了一个任务不可知的增强策略,并且将学习一个与输入图相关的非均匀边丢弃概率来执行图的增强。
属性图 G = ( V , E ) G=(V,E) G=(V,E),其中 V V V是节点集, E E E是边集。 G G G可能具有维度为 F F F的节点属性 { X v ∈ R F ∣ v ∈ V } \{X_v∈\mathbb{R}^F|v∈V\} {Xv∈RF∣v∈V}和边属性 { X e ∈ R F ∣ e ∈ E } \{X_e∈\mathbb{R}^F|e∈E\} {Xe∈RF∣e∈E}。我们将节点 v v v的邻居集表示为 N v \mathcal{N}_v Nv。
给定空间 G \mathcal{G} G中的一组图 G i , i = 1 , 2 , . . . , n G_i,i=1,2,...,n Gi,i=1,2,...,n,目标是学习一个编码器 f : G → R d f:\mathcal{G}→\mathbb{R}^d f:G→Rd,其中 f ( G i ) f(G_i) f(Gi)可以进一步用于一些下游任务。我们还假设所有的 G i G_i Gi都是从定义在 G \mathcal{G} G上的未知分布 P G \mathbb{P}_\mathcal{G} PG中独立同分布地采样的。另一个模型 q : R d → Y q:\mathbb{R}^d→\mathcal{Y} q:Rd→Y 将学习基于 q ( f ( G i ) ) q(f(G_i)) q(f(Gi))的预测 Y i Y_i Yi。我们假设 ( G i , Y i ) (G_i,Y_i) (Gi,Yi)是从一个分布 P G × Y = P Y ∣ G P G \mathbb{P}_{\mathcal{G}×\mathcal{Y}}=\mathbb{P}_{\mathcal{Y}|\mathcal{G}}\mathbb{P}_{\mathcal{G}} PG×Y=PY∣GPG中独立同分布地采样的,其中 P Y ∣ G \mathbb{P}_{\mathcal{Y}|\mathcal{G}} PY∣G是在给定图的下游任务中图标签的条件分布。
对于图 G = ( V , E ) G=(V,E) G=(V,E),每个节点 v ∈ V v∈V v∈V将与初始化为 h v ( 0 ) = X v h_v^{(0)}=X_v hv(0)=Xv的节点表示 h v h_v hv配对。这些表示形式将通过GNN更新。在第 k k k次迭代中,每个 h v ( k − 1 ) h_v^{(k-1)} hv(k−1)使用 v v v的邻域信息进行更新:
其中, A G G R E G A T E ( ⋅ ) AGGREGATE(·) AGGREGATE(⋅)是一个可训练函数,它将节点表示集和边缘属性 X u v X_{uv} Xuv映射到一个聚合向量。 U P D A T E ( ⋅ ) UPDATE(·) UPDATE(⋅)是另一个可训练函数,它将 v v v当前的表示和聚合向量映射到 v v v的更新表示。在(1)迭代 K K K次后,图表示通过pool最终节点表示集得到:
图信息瓶颈(GIB)的目标如下:
其中, ( G , Y ) ∼ P G × Y (G,Y)\sim\mathbb{P}_{\mathcal{G}×\mathcal{Y}} (G,Y)∼PG×Y, β \beta β是一个正常数。比较(3)与(4),我们可以观察到InfoMax和GIB的不同:InfoMax要求最大化原始图中的信息;而GIB要求最小化原始图中的信息,但同时最大化与下游任务相关的信息。
不幸的是,GIB需要来自下游任务中的类标签 Y Y Y的知识,因此不适用于GNN的自监督训练。然后,问题就是如何以一种自监督的方式学习鲁棒的和可转移的GNN。
为了解决这个问题,我们将开发一种GCL方法,使用对抗性学习以避免在表示学习过程中捕获冗余信息。一般来说,GCL方法使用图数据增强(GDA)过程来扰乱原始的观测图,并减少它们编码的信息量。然后,这些方法在扰动图对(使用不同的GDA)上应用InfoMax来训练编码器 f f f以捕获剩余信息。
定义1:图数据增强(GDA)
对于一个图 G ∈ G G∈\mathcal{G} G∈G, T ( G ) T(G) T(G)表示 G G G的图数据增强,它是基于 G G G的在 G \mathcal{G} G上定义的分布。我们使用 t ( G ) ∈ G t(G)∈\mathcal{G} t(G)∈G来表示 T ( G ) T(G) T(G)的一个样本。
具体来说,给定两种GDA方式 T 1 T_1 T1和 T 2 T_2 T2,GCL的目标成为:
在实践中,GDA通常是基于领域知识或广泛的评估而预先设计的,而GDA的不当选择可能会严重影响下游性能。
与预定义的GDA相比,我们的想法受GIB的启发,是在一个参数化的家族上学习GDA,这样编码器 f f f就可以捕获足以识别每个图的最小信息。
AD-GCL:
我们通过一个GDA家族 T \mathcal{T} T(定义如下)优化以下目标:
定义2:图数据增强家族
设 T \mathcal{T} T表示不同GDAs T Φ ( ⋅ ) T_Φ(·) TΦ(⋅)的一个家族,其中 Φ Φ Φ是参数。一个 T Φ ( ⋅ ) ∈ T T_Φ(·)∈\mathcal{T} TΦ(⋅)∈T是一个带有参数 Φ Φ Φ的特定GDA。
AD-GCL中的min-max原理旨在训练编码器,使即使使用一个具有非常侵略性的GDA(即 t ( G ) t(G) t(G)与 G G G非常不同),扰动图和原始图之间的互信息/对应关系也可以最大化。与GDA-GCL(公式(5))中采用的两种GDA相比,AD-GCL将原始图 G G G视为锚,同时使其扰动 T ( G ) T(G) T(G)尽可能远离锚。对 T ∈ T T∈\mathcal{T} T∈T的自动搜索节省了评估GDA不同组合的大量工作。
将AD-GCL与下游任务相关联
接下来,我们将从理论上描述通过AD-GCL训练的编码器的特性。
定义3:图的商空间
如果 G 1 G_1 G1、 G 2 G_2 G2不能用1-WL检验来区分,则定义两个图之间的等价性 G 1 ≅ G 2 G_1\cong G_2 G1≅G2。定义商空间为 G ′ = G / ≅ \mathcal{G}'=\mathcal{G}/\cong G′=G/≅。
因此,商空间中的每个元素,即 G ′ ∈ G ′ G'∈\mathcal{G}' G′∈G′,都是来自1-WL检验无法区分的图家族中的一个代表性图。请注意,我们的定义在属性图上也成立。
定义4: G ′ \mathcal{G}' G′中的概率测量
在空间 G ′ \mathcal{G}' G′上定义 P G ′ \mathbb{P}_{\mathcal{G}'} PG′,使任何 G ′ ∈ G ′ G'∈\mathcal{G}' G′∈G′, P G ′ ( G ′ ) = P G ( G ≅ G ′ ) \mathbb{P}_{\mathcal{G}'}(G')=\mathbb{P}_{\mathcal{G}}(G\cong G') PG′(G′)=PG(G≅G′)。近一步定义 P G ′ × Y ( G ′ , Y ′ ) = P G × Y ( G ≅ G ′ , Y = Y ′ ) \mathbb{P}_{\mathcal{G}'×\mathcal{Y}}(G',Y')=\mathbb{P}_{\mathcal{G}×\mathcal{Y}}(G\cong G',Y=Y') PG′×Y(G′,Y′)=PG×Y(G≅G′,Y=Y′)。给定一个在 G \mathcal{G} G上定义的GDA T ( ⋅ ) T(·) T(⋅),定义一个 G ′ \mathcal{G}' G′上的分布,使得对于 G ′ ∈ G ′ G'∈\mathcal{G}' G′∈G′,有 T ′ ( G ′ ) = E G ∼ P G [ T ( G ) ∣ G ≅ G ′ ] T'(G')=\mathbb{E}_{G\sim\mathbb{P}_{\mathcal{G}}}[T(G)|G\cong G'] T′(G′)=EG∼PG[T(G)∣G≅G′]。
我们将编码器设置为具有可学习参数 Θ Θ Θ的GNN f Θ f_Θ fΘ,接下来我们将重点关注具有可学习参数 Φ Φ Φ的GDA, T Φ ( G ) T_Φ(G) TΦ(G)。
我们采用 Edge Dropping(删除图中的一些边)来表示GDA家族 T \mathcal{T} T。
对于每个图 G = ( V , E ) G=(V,E) G=(V,E),我们设置 T Φ ( G ) , T ∈ T T_Φ(G),T∈\mathcal{T} TΦ(G),T∈T作为 G G G上的随机图模型。每个样本 t ( G ) ∼ T Φ ( G ) t(G)\sim T_Φ(G) t(G)∼TΦ(G)是一个与 G G G共享相同节点集的图,而边集 t ( G ) t(G) t(G)只是 E E E的一个子集。每条边 e ∈ E e∈E e∈E将与一个随机变量 p e ∼ B e r n o u l l i ( ω e ) p_e∼Bernoulli(ω_e) pe∼Bernoulli(ωe)相关联,其中如果 p e = 1 p_e=1 pe=1,则 e e e在 t ( G ) t(G) t(G)中,否则被删除。
我们利用另一个GNN,即增强器,根据公式(1)在 G G G上运行 K K K层,得到最后一层节点表示 { h v ( K ) ∣ v ∈ V } \{h_v^{(K)}|v∈V\} {hv(K)∣v∈V}以及集合
为了以端到端的方式训练 T ( G ) T(G) T(G),我们将离散的 p e p_e pe转化为[0,1]间的一个连续变量,并利用了Gumbel-Max重参数化技巧。具体来说, p e = S i g m o i d ( ( l o g δ − l o g ( 1 − δ ) + w e ) / τ ) p_e=Sigmoid((log\delta-log(1-\delta)+w_e)/\tau) pe=Sigmoid((logδ−log(1−δ)+we)/τ),其中 δ ∼ U n i f o u n ( 0 , 1 ) δ∼Unifoun(0,1) δ∼Unifoun(0,1)。随着温度超参数 τ → 0 τ→0 τ→0, p e p_e pe更接近于二进制的值。此外,梯度 ∂ p e ∂ ω e \frac{∂p_e}{∂ω_e} ∂ωe∂pe是光滑和定义的。
一个合理的GDA应保留与下游任务相关的一定数量的信息。因此,我们期望edge dropping家族 T \mathcal{T} T中的GDA不会执行非常激进的扰动。
我们通过强制执行以下约束来规则化每个图中被丢弃的边的比率:对于一个图 G G G及其增广图 t ( G ) t(G) t(G),我们在其目标中添加 ∑ e ∈ E ω e / ∣ E ∣ \sum_{e∈E}ω_e/|E| ∑e∈Eωe/∣E∣,其中 ω e ω_e ωe(公式(7)中定义)表示 e e e被丢弃的概率。
最终的目标如下:
其中,第二项(正则化)很容易先验地评估。对于第一项(互信息),在训练过程中,给定一个包含 m m m个图 { G i } i = 1 m \{G_i\}^m_{i=1} {Gi}i=1m的小批次,令 z i , 1 = g ( f Θ ( G i ) ) z_{i,1}=g(f_Θ(G_i)) zi,1=g(fΘ(Gi))、 z i , 2 = g ( f Θ ( t ( G i ) ) ) z_{i,2}=g(f_Θ(t(G_i))) zi,2=g(fΘ(t(Gi))),其中 g ( ⋅ ) g(·) g(⋅)是由2层MLP实现的投影头。用 s i m ( ⋅ , ⋅ ) sim(·,·) sim(⋅,⋅)表示余弦相似性,小批次的互信息如下: