【论文阅读】AD-GCL:Adversarial Graph Augmentation to Improve Graph Contrastive Learning

目录

  • 摘要
  • 1 引言
  • 2 准备工作
    • 2.1 学习图表示
    • 2.2 GNNs
    • 2.3 互信息最大化
  • 3 对抗性图对比学习
    • 3.1 AD-GCL的理论动机及制定
    • 3.2 通过可学习的边缘扰动实例化AD-GCL
      • 3.2.1 可学习的Edge Dropping GDA模型 T Φ ( ⋅ ) T_Φ(·) TΦ()
      • 3.2.2 参数化 T Φ ( ⋅ ) T_Φ(·) TΦ()
      • 3.2.3 调整 T Φ ( ⋅ ) T_Φ(·) TΦ()
  • 4 实验

摘要

提出了对抗性图对比学习——AD-GCL,它通过优化GCL中使用的对抗性图增强策略,使GNN在训练过程中避免捕获冗余(图特征)信息。

1 引言

InfoMax原则可能会有风险,因为它可能会推动编码器捕获与下游任务无关的冗余信息。与InfoMax不同,information bottleneck(IB)要求编码器捕获下游任务的最小的足够信息。具体来说,IB最小化来自原始数据的信息,同时最大化与下游任务相关的信息。随着冗余信息被移除,IB学习到的编码器往往更鲁棒和可转移。

当有关下游任务的知识不可用时,如何训练可能删除冗余信息的GNN?本文提出了一个方法,将GCL与对抗性训练相匹配,称为AD-GCL。AD-GCL由两个组成部分组成:

  1. 一个GNN编码器。它采用InfoMax来最大化原始图与其增广图的表示之间的互信息
  2. 一个基于GNN的增强器。其旨在优化增强策略,以尽可能减少原始图中的冗余信息

AD-GCL本质上允许编码器捕获最小的足够信息来区分数据集中的图。结果表明,在增强器的搜索空间上有一定的正则化,AD-GCL可以产生下游任务相关信息的下界保证,同时保持原始图中冗余信息的上界保证,匹配IB原理的目标。

我们进一步给出了AD-GCL的一个实例化:GNN增强器使用了一个任务不可知的增强策略,并且将学习一个与输入图相关非均匀边丢弃概率来执行图的增强。

2 准备工作

属性图 G = ( V , E ) G=(V,E) G=(V,E),其中 V V V是节点集, E E E是边集。 G G G可能具有维度为 F F F的节点属性 { X v ∈ R F ∣ v ∈ V } \{X_v∈\mathbb{R}^F|v∈V\} {XvRFvV}和边属性 { X e ∈ R F ∣ e ∈ E } \{X_e∈\mathbb{R}^F|e∈E\} {XeRFeE}。我们将节点 v v v的邻居集表示为 N v \mathcal{N}_v Nv

2.1 学习图表示

给定空间 G \mathcal{G} G中的一组图 G i , i = 1 , 2 , . . . , n G_i,i=1,2,...,n Gi,i=1,2,...,n,目标是学习一个编码器 f : G → R d f:\mathcal{G}→\mathbb{R}^d f:GRd,其中 f ( G i ) f(G_i) f(Gi)可以进一步用于一些下游任务。我们还假设所有的 G i G_i Gi都是从定义在 G \mathcal{G} G上的未知分布 P G \mathbb{P}_\mathcal{G} PG中独立同分布地采样的。另一个模型 q : R d → Y q:\mathbb{R}^d→\mathcal{Y} q:RdY 将学习基于 q ( f ( G i ) ) q(f(G_i)) q(f(Gi))的预测 Y i Y_i Yi。我们假设 ( G i , Y i ) (G_i,Y_i) (Gi,Yi)是从一个分布 P G × Y = P Y ∣ G P G \mathbb{P}_{\mathcal{G}×\mathcal{Y}}=\mathbb{P}_{\mathcal{Y}|\mathcal{G}}\mathbb{P}_{\mathcal{G}} PG×Y=PYGPG中独立同分布地采样的,其中 P Y ∣ G \mathbb{P}_{\mathcal{Y}|\mathcal{G}} PYG是在给定图的下游任务中图标签的条件分布。

2.2 GNNs

对于图 G = ( V , E ) G=(V,E) G=(V,E),每个节点 v ∈ V v∈V vV将与初始化为 h v ( 0 ) = X v h_v^{(0)}=X_v hv(0)=Xv的节点表示 h v h_v hv配对。这些表示形式将通过GNN更新。在第 k k k次迭代中,每个 h v ( k − 1 ) h_v^{(k-1)} hv(k1)使用 v v v的邻域信息进行更新:
在这里插入图片描述
其中, A G G R E G A T E ( ⋅ ) AGGREGATE(·) AGGREGATE()是一个可训练函数,它将节点表示集和边缘属性 X u v X_{uv} Xuv映射到一个聚合向量。 U P D A T E ( ⋅ ) UPDATE(·) UPDATE()是另一个可训练函数,它将 v v v当前的表示和聚合向量映射到 v v v的更新表示。在(1)迭代 K K K次后,图表示通过pool最终节点表示集得到:
在这里插入图片描述

2.3 互信息最大化

GCL的目标如下:
在这里插入图片描述

3 对抗性图对比学习

3.1 AD-GCL的理论动机及制定

图信息瓶颈(GIB)的目标如下:
在这里插入图片描述
其中, ( G , Y ) ∼ P G × Y (G,Y)\sim\mathbb{P}_{\mathcal{G}×\mathcal{Y}} (G,Y)PG×Y β \beta β是一个正常数。比较(3)与(4),我们可以观察到InfoMax和GIB的不同:InfoMax要求最大化原始图中的信息;而GIB要求最小化原始图中的信息,但同时最大化与下游任务相关的信息

不幸的是,GIB需要来自下游任务中的类标签 Y Y Y的知识,因此不适用于GNN的自监督训练。然后,问题就是如何以一种自监督的方式学习鲁棒的和可转移的GNN

为了解决这个问题,我们将开发一种GCL方法,使用对抗性学习以避免在表示学习过程中捕获冗余信息。一般来说,GCL方法使用图数据增强(GDA)过程来扰乱原始的观测图,并减少它们编码的信息量。然后,这些方法在扰动图对(使用不同的GDA)上应用InfoMax来训练编码器 f f f以捕获剩余信息。

定义1:图数据增强(GDA)

对于一个图 G ∈ G G∈\mathcal{G} GG T ( G ) T(G) T(G)表示 G G G的图数据增强,它是基于 G G G的在 G \mathcal{G} G上定义的分布。我们使用 t ( G ) ∈ G t(G)∈\mathcal{G} t(G)G来表示 T ( G ) T(G) T(G)的一个样本。

具体来说,给定两种GDA方式 T 1 T_1 T1 T 2 T_2 T2,GCL的目标成为:
在这里插入图片描述
在实践中,GDA通常是基于领域知识或广泛的评估而预先设计的,而GDA的不当选择可能会严重影响下游性能。

与预定义的GDA相比,我们的想法受GIB的启发,是在一个参数化的家族上学习GDA,这样编码器 f f f就可以捕获足以识别每个图的最小信息

AD-GCL:

我们通过一个GDA家族 T \mathcal{T} T(定义如下)优化以下目标:
在这里插入图片描述
定义2:图数据增强家族

T \mathcal{T} T表示不同GDAs T Φ ( ⋅ ) T_Φ(·) TΦ()的一个家族,其中 Φ Φ Φ是参数。一个 T Φ ( ⋅ ) ∈ T T_Φ(·)∈\mathcal{T} TΦ()T是一个带有参数 Φ Φ Φ的特定GDA。

AD-GCL中的min-max原理旨在训练编码器,使即使使用一个具有非常侵略性的GDA(即 t ( G ) t(G) t(G) G G G非常不同),扰动图和原始图之间的互信息/对应关系也可以最大化。与GDA-GCL(公式(5))中采用的两种GDA相比,AD-GCL将原始图 G G G视为锚,同时使其扰动 T ( G ) T(G) T(G)尽可能远离锚。对 T ∈ T T∈\mathcal{T} TT的自动搜索节省了评估GDA不同组合的大量工作。

将AD-GCL与下游任务相关联

接下来,我们将从理论上描述通过AD-GCL训练的编码器的特性。

定义3:图的商空间

如果 G 1 G_1 G1 G 2 G_2 G2不能用1-WL检验来区分,则定义两个图之间的等价性 G 1 ≅ G 2 G_1\cong G_2 G1G2。定义商空间为 G ′ = G / ≅ \mathcal{G}'=\mathcal{G}/\cong G=G/

因此,商空间中的每个元素,即 G ′ ∈ G ′ G'∈\mathcal{G}' GG,都是来自1-WL检验无法区分的图家族中的一个代表性图。请注意,我们的定义在属性图上也成立。

定义4: G ′ \mathcal{G}' G中的概率测量

在空间 G ′ \mathcal{G}' G上定义 P G ′ \mathbb{P}_{\mathcal{G}'} PG,使任何 G ′ ∈ G ′ G'∈\mathcal{G}' GG P G ′ ( G ′ ) = P G ( G ≅ G ′ ) \mathbb{P}_{\mathcal{G}'}(G')=\mathbb{P}_{\mathcal{G}}(G\cong G') PG(G)=PG(GG)。近一步定义 P G ′ × Y ( G ′ , Y ′ ) = P G × Y ( G ≅ G ′ , Y = Y ′ ) \mathbb{P}_{\mathcal{G}'×\mathcal{Y}}(G',Y')=\mathbb{P}_{\mathcal{G}×\mathcal{Y}}(G\cong G',Y=Y') PG×Y(G,Y)=PG×Y(GG,Y=Y)。给定一个在 G \mathcal{G} G上定义的GDA T ( ⋅ ) T(·) T(),定义一个 G ′ \mathcal{G}' G上的分布,使得对于 G ′ ∈ G ′ G'∈\mathcal{G}' GG,有 T ′ ( G ′ ) = E G ∼ P G [ T ( G ) ∣ G ≅ G ′ ] T'(G')=\mathbb{E}_{G\sim\mathbb{P}_{\mathcal{G}}}[T(G)|G\cong G'] T(G)=EGPG[T(G)GG]

定理1:
【论文阅读】AD-GCL:Adversarial Graph Augmentation to Improve Graph Contrastive Learning_第1张图片

3.2 通过可学习的边缘扰动实例化AD-GCL

【论文阅读】AD-GCL:Adversarial Graph Augmentation to Improve Graph Contrastive Learning_第2张图片
AD-GCL的目标有两个方面:

  1. 优化编码器 f f f,使原始图 G G G与其增广图 t ( G ) t(G) t(G)的表示之间的互信息最大化;
  2. 优化GDA T ( G ) T(G) T(G),其中T(G)被采样,以最小化互信息。

我们将编码器设置为具有可学习参数 Θ Θ Θ的GNN f Θ f_Θ fΘ,接下来我们将重点关注具有可学习参数 Φ Φ Φ的GDA, T Φ ( G ) T_Φ(G) TΦ(G)

3.2.1 可学习的Edge Dropping GDA模型 T Φ ( ⋅ ) T_Φ(·) TΦ()

我们采用 Edge Dropping(删除图中的一些边)来表示GDA家族 T \mathcal{T} T

3.2.2 参数化 T Φ ( ⋅ ) T_Φ(·) TΦ()

对于每个图 G = ( V , E ) G=(V,E) G=(V,E),我们设置 T Φ ( G ) , T ∈ T T_Φ(G),T∈\mathcal{T} TΦ(G),TT作为 G G G上的随机图模型。每个样本 t ( G ) ∼ T Φ ( G ) t(G)\sim T_Φ(G) t(G)TΦ(G)是一个与 G G G共享相同节点集的图,而边集 t ( G ) t(G) t(G)只是 E E E的一个子集。每条边 e ∈ E e∈E eE将与一个随机变量 p e ∼ B e r n o u l l i ( ω e ) p_e∼Bernoulli(ω_e) peBernoulli(ωe)相关联,其中如果 p e = 1 p_e=1 pe=1,则 e e e t ( G ) t(G) t(G)中,否则被删除。

我们利用另一个GNN,即增强器,根据公式(1)在 G G G上运行 K K K层,得到最后一层节点表示 { h v ( K ) ∣ v ∈ V } \{h_v^{(K)}|v∈V\} {hv(K)vV}以及集合
在这里插入图片描述
为了以端到端的方式训练 T ( G ) T(G) T(G),我们将离散的 p e p_e pe转化为[0,1]间的一个连续变量,并利用了Gumbel-Max重参数化技巧。具体来说, p e = S i g m o i d ( ( l o g δ − l o g ( 1 − δ ) + w e ) / τ ) p_e=Sigmoid((log\delta-log(1-\delta)+w_e)/\tau) pe=Sigmoid((logδlog(1δ)+we)/τ),其中 δ ∼ U n i f o u n ( 0 , 1 ) δ∼Unifoun(0,1) δUnifoun(0,1)。随着温度超参数 τ → 0 τ→0 τ0 p e p_e pe更接近于二进制的值。此外,梯度 ∂ p e ∂ ω e \frac{∂p_e}{∂ω_e} ωepe是光滑和定义的。

3.2.3 调整 T Φ ( ⋅ ) T_Φ(·) TΦ()

一个合理的GDA应保留与下游任务相关的一定数量的信息。因此,我们期望edge dropping家族 T \mathcal{T} T中的GDA不会执行非常激进的扰动。

我们通过强制执行以下约束来规则化每个图中被丢弃的边的比率:对于一个图 G G G及其增广图 t ( G ) t(G) t(G),我们在其目标中添加 ∑ e ∈ E ω e / ∣ E ∣ \sum_{e∈E}ω_e/|E| eEωe/E,其中 ω e ω_e ωe(公式(7)中定义)表示 e e e被丢弃的概率。

最终的目标如下:
在这里插入图片描述
其中,第二项(正则化)很容易先验地评估。对于第一项(互信息),在训练过程中,给定一个包含 m m m个图 { G i } i = 1 m \{G_i\}^m_{i=1} {Gi}i=1m的小批次,令 z i , 1 = g ( f Θ ( G i ) ) z_{i,1}=g(f_Θ(G_i)) zi,1=g(fΘ(Gi)) z i , 2 = g ( f Θ ( t ( G i ) ) ) z_{i,2}=g(f_Θ(t(G_i))) zi,2=g(fΘ(t(Gi))),其中 g ( ⋅ ) g(·) g()是由2层MLP实现的投影头。用 s i m ( ⋅ , ⋅ ) sim(·,·) sim(,)表示余弦相似性,小批次的互信息如下:
在这里插入图片描述

4 实验

【论文阅读】AD-GCL:Adversarial Graph Augmentation to Improve Graph Contrastive Learning_第3张图片

你可能感兴趣的:(图神经网络,自监督学习,对比学习,深度学习,机器学习,概率论)