论文学习:Graph Data Augmentation for Graph Machine Learning: A Survey

Graph Data Augmentation for Graph Machine Learning: A Survey 图数据增强

  • 1.有监督学习的图数据增强
    • 1.1 节点级任务
      • 1.1.1 Edge Dropping(减少边)
      • 1.1.2 Graph Diffusion(图扩散)
      • 1.1.3 Structure Prediction (结构预测)
      • 1.1.4 Feature Augmentation(特征增强)
      • 1.1.5 Mixup(图融合)
      • 1.1.6 AutoML
    • 1.2 图级任务
    • 1.3 边级任务
  • 2.自监督学习的图数据增强
    • 2.1 Contrastive Learning
      • 2.1.1 Corruption
      • 2.1.2 Graph diffusion
      • 2.1.3 Automated GDA
    • 2.2 Consistency Learning

图数据的 不规则结构非欧几里德结构,并且图数据是 非独立同分布的导致图数据增强(graph data augmentation)不能与CV、NLP等领域的数据增强相提并论。
论文原文: https://github.com/zhao-tong/graph-data-augmentation-papers
论文学习:Graph Data Augmentation for Graph Machine Learning: A Survey_第1张图片本文主要调研了图数据增强的一些方案,并做了结构化的整理。属于调研报告类型的文章。图数据的增强的思路类似于CV,NLP,主要通过修改新增来构建数据对象。

图数据增强的方式根据具体任务的不同,应该采用不同的方式:

  1. Node Augmentations
    从图中删除/新增节点的方法 eg:结合两个节点制造新的节点,屏蔽节点特征来屏蔽来删除节点

  2. Edge Augmentations
    通过添加/删除边来修改图的连接性的GDA操作,可以随机删除,也可以按照规则删除边。

  3. Feature Augmentations
    是用来修改或创建原始节点特性的GDA操作。 eg:随机掩蔽节的特征;基于梯度的对抗扰动增强节点特征

  4. Subgraph Augmentation
    指在图级别上操作的GDA操作,如裁剪子图或创建新图。

1.有监督学习的图数据增强

根据任务类型的不同分别讨论。

1.1 节点级任务

1.1.1 Edge Dropping(减少边)

随机删除一定数量的边,

DropEdge:随机删除一定比例的边 优点:显著的防止了模型的梯度消失,提高了模型的泛化能力 缺点:可能会删除重要信息破坏图本身的语义。

Neu-ralSparse:
1.利用了一个基于MLP的图稀疏化模型,该模型学会了只去除可能与任务无关的边
2.将图稀疏化模型与GNN共同对节点分类损失进行监督和训练。

PTDNet
进一步应用核范数正则化损失,利用图稀疏化模型对修改后的图施加低秩约束。

TADropEdge
利用图谱生成边权,表示图连通性的临界值。使用边的权值作为概率来删除边。 FairDrop 双向丢弃带有敏感属性的边,以防止不公平

1.1.2 Graph Diffusion(图扩散)

图扩散的方案
personalized PageRank (PPR) heat kernal along with graph
sparsifification, ?
GDC :GDC允许gnn从多跳信息中学习,而无需专门重新设计模型.

MV-GCN:
使用PPR和heatkernal生成两个互补的视图,并从创建的视图和原始图中学习。MV-GCN使用一致性正则化损失来减少从三个视图中学习到的表示的分布距离。

1.1.3 Structure Prediction (结构预测)

基于预测的GDA技术更新了图的结构,以增强图中的任务相关信息。

GAug-M/GAug-O 通过边预测器来更新图的结构。 GAug-M确定性的修改了图结构 GAug-O在每个epoch采样子图
AdaEdge 根据节点分类预测迭代添加/删除边。 在每个epoch中,AdaEdge都会在预测属于同一类的节点之间添加边,反之亦然。
Pro-GNN 以低秩性质和特征平滑性的约束条件更新了图的结构。
MH-Aug
创建一个“显式”目标分布,具有控制强度和多样性,对增广图进行采样。由于从复杂的目标分布中采样是不可行的,因此MH-Aug采用了大都会星星算法来获得增广样本
Eland
用于时间戳用户项二部图的异常检测任务。Eland首先将用户-项图转换为用户的动作序列,并采用seq2seq模型对未来的动作进行预测。预测的用户操作被添加回图中,以生成增强的图数据。由于增强图包含更丰富的用户行为信息,Eland提高了异常检测性能,并在早期检测异常。

1.1.4 Feature Augmentation(特征增强)

FLAG 利用对抗性训练,用基于梯度的对抗性扰动迭代地增强节点特征
LA-GNN 通过基于局部邻域的条件分布生成额外的节点特征,从而增强了节点表示的局部性。生成的特性直接与原始节点特性一起使用
SR+DR 使用DeepWalk 生成拓扑特征,并使用具有拓扑规则化的双GNN模型来联合训练原始和拓扑特征

1.1.5 Mixup(图融合)

Mixup 合并两个图,生成带有加权标签的新图。由于图的依赖和非欧几里得结构,对图数据的直接模拟不明显
GraphMix 即通过全连接网络来增强gnn的训练, Wang等人[2021b]提出了图混合,它将混合类似为一个双分支图卷积模块。给定一对节点,图混合器混合它们的原始特征,将它们送入两个分支的GNN层,并混合它们对每一层的隐藏表示。在特征和隐藏状态上混合节点可以避免重新组装两个节点的局部邻域

1.1.6 AutoML

AutoGRL
针对节点分类任务的。通过训练过程,AutoGRL学习了GDA操作、GNN架构和超参数的最佳组合。AutoGRL的搜索空间包括通过随机掩蔽和GAug-M实现的四种GDA操作删除特征、删除节点、添加边和删除边

1.2 图级任务

在图级任务中,如果图与图之间是独立的可以按照CV,NLP的思路进行数据增强。

GraphCrop 从每个给定的图对象中裁剪一个连续的子图。GraphCrop采用基于图扩散的节点中心策略来保持原始图的拓扑特性。

M-Evolve
利用基本模式来增强图形数据。M-Evolve首先在图中找到并选择目标基本模式,然后根据使用资源分配索引计算的抽样权重,在所选择的基本模式中添加或删除边。????

MoCL 利用生物医学领域知识来增强诸如官能团等子结构上的分子图。MoCL从每个分子图中选择一个子结构,并用另一个子结构替换它。
Graph 也适用于图分类。图混合器混合了这对图的潜在表示。 Mixup
直接将Mixup应用于图数据,而不是潜在空间。由于这对图是不规则的,并且两个图中的节点没有对齐,如果Mixup任意分配给每个图中的节点的索引,并根据索引匹配节点
Graph Transparent
也会在数据空间中混合图。使用子结构作为混合单元来保存局部结构信息。利用节点显著性信息从每个图中选择一个有意义的子结构,其中显著性信息为定义为分类损失梯度的l2范数???

1.3 边级任务

CFLP
CFLP提出了一个反事实的问题:“如果图的结构与观察结果不同,这种联系还会存在吗?”
为了回答这个问题,CFLP用给定的训练数据和生成的反事实链接(作为增强数据)对链接预测模型进行训练。

MeTA
用于时间图上链路预测的MeTA。
MeTA包含一个多级别的模块,它在不同的级别上处理不同大小的增强图。MeTA对时间图采用了三种增强操作:修改边上的时间戳的扰动时间,删除与DropEdgg相似的边,以及添加使用不同时间戳重复现有边的边。在训练和预测过程中,MeTA执行跨级别的消息传递,以提供自适应增强的输入图。

2.自监督学习的图数据增强

自我监督目标通过最大化学习表示的(不)一致性来学习对噪声和扰动具有鲁棒性的表示。
大多数用于自我监督学习的GDA技术都是随机增强技术,旨在破坏给定的图数据。倾向于使用几种简单的GDA操作的组合

2.1 Contrastive Learning

对比学习的目的是最大限度地提高不同对象的表征之间的距离,并最小化从同一对象的不同视图学习到的表征之间的距离。数据增强通常用于生成对比学习的不同视图。

2.1.1 Corruption

DGI 采用特征变换,对原始节点特征矩阵x进行行变换。
DGI的特征变换也可以视为图中节点的随机交换 GraphCL 采用四种GDA操作:
节点删除,随机删除节点及其边缘,
边缘扰动随,机添加或删除边,
随机掩蔽某些节点属性的属性屏蔽,
对连通子图进行采样的子图采样。

SUBGCON 利用子图采样器对增广子图进行采样。
GRACE & BGRL 只使用基本的随机边删除和属性掩蔽来创建图的不同视图

2.1.2 Graph diffusion

MVGRL 采用GDC提出的扩散图作为第二种视图。
MV-CGC采用了一个类似的对比学习框架,有三个观点:原始图、扩散图和他们提出的特征相似性视图。MV-CGC学习的节点表示在节点分类上优于MVGRL学习的节点表示。

2.1.3 Automated GDA

JOAO
将GraphCL的GDA选择模型[You等人,2020]作为一个二层优化问题,其中外部层学习增强策略,而内部层学习具有给定的增强量的图表示。
AD-GCL 利用对抗性图增强策略来避免随机增强带来的冗余信息。 LG2AR
学习了一个概率策略,其中包含一组不同增强操作的分布,并从每个epoch的策略中采样增强策略。
GCA 基于节点中心性度量设计自适应增强。与上述为数据集找到最佳增强策略不同,GCA的自适应增强根据节点的重要性对节点进行不同的增强。
FairAug 利用自适应增强进行公平图表示学习

2.2 Consistency Learning

一致性损失通过kl-散度等度量来比较一批表示的分布

NodeAug使用了三种基于局部结构的增强操作:替换属性、删除边和添加边。NodeAug最小化了从原始图和增强图中学习到的节点表示之间的kl散度。
GRAND 创建了具有节点删除和特征屏蔽的多个不同的增强图。一致性损失然后使从增广图中学习到的表示的距离最小化。

你可能感兴趣的:(学习笔记,机器学习,学习,人工智能)