提出GNN对自监督学习和pre-training较少。本文提出了GraphCL框架,用于学习图的无监督表示。设计四种类型的数据增强,在不同的settings(learning rate,batch size,dropout参数)下,研究这四种增强对不同数据集的影响。
大多数graph-level的任务场景,GNN都是在监督的情况下进行端到端的训练,对自监督预训练的探索很少。自监督通常用作产生梯度爆炸或消失的深层架构,大多数图数据集在大小上受到了限制,而且GNN通常是浅层架构以避免过度平滑。
然而,特定任务的数据集标签可能稀缺,且预训练是有前途的技术。
GNN需要预训练的原因:现实世界的图数据甚至基准数据集也变得越来越庞大,预训练也可以找到更好的参数。
对比学习旨在通过不同增强视图下最大化特征一致性来学习表示。
本文的贡献:
(1)设计了四种数据增强;
(2)提出了一种用于GNN预训练的图对比框架GraphCL;
(3)评估不同类型数据集上对比不同增强的性能,揭示性能的基本原理;
(4)GraphCL 在半监督学习、无监督表示学习和迁移学习的设置中实现了最先进的性能。它还增强了针对常见对抗性攻击的鲁棒性。
可能不存在像图像那样普遍合适的图像增强。
关注三类数据:生化分子、社交网络和super-pixel graphs
四种图数据增强
(1)Node dropping:随机丢弃部分节点及其连接,先验条件是缺失部分节点不会影响G的语义;
(2)Edge perturbation:随机添加或删除一定比例的边来扰乱G中的连通性,意味着G的语义对边缘连接具有一定鲁棒性;
(3)Atrribute masking:使用上下文信息恢复屏蔽的节点属性,假设是丢失部分节点属性不会对模型预测产生太大影响;
(4)Subgraph:使用random walk从G中采样子图,假设G的语义在局部结构中很好的保留。
本文提出了用于(自监督)GNN预训练的图对比学习框架(GraphCL)。由四部分组成:
(1)Graph data augmentation;
(2)GNN-based encoder:提取图级表示向量;
(3)Projection head:非线性变换g(.),将表示向量映射到另一latent space,在该潜在空间中计算对比损失,用两层MLP来获取zi,zj;
(4)Contrastive loss function:定义L来最大化正样本对zi,zj与负样本对之间的一致性。
不同数据增强的loss曲线
从该曲线可以看出,对于不同的数据增强类型对,loss下降速度总是比相同类型的数据增强慢,但应用相同的增强类型对通常不会带来最佳的性能。
边缘扰动有利于社交网络,但会损害生化分子网络。由热力图可知,EdgePert提高了社交网络数据集COLLAB和ROT-B以及PROTEINS的性能,但损害了NCI1的性能。从这些信息可以得出,与社交网络相比,一些生物分子数据语义对于Edge更加敏感。比如NCI1单边变化为共价键的移除或添加,这可能极大改变了化合物的性质。相比之下,社交网络更能容忍边缘扰动。
图1表明无论边缘扰动比率如何,边缘扰动都会使NCI1性能恶化,图2表明随着扰动比率的增大,提高了COLLAB的性能。
图3、4假设AttrMask也很重要,Masking Ratio越高,可以看出在RDT-B和COLLAB数据集上其性能更好。
采取masking distribution deg α n而不是均匀分布后,n为节点度数,α为控制因子,α越大表明高度数节点被mask的更多。有上述两图可知,对于密集的COLLAB数据集,α越大,性能越好。
节点删除在数据集中通常是有益的。丢弃了某些节点(如化合物中的H原子或者社交网络的边缘节点)不会改变语义信息。subgraph一般来说也对所有数据集都有益。
由上述两图可知,对于密集的COLLAB数据集,看出α越大性能越好;对于PROTEINS数据集这个不太稠密的图,α越大性能不一定越好。
Semi-supervised learning.
Unsupervised representation learning.
Transfer learning.
Adversarial robustness.