论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型

论文笔记整理:陈名杨,浙江大学在读博士生,研究方向为知识图谱表示学习。


论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型_第1张图片

图表示学习是一个当前关注度较高的领域,并且有许多真实的应用。然而当前的很多图表示学习方法都是对一个领域或者某一个图训练一个模型,也就是说这些训练的模型是不能迁移到领域外新的数据。这篇文章受到在NLP领域预训练工作的启发,设计了一种无监督的图对比编码(Graph Contrastive Coding,GCC)模型,来捕获不同图之间的全局拓扑特征。这里将GCC的预训练任务设计为区分不同图内不同点的局部子图结构,并且利用对比学习(Contrastive Learning)来学习到一些固有的、可迁移的结构表示。

这里提出的GGC的整体思想是,在预训练阶段,给一些不同的图,然后在上面做一些自监督学习,预训练得到一个表示学习的模型,然后把这个模型用在一些更多没有见过的的图上对不同的任务进行微调,下面将对具体的方法及模型的设计进行介绍。

这里预训练的任务是instance discrimination,也就是将每个节点看作是一个自己的类,然后区分不同节点作为学习目标。从对比学习的视角来看待,给定一个被编码的query q,以及一个包含K个keys的字典,对比学习是要在dictionary里面找一个和query最匹配的key认为是和query同类的实例,在这篇文章中使用的InfoNCE作为学习目标,

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型_第2张图片

除了这个整体的学习目标外还需要考虑下面一些问题。

1. 如何设计图中的实例?

既然使用对比学习作为整个方法的总体目标,这里需要设计对比的实例,在本篇文章中,作者使用图中节点的r-ego network作为这个节点的实例表示,这r-ego network就是以某一个点为中心,其他点和这个点的最短距离小于r的点的集合的sub-graph。

2. 如何设计实例间的相似和不相似?

在计算机视觉中,有多种的数据增强方式。在本篇文章的场景中,把对于同一个点的两个采样结果不同的r-ego network作为相似的实例,而把不同点的采样作为不相似实例。

3. 如何设计图的编码方式?

这里使用一种当前SOTA的GNN方法Graph Isomorphism Network(GIN)作为对图的encoder方法。

整体方法的流程图如下所示:

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型_第3张图片

实验部分,该模型在不同的图上进行与训练,其中与训练所使用的数据集如下,

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型_第4张图片

在下游任务的实验中,尝试了不同对比学习策略(E2E,MoCo)以及不同的微调策略,实验结果如下,

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型_第5张图片

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型_第6张图片

论文浅尝 – KDD2020 | 使用图对比编码的图神经网络预训练模型_第7张图片

       这篇文章提出的基于对比学习的图预训练模型可以有效的建模和迁移图中的结构特征从而达到预训练的目的,对比其他的从头开始学习的监督学习模型,该模型也可以获得相当的测试表现。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

你可能感兴趣的:(神经网络,机器学习,人工智能,深度学习,算法)