本文还未正式出版(2020/4/11,在第二轮review),作者来自吉林大学杨博老师团队(请原谅一作大佬我不认识hhh)。话说杨博老师确实是位负责、有学术精神且高产的好老师,欢迎大家踊跃报考哈。
消息传递神经网络(MPNNs)的两个基本缺陷限制了它们表示图形结构数据的能力:丢失了邻居节点的结构信息(注意,这也是在GCN中非常普遍的一个问题,现在的学者们甚至不好确定网络的结构信息在图卷积中到底起到了一个什么作用),以及缺乏在异配图(disassortative graphs)中捕获长期依赖关系的能力。所以本文提出了一种新的图形神经网络的几何聚合方案来克服这两个缺点。其背后的基本思想是,图形上的聚合可以受益于图的潜在空间。该聚合方案具有置换不变性,由节点嵌入、结构邻域和双层聚合三个模块组成。还提出了一种在图形卷积网络中实现该方案的模型:Geom-GCN,并证明了其有效性。
上述摘要中提到了以往MPNN中的缺点:
Geom-GCN聚合方案由节点嵌入(panel A1-A3)、结构邻域(panel B)、双层聚合(panel C)三个模块组成:
A. Node embedding。将图中的节点映射到一个潜在的连续空间。在映射过程中,图形的结构和性质被保留下来,并以潜在空间的几何形式呈现出来。这个嵌入方法可以有多种,比如Node2vec。
B. Structural neighborhood。在潜在空间中,构建结构邻域,也就是说距离相近的结点被认为相邻。这个邻域用如下式子表示:
对于结点v,其邻域结构由两部分构成。其一,原空间中结点v的邻居结点Ng(v);其二,潜在空间中的结点Ns(v),是距离当前结点v小于预定义距离ρ的结点的集合。这样一来,在原图中距离长但是相似的结点的特征就会被潜在空间保留下来。后者的形式化描述如下:
d(; )是潜在空间中的距离函数。τ操作被用于计算两个结点在潜在空间的关系,它输入一个结点对(z_u, z_v),输出一个潜在空间中的几何关系r:
在图B中,每个颜色的格子都代表了一种几何关系r。
C. Bi-level aggregation。双层聚合由两个聚合函数组成,并在神经网络层中进行操作。它能有效地提取邻域内节点的结构信息,保证图的排列不变性。
Low-level aggregation(图C中的虚线箭头)使用聚合函数p将邻域内具有同一r(同一个颜色方格)的结点聚合成一个虚拟结点(图C中的空心圆),其索引由(i,r)共同决定,其中i是{原空间邻域+潜在空间邻域}集合内的所有结点。e表示聚合之后的虚拟结点的特征。函数p需要置换不变函数,比如L1,L2范式,max-pooling,average-pooling等。
High-level aggregation(实线箭头)中,使用聚合函数q对虚拟结点特征进行进一步的聚合,将其传播给中心结点v,最终得到结合了原空间邻域+潜在空间邻域所有结点信息的特征m。再在此基础上对其特征进行类似GCN的“卷积”操作,Bi-level aggregation就此完成。
论文的接下来是Bi-level aggregation函数置换不变性的证明,感兴趣的小朋友可以直接看论文,我就不在这里列出了。
与上述的ABC三个步骤相对,要实现一般的聚合方案,需要指定其三个模块:结点嵌入、结构邻域和聚合函数。
结点嵌入:本文分别采用了三种不同的结点嵌入方式,分别为Isomap,Poincare embedding以及struc2vec,对应三种不同的Geom结构:Geom-GCN-I, Geom-GCN-P, Geom-GCN-S。
结构邻域:结点嵌入将结点投影到潜在空间,这个空间如果是欧式空间,那么结点之间的latent distance就是欧几里得距离;假如是双曲空间中,就通过两个节点在局部切平面上的欧几里得距离来近似两个节点之间的latent distance。这个距离为了测定潜在空间的邻域范围(上文说过<ρ则认为处于邻域之内)。为了方便说明,所有的嵌入空间都是2D的。
在此基础上,简单定义了四种关系(也就是前文所说的τ(zv; zu)),R={left upper, right upper, left lower, right lower}
聚合函数:为了实现双层聚合,我们采用与GCN (Kipf & Welling, 2017)相同的归一化隐藏特征总和作为低层聚合中的聚合函数p:
deg(v)是图中节点v的度,δ( ; )表示选择出与结点v有关系r的结点的函数。对于高层聚合方法,使用如下定义:
其中 || 表示高级的聚合函数q,实际操作中使用了取平均值的方法。
接下来就是实验啦。基线对比算法使用了GCN与GAT,都是常用的方法。
为了表示图的层次特征与同质性,使用了两个变量α与β。其中,α为Gromov hyperbolicity【2】,α越小,图的投影空间越双曲,图的层次性越强;β通过如下方式进行定义:
网络同质性越强,β越大,上述公式还是很好理解的。然后数据集的描述如表所示:
准确率结果还是比较参差不齐的,但是整体效果确实不错:
研究模型对节点特征表示的学习模式,我们通过t-SNE降维方法,将使用Cora训练的Geom-GCN-P最后一层的特征表示映射到二维空间中。在图中,具有相同标记的节点表现出空间聚类,显示了模型的识别能力。所有节点在图中呈放射状分布,表明该模型学习了图的层次模式。
我们解决了现有信息传递神经网络在图数据上的两个主要弱点:区分结构的丢失和长期依赖。作为我们的主要见解,我们通过图嵌入将一个离散图连接到一个连续的几何空间。也就是说,我们利用了卷积原理:在一个有意义的空间上进行空间聚合,我们的方法从一个图中提取或恢复嵌入空间中丢失的信息(区分结构和长期依赖)。我们提出了一个通用的几何聚合方案,并通过几个特定的gcn实现实例化了它,我们的实验验证了它相对于现有技术的明显优势。作为未来的工作,我们将探索选择正确的嵌入方法的技术,它不仅依赖于输入图,而且依赖于目标应用程序。
[1]. Neural Message Passing for Quantum Chemistry,https://arxiv.org/abs/1704.01212
[2]. Edmond Jonckheere, Poonsuk Lohsoonthorn, and Francis Bonahon. Scaled gromov hyperbolic graphs. Journal of Graph Theory, 57(2):157–180, 2008