图神经网络论文阅读(一) Diffusion-Convolutional Neural Networks,NIPS2016

Diffusion-Convolutional Neural Networks

2016年发表于INPS,作者来自马萨诸塞大学。实际上这篇文章要早于Kipf的论文,它提出了扩散图卷积网络(DCNN),可以在结点分类和图分类的任务上分别建模,本质上属于空域(Spatial)卷积[1]。下面就按照论文的思路去介绍这篇文章。

Introduction

本文通过引入扩散-卷积(diffusion-convolution)操作将CNN引入到一般的图结构数据(非欧式空间),使用通用的模型在降低复杂度的同时提高预测性能。DCNN具有如下的优点:

  • Accuracy。
  • Flexibility:DCNNs提供了一种灵活的图形数据表示法,它对节点特征、边的特征和纯结构信息进行编码,几乎不进行预处理。DCNNs可以用于各种具有图形数据的分类任务,包括节点分类和全图分类。
  • Speed。

Model

首先阐述符号定义。考虑一组图:在这里插入图片描述其中每一个图在这里插入图片描述都由结点Vt和边Et构成,每个结点都有一个特征向量,图Gt内的所有特征由Nt*F维的矩阵Xt存放,其中Nt是Gt的节点数。而边的信息由邻接矩阵At存放,根据邻接矩阵可以计算出度归一化的扩散矩阵(degree-normalized transition matrix)Pt,它给出了结点i向结点j传递信息的概率。Y是结点(或者图的标签,依具体的分类任务而定)的标签,对于不同的任务,模型有着不同的构造:
图神经网络论文阅读(一) Diffusion-Convolutional Neural Networks,NIPS2016_第1张图片

  • 结点分类
    在这里插入图片描述是NtHNt维的结点的扩散概率张量,它描述了结点不同Hop之后到达其他结点的概率(根据论文的实现代码,这个张量由邻接矩阵A计算,返回的是3d numpy array [A0, A1, …, A**k])。邻居结点的特征根据这个张量描述的概率向中心结点集中。它被定义为:
    在这里插入图片描述
    其中,i表示结点,j表示hop,k表示特征,t表示第几个图。由此。扩散卷积的操作定义为:
    图神经网络论文阅读(一) Diffusion-Convolutional Neural Networks,NIPS2016_第2张图片
    或者换一种更顺眼的写法,注意其中的○乘法表示元素级别的乘积,不是矩阵的乘法:或者换一种更顺眼的写法
    中心结点i采集了j跳之内所有结点的特征信息,汇总并加权,根据Figure1(a),Zt维度为NtHF的张量。经过下一个dense layer得到Nt*1的向量Yt。分别使用argmax和softmax分别得到预测结合以及概率分布:
    在这里插入图片描述
  • 图分类
    为了让Zt变成HF的张量,在这里插入图片描述(Nt1维)被乘到最前,正如Figure1(b)显示的那样。注意最后的 “/Nt”的操作,影响了图分类的效果。
    在这里插入图片描述
    顺便说一下,在训练的时候采用随机小批梯度下降,并设置了early stop,learning rate为0.05,激活函数采用tanh。

Experiments

结点分类的实验的数据集来自[2]。在结点分类的任务中对比传统算法:
图神经网络论文阅读(一) Diffusion-Convolutional Neural Networks,NIPS2016_第3张图片
同时,也探究了Hop应该设置为多少才能达到最优:图(c),从图中可以看出hop=2收敛,和Kipf的方法不谋而合。
图神经网络论文阅读(一) Diffusion-Convolutional Neural Networks,NIPS2016_第4张图片
图分类的数据集来自[3]。从实验结果来看效果差的一批。这些结果表明,虽然扩散过程是节点的有效表示(节点分类),但它们在汇总整个图时表现得很糟糕(由于简单的平均聚合操作)。通过找到一种比简单的平均值更有效的方法来聚合节点操作,可以改进这些结果。若想看更骚的聚合操作,情况论文[4]。
图神经网络论文阅读(一) Diffusion-Convolutional Neural Networks,NIPS2016_第5张图片
图神经网络论文阅读(一) Diffusion-Convolutional Neural Networks,NIPS2016_第6张图片

Limitations

  • Scalability:P*是稠密的张量,所以不适合在大规模的图上进行操作。
  • Locality:该模型旨在捕获图结构数据中的局部行为。作为从每个节点开始的扩散过程构造潜在表示的结果,我们可能无法在单个节点或其他非局部图行为之间编码有用的长期空间依赖关系

总结

这篇文章虽然年代久远,内容也比较low,但是它提供了一个很清晰的对非欧式空间进行“卷积”的思路,后续的许多研究都借鉴这种聚合邻居结点的特征的思想。但是正如作者在Limitation中提到的,卷积过程中需要考虑所有结点的扩散信息限制了模型在大规模图上的计算能力。所以后续的研究很多都是在邻域进行采样的,以缩小计算量。这些论文我们后续会接着介绍。
See You~

[1]Zhou J, Cui G, Zhang Z, et al. Graph neural networks: A review of methods and applications[J]. arXiv preprint arXiv:1812.08434, 2018.
[2]Prithviraj Sen, Galileo Mark Namata, Mustafa Bilgic, Lise Getoor, Brian Gallagher, and Tina Eliassi-Rad. Collective Classification in Network Data. AI Magazine, 2008.
[3]Nikil Wale, Ian A Watson, and George Karypis. Comparison of descriptor spaces for chemical compound retrieval and classification. Knowledge and Information Systems, 14(3):347–375, August 2007.
[4]Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in Neural Information Processing Systems. 2017: 1024-1034.

github源码:https://github.com/jcatw/dcnn

你可能感兴趣的:(GNN,Model)