图神经网络的概念首先由 Gori 等人(2005)[16] 提出,并由 Scarselli 等人(2009)[17] 进一步阐明。这些早期的研究以迭代的方式通过循环神经架构传播邻近信息来学习目标节点的表示,直到达到稳定的固定点。该过程所需计算量庞大,而近来也有许多研究致力于解决这个难题。在本文中,图神经网络代表的是所有用于图数据的深度学习方法。
受到卷积网络在计算机视觉领域所获巨大成功的激励,近来出现了很多为图数据重新定义卷积概念的方法。这些方法属于图卷积网络(GCN)的范畴。Bruna 等人(2013)提出了关于图卷积网络的第一项重要研究,他们基于谱图论(spectral graph theory)开发了一种图卷积的变体。自此,基于谱的图卷积网络不断改进、拓展、进阶。由于谱方法通常同时处理整个图,并且难以并行或扩展到大图上,基于空间的图卷积网络开始快速发展。这些方法通过聚集近邻节点的信息,直接在图结构上执行卷积。结合采样策略,计算可以在一个批量的节点而不是整个图中执行,这种做法有望提高效率。
除了图卷积网络,近几年还开发出了很多替代的图神经网络。这些方法包括图注意力网络(GAT)、图自编码器、图生成网络以及图时空网络。关于这些方法的分类细节详见第三章。
图神经网络相关研究。Bronstein 等人用符号几何深度学习概述了非欧几里得领域的深度学习方法,包括图和流形。虽然这是对图卷积网络的第一次回顾,但这一项研究遗漏了几个基于空间的重要方法,包括 [15], [19], [24], [26], [27], [28],这些方法更新了最新的基准。此外,这项调查没有囊括很多新开发的架构,这些架构的重要性不亚于图卷积网络。
对于另一项研究,Battaglia 等人 [29] 将图网络定位为从关系数据中学习的构建块,并在统一的框架下回顾了部分图神经网络。然而,他们整体的框架是高度抽象的,失去了每种方法在原论文中的见解。Lee 等人 [30] 对图注意力模型(一种图神经网络)进行了部分调查。最近,Zhang 等人 [31] 提出了一项关于图深度学习的最新调查,却忽略了对图生成网络和图时空网络的研究。总之,现有的研究没有一个对图神经网络进行全面的回顾,只覆盖了部分图卷积神经网络且检查的研究有限,因此遗漏了图神经网络替代方法的最新进展,如图生成网络和图时空网络。
图神经网络 vs. 网络嵌入。对图神经网络的研究与图嵌入或网络嵌入紧密相关,这也是数据挖掘和机器学习社区日益关注的一个话题 [32] [33] [34] [35], [36], [37]。网络嵌入旨在通过保留网络拓扑架构和节点内容信息,将网络顶点表示到低维向量空间中,以使任何后续的图分析任务(如分类、聚类和推荐)都可以通过使用简单的现成学习机算法(如用于分类的支持向量机)轻松执行。许多网络嵌入算法都是无监督算法,它们大致可分为三组 [32],即矩阵分解 [38], [39]、随机游走 [40] 和深度学习方法。用于网络嵌入的深度学习方法同时还属于图神经网络,包括基于图自编码器的算法(如 DNGR [41] 和 SDNE [42])和具有无监督训练的图卷积神经网络(如 GraphSage [24])。图 2 描述了本文中网络嵌入和图神经网络的区别。
近年来,从图像分类到视频处理再到语音识别和自然语言处理,深度学习已经变革了多项机器学习的任务。这些任务中的数据通常表示在欧几里得空间中。然而,越来越多的应用使用非欧几里得域生成的数据,并将它们表示为具有复杂关系和相互依赖的关系图。虽然图数据的复杂性对现有的机器学习的算法提出了重大的挑战,但最近许多研究开始将深度学习方法扩展到图数据。
本文综述了数据挖掘和机器学习领域中的图神经网络(GNN),并按照新的方法对图神经网络的最新进展进行了分类。在关注图卷积网络的同时,他们还回顾了最近开发的其他架构,例如图注意力网络,图自编码器,图生成网络,以及图时空网络等。我们还进一步讨论了图神经网络在多个领域的应用,并总结了不少学习任务现有算法的开源代码及基准。最后, 我们还提出了这一快速发展领域的研究方向。
神经网络最近的成功促进了模式识别和数据挖掘的研究。许多机器学习任务,例如目标检测[1],[2],机器翻译[3],[4]和语音识别[5],它们曾经高度依赖于手工特征工程来提取信息量丰富的特征集,通过各种端到端的深度学习范例(例如,卷积神经网络(CNN)[6],长期短期记忆(LSTM)[7]和自动编码器)进行了革新。深度学习在许多领域的成功部分归因于快速发展的计算资源(例如GPU)和大量训练数据的可用性,部分归因于深度学习从欧几里得数据中提取潜在表示的有效性(例如,图片,文字和视频)。以图像分析为例,图像可以表示为欧几里得空间中的规则网格。卷积神经网络(CNN)能够利用图像数据的平移不变性,局部连通性和合成性[8],因此,CNN可以提取与整个数据集共享的有意义的局部特征用于各种图像分析任务。
尽管深度学习在欧几里得数据上取得了巨大的成功,但越来越多的应用程序从非欧几里德领域生成数据,需要对其进行有效地分析。例如,在经济方面,基于图的学习系统能够利用用户与产品之间的互动[9],[10],[11]提出高度准确的建议。在化学中,分子被建模为图形,需要鉴定其生物活性以进行药物开发[12],[13]。在引文网络中,论文通过引文相互链接,需要将它们分为不同的组[14],[15]。图形数据的复杂性对现有的机器学习算法提出了重大挑战。这是因为图形数据是不规则的。每个图具有可变大小的无序节点,并且图中的每个节点具有不同数量的邻居,从而导致一些重要的操作(例如卷积),这些操作很容易在图像域中计算,但不适用于该图域了。此外,现有机器学习算法的核心假设是实例彼此独立。但是,对于图数据而言,情况并非如此,在这种情况下,每个实例(节点)通过一些复杂的链接信息与其他实例(邻居)相关联,该链接信息用于捕获数据之间的相互依赖性,包括引用,友谊和交互。
最近,越来越多的研究开始将深度学习方法应用到图数据领域。受到深度学习领域进展的驱动,研究人员在设计图神经网络的架构时借鉴了卷积网络、循环网络和深度自编码器的思想。为了应对图数据的复杂性,重要运算的泛化和定义在过去几年中迅速发展。例如,图 1 展示了受标准 2D 卷积启发得到的图卷积。本文旨在对这些方法进行全面概述,受众包括想要进入这一快速发展领域的研究人员和想要对比图神经网络算法的专家
新的分类体系:考虑到深度学习在图数据上的研究与日俱增,我们提出了图神经网络(GNN)的新分类体系。在这种分类体系下,GNN 被分成了 5 个类别:图卷积网络、图注意力网络、图自编码器、图生成网络和图时空网络。我们确定了图神经网络和网络嵌入之间的区别,并在不同的图神经网络架构之间建立了联系。
全面的概述:这个综述提供了在图数据上的现代深度学习技术的全面概述。对每一种类型的图神经网络,我们提供了表征算法的细节描述,并做了必要的对比和对应算法的总结。
丰富的资源:这篇综述提供了图神经网络的丰富资源,其中包括当前最佳算法、基准数据集、开源代码和实践应用。这篇综述可以作为理解、使用和开发不同实际应用的深度学习方法的实践指南。
未来方向:这篇综述还强调了已有算法的当前限制,指出了这个快速发展领域未来的可能方向。
在这一部分,提供基础的图概念的定义,为了方便查询,在表1中总结了常用的符号。
表1:常用符号
相关备注解释:
Concatenation of A and B :A和B的串联。
The set of nodes in a graph :图中的节点集
定义1(图):图是 G \mathcal{G} G =(V,E,A),其中V是节点集,E是边集,而A是邻接矩阵。在图中,令 v i v_{i} vi∈V表示节点,而 e i j = ( v i , v j ) ∈ E e_{i j}=\left(v_{i}, v_{j}\right) \in E eij=(vi,vj)∈E表示边。邻接矩阵A是一个N×N矩阵,如果 e i j ∈ E e_{i j} \in E eij∈E,则 A i j = w i j > 0 A_{i j}=w_{i j}>0 Aij=wij>0,如果 e i j ∉ E e_{i j} \notin E eij∈/E,则 A i j = 0 A_{i j}=0 Aij=0。节点的度数是与其连接的边数,正式定义为度 degree ( v i ) = ∑ A i \operatorname{degree}\left(v_{i}\right)=\sum A_{i} degree(vi)=∑Ai,一个图可以与节点属性X关联,其中 X ∈ R N × D X \in R^{N \times D} X∈RN×D一个特征矩阵,其中 X i ∈ R D ′ X_{i} \in R^{D^{\prime}} Xi∈RD′表示节点 v i v_{i} vi的特征向量。在D =1的情况下,我们用X替换 X i ∈ R D X_{i} \in R^{D} Xi∈RD来表示图的特征向量。
定义2(有向图):有向图是所有边都从一个节点指向另一个节点的图。对于有向图, A i j ≠ A j i A_{i j} \neq A_{j i} Aij=Aji。无向图是所有边均无方向的图形。对于无向图, A i j = A j i A_{i j}=A_{j i} Aij=Aji。
定义3(时空图):时空图是特征图X随时间演变的属性图。它定义为G =(V,E,A,X),其中X∈RT×N×D,其中T是时间步长。
这一部分内容给出了图神经网络的分类方法,我们考虑到了所有能与神经网络架构组合成图神经网络的可微图模型,把图卷积神经网络最终分类为:图卷积网络、图注意力网络、图自编码器、图生成网络和图时空网络。在这些网络中,图卷积网络在捕捉架构依存关系上扮演着核心的角色。如下图 3 所示,属于其他类别的方法部分使用图卷积网络作为基础。表 2 总结了每个类别的代表性方法。
图卷积网络概括了从传统数据(图像或网格)到图数据的卷积运算。关键是要学习一个函数f,通过聚集其自身的特征 X i X_i Xi和邻居的特征 X j X_j Xj来生成节点 v i v_i vi的表示,其中 j ∈ N ( v i ) j \in N\left(v_{i}\right) j∈N(vi)。图4显示了用于节点表示学习的GCN过程。图卷积网络在建立许多其他复杂的图神经网络模型(包括基于自动编码器的模型,生成模型和时空网络等)中起着核心作用。图5展示了基于GCN的几种图神经网络模型。
图4:具有多个GCN层的图卷积网络的一种变体[14]。GCN层通过汇总其邻居的要素信息来封装每个节点的隐藏表示。特征汇总后,将非线性变换应用于结果输出。通过堆叠多层,每个节点的最终隐藏表示形式将接收来自其他邻居的消息。
(a)具有用于图分类的池化模块的图卷积网络[12]。
GCN层[14]之后是池化层,用于将图粗化为子图,以使粗化图上的节点表示表示更高的图级表示(?)。要计算每个图形标签的概率,输出层是具有SoftMax函数的线性层。(b)具有GCN的图形自动编码器[59]。编码器使用GCN层来获取每个节点的潜在表示。解码器计算编码器产生的节点潜在表示之间的成对距离。在应用非线性激活函数之后,解码器重建图邻接矩阵
(c)具有GCN的图时空网络[71]。
GCN层后面是1D-CNN层。
GCN层在 A t \boldsymbol{A}_{t} At和 X t \boldsymbol{X}_{t} Xt上进行操作以捕获空间相关性,而1D-CNN层则沿时间轴在X上滑动以捕获时间相关性。输出层是线性变换,为每个节点生成预测
图5:Different Graph Neural Network Models built with GCNs.
图注意力网络类似于GCN,并寻求一种聚合函数来融合图中的相邻节点,随机游走和候选模型,以学习新的表示形式。关键区别在于图注意力网络采用注意力机制,该机制将更大的权重分配给更重要的节点,步行或模型。注意权重与神经网络一起学习端到端框架中的参数。图6说明了在聚集邻居节点信息时图卷积网络和图注意力网络之间的差异。
(a)图卷积网络[14]显式地将非参数权重 a i j = 1 deg ( v i ) d e g ( v j ) a_{i j}=\frac{1}{\sqrt{\operatorname{deg}\left(v_{i}\right) d e g\left(v_{j}\right)}} aij=deg(vi)deg(vj)1在聚合过程中分配给 v i v_i vi的邻居 v j v_j vj
(b)图注意力网络[15]通过端到端神经网络架构隐式捕获权重 a i j a_{ij} aij,以便更重要的节点获得更大的权重。
图6:Differences between graph convolutional networks and graph attention networks.
图自动编码器是无监督的学习框架,旨在通过编码器学习低维节点矢量,然后通过解码器重建图数据。对于没有属性信息[41],[42]的纯图形以及属性图[61],[62],图自动编码器是一种学习图嵌入的流行方法。对于纯图,许多算法通过构造具有丰富信息的新矩阵(即逐点互信息矩阵)[41]或将邻接矩阵馈入自动编码器模型并捕获一阶和二阶来直接提出邻接矩阵信息[42]。对于属性图,图自动编码器模型倾向于采用GCN [14]作为编码器的构件,并通过链接预测解码器[59],[61]重建结构信息。
图生成网络旨在从数据生成合理的结构。从根本上说,给定图的经验分布来生成图具有挑战性,主要是因为图是复杂的数据结构。为了解决这个问题,研究人员已经探索了将生成过程作为结点和边的形成因素[64] [65],采用生成对抗训练[66] [67]。图生成网络的一个有前途的应用领域是化合物合成。在化学图中,原子被视为节点,化学键被视为边缘。任务是发现具有某些化学和物理性质的新的可合成分子。
图时空网络旨在从时空图中学习看不见的模式,这种模式在交通预测和人类活动预测等许多应用中变得越来越重要。例如,基础的道路交通网络是自然图,其中每个关键位置是一个节点,其交通数据受到持续监控。通过开发有效的图时空网络模型,我们可以准确预测整个交通系统的交通状况[70],[71]。图时空网络的关键思想是同时考虑空间依赖性和时间依赖性。当前许多方法都使用GCN来捕获依赖关系,并使用一些RNN [70]或CNN [71]来建模时间依赖关系
图神经网络,尤其是图卷积网络(GCN),通过通过图谱理论或空间局部性定义图卷积来尝试在图数据中复制CNN的成功。使用图结构和节点内容信息作为输入,GCN的输出可以通过以下机制之一专注于不同的图分析任务:
在表3中,我们列出了主要GCN方法的输入和输出的详细信息。特别是,我们总结了每个GCN层之间以及每种方法的最后一层中的输出机制。输出机制可能涉及多个合并操作,将在第4.3节中讨论。
表 3:图卷积网络的总结。Node-level 输出与节点回归和分类任务相关,Edge-level
输出与边分类和链接预测任务相关,Graph-level 输出与图分类任务相关。
端到端训练框架。图卷积网络可以以(半)监督或纯无监督的方式在端到端学习框架中训练,依赖于学习任务和可用的标签信息。
节点级分类的半监督学习。给定部分节点被标记的单个网络,图卷积网络可以学习到一个鲁棒的模型,高效识别未标记节点的类别标签 [14]。为此,可以通过堆叠一系列的图卷积层和 softmax 层来建立端到端框架进行多类别分类。
图级分类的监督学习。给定一个图数据集,图级分类旨在预测整个图的类别标签 [55], [56], [74], [75]。这一任务的端到端学习可以利用一个结合了图卷积层和池化步骤的框架实现 [55], [56]。
图嵌入的无监督学习。如果图中无可用类别标签,我们可以在一个端到端框架中以完全无监督的方式学习图嵌入。这些算法通过两种方式利用边级(edge-level)信息。一种简单的方法是采用自编码器框架,其中编码器使用图卷积层将图嵌进潜在表征中,然后使用解码器重构图结构 [59], [61]。另一种方法是利用负采样方法,采样一部分节点对作为负对(negative pair),而图中已有的节点作为正对(positive pair)。然后在卷积层之后应用 logistic 回归层,以用于端到端学习 [24]。
这一章概览图卷积网络(GCN),这是很多复杂图神经网络模型的基础。GCN 方法分为两类,分别基于谱和空间。基于谱的方法通过从图信号处理的角度引入滤波器来定义图卷积,其中图卷积运算被解释为从图信号中去除噪声 [76]。基于空间的方法将图卷积表征为聚合来自近邻的特征信息。虽然 GCN 在节点级别上运行,但是图池化模块可以与 GCN 层交替,将图粗粒化为高级子结构。如图 5a 所示,这种架构设计可用于提取图级表征、执行图分类任务。下文会分别介绍、基于空间的 GCN 和图池化模块。
基于谱的 GCN 部分介绍了其背景、方法等,这些方法包括 Spectral CNN、Chebyshev Spectral CNN (ChebNet)、First order of ChebNet (1stChebNet) 和 Adaptive Graph Convolution Network (AGCN)。
基于空间的 GCN 分为两类:Recurrent-based Spatial GCN 和 Composition Based Spatial GCN。前者包括图神经网络(Graph Neural Networks,GNN)、门控图神经网络(Gated Graph Neural Networks,GGNN)和 Stochastic Steady-state Embedding (SSE)。后者涉及了:Message Passing Neural Networks (MPNN)、GraphSage。此外,这部分还介绍了这两大类之外的空间 GCN 变体,包括 Diffusion Convolution Neural Networks (DCNN)、PATCHY-SAN、Large-scale Graph Convolution Networks (LGCN)、Mixture Model Network (MoNet)。
基于频谱的方法在图形信号处理中具有坚实的基础[76]。首先,我们给出了图形信号处理的一些基础知识背景,之后,我们回顾了基于谱的GCN的代表性研究。
图的强大数学表示形式是归一化图拉普拉斯矩阵,定义为: L = I n − D − 1 2 A D − 1 2 \mathbf{L}=\mathbf{I}_{\mathbf{n}}-\mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{-\frac{1}{2}} L=In−D−21AD−21,其中D是节点度的对角矩阵, D i i = ∑ j ( A i , j ) \mathbf{D}_{\mathrm{ii}}=\sum_{j}\left(\mathbf{A}_{\mathbf{i}, \mathbf{j}}\right) Dii=∑j(Ai,j),归一化图拉普拉斯矩阵具有实对称正半定的性质。借助此属性,可将归一化的拉普拉斯矩阵分解为 L = U Λ U T \mathbf{L}=\mathbf{U} \mathbf{\Lambda} \mathbf{U}^{T} L=UΛUT,其中 U = [ u 0 , u I ] ⋯ [ u n − I ] ∈ R N × N \mathbf{U}=\left[\mathbf{u}_{\mathbf{0}}, \mathbf{u}_{\mathbf{I}}\right] \cdots\left[\mathbf{u}_{\mathbf{n}-\mathbf{I}}\right] \in \mathbf{R}^{N \times N} U=[u0,uI]⋯[un−I]∈RN×N由特征值排序的特征向量矩阵, Λ \boldsymbol{\Lambda} Λ是对角矩阵特征值, Λ i i = λ i \boldsymbol{\Lambda}_{i i}=\lambda_{i} Λii=λi。归一化的拉普拉斯矩阵的特征向量形成正交空间,用数学上的字表示, U T U = I \mathbf{U}^{T} \mathbf{U}=\mathbf{I} UTU=I。在图信号处理中,图信号 x ∈ R N \mathbf{x} \in \mathbf{R}^{N} x∈RN是图节点的特征向量,其中 x i \mathbf{x}_{i} xi是 i t h i^{t h} ith节点的值。将对信号x的图傅里叶变换定义为 F ( x ) = U T x \mathscr{F}(\mathbf{x})=\mathbf{U}^{T} \mathbf{x} F(x)=UTx,将图傅里叶逆变换定义为 F − 1 ( x ^ ) = U x ^ \mathscr{F}^{-1}(\hat{\mathbf{x}})=\mathbf{U} \hat{\mathbf{x}} F−1(x^)=Ux^,其中 x ^ \hat{\mathbf{x}} x^表示从图傅里叶变换得到的信号。为了理解图傅立叶变换,从其定义来看,我们确实将输入图信号投影到正交空间,在正交空间中,基数由归一化图拉普拉斯算子的特征向量形成。变换后的信号 x ^ \hat{\mathbf{x}} x^的元素是新空间中图信号的坐标,因此输入信号可以表示为 x = ∑ i x ^ i u i \mathbf{x}=\sum_{i} \hat{\mathbf{x}}_{i} \mathbf{u}_{i} x=∑ix^iui,这正是图傅立叶逆变换。现在将输入信号x与滤波器 g ∈ R N \mathbf{g} \in \mathbf{R}^{N} g∈RN的图形卷积定义为:
x ∗ G g = F − 1 ( F ( x ) ⊙ F ( g ) ) = U ( U T x ⊙ U T g ) ( 1 ) \begin{aligned} \mathbf{x} *_{G} \mathbf{g} &=\mathscr{F}^{-1}(\mathscr{F}(\mathbf{x}) \odot \mathscr{F}(\mathbf{g})) \\ &=\mathbf{U}\left(\mathbf{U}^{T} \mathbf{x} \odot \mathbf{U}^{T} \mathbf{g}\right) \end{aligned} (1) x∗Gg=F−1(F(x)⊙F(g))=U(UTx⊙UTg)(1)
其中 ⊙ \begin{aligned} \odot\end{aligned} ⊙表示Hadamard乘积。如果将滤波器表示为 g θ = diag ( U T g ) \mathbf{g}_{\theta}=\operatorname{diag}\left(\mathbf{U}^{T} \mathbf{g}\right) gθ=diag(UTg),则图卷积被简化为
x ∗ G g θ = U g θ U T x ( 2 ) \mathbf{x} *_{G} \mathbf{g}_{\theta}=\mathbf{U} \mathbf{g}_{\theta} \mathbf{U}^{T} \mathbf{x} (2) x∗Ggθ=UgθUTx(2)
基于光谱的图卷积网络均遵循此定义。关键区别在于滤波器 g θ \mathbf{g} \theta gθ的选择。
谱CNN。Bruna等[20]提出了第一个谱卷积神经网络(Spectral CNN)。假设滤波器 g θ = Θ i , j k \mathbf{g}_{\theta}=\Theta_{i, j}^{k} gθ=Θi,jk是一组可学习的参数并考虑多维图形信号,则它们将图形卷积层定义为
X : , j k + 1 = σ ( ∑ i = 1 f k − 1 U Θ i , j k U T X : , i k ) ( j = 1 , 2 , ⋯ , f k ) ( 3 ) \mathbf{X}_{:, j}^{k+1}=\sigma\left(\sum_{i=1}^{f_{k-1}} \mathbf{U} \Theta_{i, j}^{k} \mathbf{U}^{T} \mathbf{X}_{:, i}^{k}\right) \quad\left(j=1,2, \cdots, f_{k}\right) (3) X:,jk+1=σ(i=1∑fk−1UΘi,jkUTX:,ik)(j=1,2,⋯,fk)(3)
其中 X k ∈ R N × f k − 1 \mathbf{X}^{k} \in \mathbf{R}^{N \times f_{k-1}} Xk∈RN×fk−1是输入图信号,N是节点数, f k − 1 f_{k-1} fk−1是输入通道数, f k f_{k} fk是输出通道数, Θ i , j k \Theta_{i, j}^{k} Θi,jk,是一个充满可学习参数的对角矩阵,σ是非线性变换。
Defferrard等[12]提出了将滤波器定义为特征值对角矩阵的切比雪夫多项式的ChebNet,即 g θ = ∑ i = 1 K θ i T k ( Λ ~ ) \mathbf{g}_{\theta}=\sum_{i=1}^{K} \theta_{i} T_{k}(\tilde{\boldsymbol{\Lambda}}) gθ=∑i=1KθiTk(Λ~),其中 Λ ~ = 2 Λ / λ m a x − I N \tilde{\boldsymbol{\Lambda}}=2 \mathbf{\Lambda} / \lambda_{m a x}-\mathbf{I}_{\mathbf{N}} Λ~=2Λ/λmax−IN,Chebyshev多项式由 T k ( x ) = 2 x T k − 1 ( x ) − T k − 2 ( x ) T_{k}(x)=2 x T_{k-1}(x)-T_{k-2}(x) Tk(x)=2xTk−1(x)−Tk−2(x)递归定义,其中 T 0 ( x ) = 1 T_{0}(x)=1 T0(x)=1且 T 1 ( x ) = x T_{1}(x)=x T1(x)=x。得到的最终结果就是:图形信号x与定义的滤波器 g θ g_θ gθ的卷积是:
x ∗ G g θ = U ( ∑ i = 1 K θ i T k ( Λ ~ ) ) U T x = ∑ i = 1 K θ i T i ( L ~ ) x ( 4 ) \begin{aligned} \mathbf{x} *_{G} \mathbf{g}_{\theta} &=\mathbf{U}\left(\sum_{i=1}^{K} \theta_{i} T_{k}(\tilde{\mathbf{\Lambda}})\right) \mathbf{U}^{T} \mathbf{x} \\ &=\sum_{i=1}^{K} \theta_{i} T_{i}(\tilde{\mathbf{L}}) \mathbf{x} \end{aligned} (4) x∗Ggθ=U(i=1∑KθiTk(Λ~))UTx=i=1∑KθiTi(L~)x(4)
其中 L ~ = 2 L / λ m a x − I N \tilde{\mathbf{L}}=2 \mathbf{L} / \lambda_{m a x}-\mathbf{I}_{\mathbf{N}} L~=2L/λmax−IN
根据等式4,ChebNet隐式避免了图傅立叶基的计算,从而将计算复杂度从 O ( N 3 ) O\left(N^{3}\right) O(N3) 降到了 O ( K M ) O(K M) O(KM)。由于 T i ( L ~ ) T_{i}(\tilde{\mathbf{L}}) Ti(L~)是一个 L ~ \tilde{\mathbf{L}} L~在 i t h i^{t h} ith上的多项式,因此 T i ( L ~ ) x T_{i}(\tilde{\mathbf{L}}) \mathbf{x} Ti(L~)x在每个节点上局部运行。因此,ChebNet的过滤器在空间上定位。
待续~~~
为了探索图拉普拉斯矩阵未指定的隐藏结构关系,Li等人。 [22]提出了自适应图卷积网络(AGCN)。 AGCN用所谓的残差图扩充图,该残差图是通过计算节点的成对距离而构造的。尽管能够捕获互补关系信息,但AGCN仍需要进行昂贵的 O ( N 2 ) O\left(N^{2}\right) O(N2)计算。
光谱CNN [20]依赖于拉普拉斯矩阵的特征分解。它具有三个效果。首先,对图的任何扰动都会导致特征根的变化。其次,学习的过滤器是域相关的,这意味着它们不能应用于具有不同结构的图。第三,特征分解需要 O ( N 3 ) O\left(N^{3}\right) O(N3)计算和 O ( N 2 ) O\left(N^{2}\right) O(N2)内存。由ChebNet [12]和1stChebNet [14]定义的过滤器位于空间中。可以在图中的不同位置共享学习的权重。但是,频谱方法的一个共同缺点是它们需要将整个图加载到内存中以执行图卷积,这在处理大图时效率不高。
基于空间的方法模拟传统卷积神经网络对图像的卷积运算,基于节点的空间关系定义图的卷积。为了将图像与图形联系起来,可以将图像看作是一种特殊的图形形式,每个像素代表一个节点。如图1a所示,每个像素都直接连接到其附近的像素。对于3×3的窗口,每个节点的邻域是其周围的八个像素。这八个像素的位置指示节点邻居的顺序。然后,通过获取每个通道上中心节点及其邻居的像素值的加权平均值,将滤波器应用于此3×3色块。由于相邻节点的特定顺序,可以在不同位置共享可训练权值。类似地,对于一般图,基于空间的图卷积采用中心节点表示及其邻居表示的聚合来获得该节点的新表示,如图1b所示。为了探究节点接收场的深度和广度,通常的做法是将多个图卷积层堆叠在一起。根据堆叠卷积层的不同方法,基于空间的GCN可以进一步分为两类,基于循环的GCN和基于组合的GCN。基于递归的方法应用相同的图卷积层来更新隐藏的表示,而基于合成的方法应用不同的图卷积层来更新隐藏的表示。图7说明了这种差异。下面,我们概述这两个分支。
图7:基于递归的空间GCN VS 基于组合的空间GCN( Recurrent-based v.s. Composition-based Spatial GCNs.)
基于循环的方法的主要思想是递归更新节点的潜在表示,直到达到稳定的固定点为止。这是通过对递归函数施加约束[17],采用门递归单元架构[18],异步和随机更新节点潜在表示[19]来完成的。下面,我们将介绍这三种方法。
基于组合的方法通过堆叠多个图卷积层来更新节点的表示形式。
Gilmer等 [13]将包括[12],[14],[18],[20],[53],[80],[81]的几种现有图卷积网络概括为一个称为消息传递神经网络(MPNN)的统一框架。 MPNN由两个阶段组成,即消息传递阶段和读取阶段。消息传递阶段实际上运行T-step基于空间的图卷积。图卷积运算通过消息函数 M t ( ⋅ ) M_{t}(\cdot) Mt(⋅)和更新函数 U t ( ⋅ ) U_{t}(\cdot) Ut(⋅)来定义,具体取决于
h v t = U t ( h v t − 1 , ∑ w ∈ N ( v ) M t ( h v t − 1 , h w t − 1 , e v w ) ) \mathbf{h}_{v}^{t}=\mathbf{U}_{t}\left(\mathbf{h}_{v}^{t-1}, \sum_{w \in N(v)} M_{t}\left(\mathbf{h}_{v}^{t-1}, \mathbf{h}_{w}^{t-1}, \mathbf{e}_{v w}\right)\right) hvt=Ut⎝⎛hvt−1,w∈N(v)∑Mt(hvt−1,hwt−1,evw)⎠⎞
Sample n nodes from the whole node set V Use Equation 10 to update hidden representations of sampled n nodes:
从整个节点集V中采样n个节点使用等式10更新采样的n个节点的隐藏表示Sample m nodes from the labeled node set V Forward model according to Equation 10 Back-propagate gradients:
根据等式10反向传播梯度从标记的节点集V正向模型中采样m个节点
读出阶段实际上是一个池操作,该池操作基于每个单独节点的隐藏表示来生成整个图的表示。定义为
y ^ = R ( h v T ∣ v ∈ G ) ( 12 ) \hat{\mathbf{y}}=R\left(\mathbf{h}_{v}^{T} | v \in G\right) (12) y^=R(hvT∣v∈G)(12)
通过输出函数 R ( ⋅ ) R(\cdot) R(⋅),最终表示y y用于执行图级预测任务。作者提出,通过假设 U t ( ⋅ ) U_{t}(\cdot) Ut(⋅)和 M t ( ⋅ ) M_{t}(\cdot) Mt(⋅)的不同形式,其他几个图卷积网络也落入了它们的框架。
GraphSage [24]引入了聚合函数的概念来定义图卷积。聚合功能实质上是收集节点的邻居信息。它必须对节点顺序(例如均值,和和最大函数)的排列保持不变。图卷积运算定义为:
h v t = σ ( W t ⋅ aggregate k ( h v t − 1 , { h u k − 1 , ∀ u ∈ N ( v ) } ) \mathbf{h}_{v}^{t}=\sigma\left(\mathbf{W}^{t} \cdot \text {aggregate}_{k}\left(\mathbf{h}_{v}^{t-1},\left\{\mathbf{h}_{u}^{k-1}, \forall u \in \mathcal{N}(v)\right\}\right)\right. hvt=σ(Wt⋅aggregatek(hvt−1,{huk−1,∀u∈N(v)})
GraphSage提出了一种批量训练算法,而不是更新所有节点上的状态,该算法提高了大型图的可伸缩性。 GraphSage的学习过程包括三个步骤。首先,它以固定大小对节点的本地k-hop邻域进行采样。其次,它通过汇总其邻居特征信息来得出中心节点的最终状态。最后,它使用中央节点的最终状态进行预测和反向传播错误。此过程如图8所示。
假设要在第t跳处采样的邻居数为 s t s_t st,则GraphSage在一批中的时间复杂度为 O ( ∏ t = 1 T s t ) O\left(\prod_{t=1}^{T} s_{t}\right) O(∏t=1Tst)。因此,计算成本随着t的增加呈指数增长。这样可以防止GraphSage具有较深的体系结构。但是,实际上,作者发现在t = 2的情况下,GraphSage已经实现了高性能。
未完待续~~~
PATCHY-SAN [26]使用标准卷积神经网络(CNN)解决图分类任务。为此,它将图形结构的数据转换为网格结构的数据。首先,它使用图标记过程为每个图选择固定数量的节点。图标记过程实质上是为图中的每个节点分配一个等级,该等级可以基于节点度,中心性,WeisfeilerLehman颜色[82] [83]等。第二,图中的每个节点可以具有不同数量的邻居,PATCHY-SAN根据其图标签为每个节点选择并订购固定数量的邻居。最后,在形成固定大小的网格结构数据后,PATCHYSAN使用标准的CNN来学习图形隐藏表示。在GCN中使用标准CNN具有保持移位不变的优势,而后者依赖于排序功能。结果,在节点选择和排序过程中的排名标准至关重要。在PATCHY-SAN中,排名基于图形标签。但是,图标记仅考虑图结构,而忽略了节点特征信息。
大规模图卷积网络(LGCN)。在后续工作中,大型图卷积网络(LGCN)[27]提出了一种基于节点特征信息的排序方法。与PATCHY-SAN不同,LGCN使用标准的CNN来生成节点级输出。对于每个节点,LGCN都会组合其邻域的特征矩阵,并沿每一列对该特征矩阵进行排序。排序后的特征矩阵的前k行被用作目标节点的输入网格数据。最后,LGCN将一维CNN应用于结果输入,以获取目标节点的隐藏表示。虽然在PATCHYSAN中派生图形标签需要复杂的预处理,但LGCN中的特征值排序不需要预处理步骤,因此更加高效。为了适应大型图形的情况,LGCN提出了一个子图训练策略,该策略将采样的子图放入一个小批量中。
混合模型网络(MoNet)[25]在非欧几里德域上将标准CNN与卷积架构统一起来。虽然几种基于空间的方法在聚合邻域特征信息时会忽略节点与其邻居之间的相对位置,但是MoNet引入了伪坐标和权重函数,以使节点邻居的权重由节点之间的相对位置(伪坐标)确定。节点及其邻居。在这样的框架下,关于流形的多种方法,例如测地线CNN(GCNN)[84],各向异性CNN(ACNN)[85],样条CNN [86],以及诸如GCN [14],DCNN [44]之类的图形都可以被概括为MoNet的特殊实例。但是,这些方法在MoNet框架下具有固定权重功能。 MoNet提出了一个具有可学习参数的高斯核,以自由调整权重函数。
基于空间的方法通过聚集来自邻居的特征信息来定义图卷积。根据堆叠图卷积层的不同方法,将基于空间的方法分为基于循环和基于组合的两组。虽然基于递归的方法尝试获取节点的稳态,但是基于组合的方法尝试合并更高阶的邻域信息。在每一层中,两组都必须在训练期间更新所有节点上的隐藏状态。但是,它效率很低,因为它必须将所有中间状态存储到内存中。为了解决这个问题,已经提出了几种训练策略,包括用于基于组合的方法(例如GraphSage [24])的子图训练以及用于基于循环的方法(例如SSE [19])的随机异步训练。
当将卷积神经网络推广到图结构化数据时,另一个关键组件,图池模块也至关重要,特别是对于图级分类任务[55],[56],[87]。据徐等人。 [88],池辅助GCN在区分图结构方面与Weisfeiler-Lehman检验[82]一样强大。类似于CNN附带的原始池化层,图池化模块可以通过对原始特征数据进行下采样来轻松减少方差和计算复杂性。平均值/最大值/总和合并是实现此目的的最原始和最有效的方法,因为在合并窗口中计算平均值/最大值/总和值很快。
h G = mean / max / sum ( h 1 T , h 2 T , … , h n T ) ( 15 ) \mathbf{h}_{G}=\operatorname{mean} / \max / \operatorname{sum}\left(\mathbf{h}_{1}^{T}, \mathbf{h}_{2}^{T}, \ldots, \mathbf{h}_{n}^{T}\right) (15) hG=mean/max/sum(h1T,h2T,…,hnT)(15)
Henaff等 [21]证明,在网络开始时执行简单的最大/平均池化对于降低图域的维数和减轻昂贵的图傅立叶变换操作的成本尤为重要。 Defferrard等优化最大/最小池和设备的有效池策略ChebNet [12]。
输入图首先通过图5a中描述的粗化处理进行处理。粗化后,输入图的顶点及其粗化版本将在平衡的二叉树中重新形成。在最粗糙的级别上任意排序节点,然后在平衡的二叉树中将此排序传播到更低的级别,最终将在最高级上生成规则的排序。合并这种重新排列的1D信号比原始信号效率更高。
张等还提出了一种框架DGCNN [55],该框架具有类似的名为SortPooling的合并策略,该策略通过将顶点重新排列为有意义的顺序来执行合并。与ChebNet [12]不同,DGCNN根据顶点在图中的结构作用对顶点进行排序。来自空间图卷积的图的无序顶点特征被视为连续的WL颜色[82],然后将它们用于对顶点进行排序。除了对顶点特征进行排序外,它还通过截断/扩展图的特征张量将图的大小统一为k。如果n> k,则删除最后的n-k行,否则添加k-n个零行。此方法通过解决图结构化任务背后的一个挑战(称为置换不变)来增强池网络,以提高GCN的性能。 Verma和Zhang提出了图囊网络[89],该网络进一步探索了图数据的置换不变性。
最近,提出了一个池化模块DIFFPOOL [56],它可以生成图的层次表示,并且可以端到端的方式与CNN以及各种图神经网络架构相结合。与所有以前的粗化方法相比,DIFFPOOL不仅可以将一个图中的节点进行聚类,而且可以提供一种通用的解决方案,以便在一组广泛的输入图中对节点进行分层池化。
未完待续~~~
作为最早的图形数据卷积网络,基于频谱的模型在许多图形相关的分析任务中均取得了令人印象深刻的结果。这些模型之所以吸引人,是因为它们在图形信号处理方面具有理论基础。通过设计新的图形信号滤波器[23],我们可以在理论上设计新的图形卷积网络。但是,基于频谱的模型存在一些缺点。下面我们从效率,通用性和灵活性三个方面说明这一点。
在效率方面,基于频谱的模型的计算成本随着图的大小而急剧增加,因为它们要么需要执行特征向量计算[20],要么同时处理整个图,这使得它们难以并行或缩放到大型图。基于空间的模型具有处理大型图的潜力,因为它们通过聚集邻居节点直接在图域中执行卷积。可以在一批节点而不是整个图中执行计算。当相邻节点的数量增加时,可以开发采样技术[24],[27]以提高效率。
在一般性方面,基于频谱的模型假设使用固定的图,这使得它们很难推广到新的图或不同的图。另一方面,基于空间的模型在每个节点上本地执行图卷积,可以在不同位置和结构之间轻松共享权重。
在灵活性方面,基于频谱的模型仅限于在无向图上使用。在有向图上没有明确的拉普拉斯矩阵定义,因此将基于频谱的模型应用于有向图的唯一方法是将有向图转换为无向图。基于空间的模型更灵活地处理诸如边缘特征和边缘方向之类的多源输入,因为这些输入可以合并到聚合函数中(例如[13],[17],[51],[52],[ 53])。
结果,空间模型近年来引起了越来越多的关注[25]。
这部分概述了图卷积网络之外的其他图神经网络,包括图注意力神经网络、图自编码器、图生成模型和图时空网络。下表总结了每个类别下的主要方法。
表 4:图卷积网络之外的其他图神经网络概览。该表根据网络的输入、输出、目标任务和是否基于 GCN 总结了每种网络下的多种方法。输入列代表每种方法适合分布式图 (A)、有向图 (D) 还是时空图 (S)。
注意力机制几乎成为序列任务中的标配。它的价值在于能够聚焦于对象最重要的部分。该机制被证明在多项任务中有用,如机器翻译和自然语言理解。由于注意力机制的模型容量越来越大,图神经网络在聚合信息、集成多个模型的输出、生成重要性导向的随机游走时,可以从注意力机制中获益良多。
这部分介绍了图注意力网络的多种方法,包括图注意力网络(Graph Attention Network,GAT)、门控注意力网络(Gated Attention Network,GAAN)、图注意力模型(Graph Attention Model,GAM)、注意力游走(Attention Walks)。
注意力机制对图神经网络的贡献有三部分,即在聚合特征信息时向不同近邻分配注意力权重、根据注意力权重集成多个模型,以及使用注意力权重引导随机游走。尽管我们把 GAT 和 GAAN 分类为图注意力网络的两种方法,但是它们都可以作为基于空间的卷积网络。二者的优势是它们可以适应性地学习近邻的重要性权重(如图 6 所示)。但是,由于我们必须计算每对近邻之间的注意力权重,因此计算成本和内存消耗会快速增长。
图自编码器是一类网络嵌入方法,旨在通过神经网络架构将网络顶点表征到低维向量空间。典型的解决方案是使用多层感知机作为编码器来获取节点嵌入,解码器重建节点的近邻统计,如正逐点互信息(positive pointwise mutual information,PPMI)或一阶、二阶接近度(proximities)[42]。最近,研究人员尝试在设计图自编码器时用 GCN 作为编码器、结合 GCN 和 GAN,或者结合 LSTM 和 GAN。
这部分介绍了基于 GCN 的自编码器和其他变体。基于 GCN 的自编码器部分介绍了:图自编码器(Graph Auto-encoder,GAE)、对抗正则化图自编码器(Adversarially Regularized Graph Autoencoder,ARGA)。其他变体包括:具备对抗正则化自编码器的网络表征(Network Representations with Adversarially Regularized Autoencoders,NetRA)、用于图表征的深度神经网络(Deep Neural Networks for Graph Representations,DNGR)、结构化深度网络嵌入(Structural Deep Network Embedding,SDNE)、深度递归网络嵌入(Deep Recursive Network Embedding,DRNE)。
DNGR 和 SDNE 仅基于拓扑结构学习节点嵌入,而 GAE、ARGA、NetRA 和 DRNE 需要基于拓扑信息和节点内容特征学习节点嵌入。图自编码器的一个挑战是邻接矩阵的稀疏性,会导致解码器正条目(positive entry)的数量远远少于负条目。为了解决这个问题,DNGR 重建了一个较稠密的矩阵——PPMI 矩阵,SDNE 对邻接矩阵的零条目进行惩罚,GAE 重新调整邻接矩阵中项的权重,NetRA 将图线性化为序列。
图生成网络的目标是基于一组可观察图来生成图。其中的很多方法都是领域特定的。例如,在分子图生成方面,一些研究将分子图的表征建模为字符串 SMILES [94], [95], [96], [97]。在自然语言处理中,生成语义图或知识图通常需要一个给定的句子 [98], [99]。最近,研究人员又提出了多个通用方法。一些研究将生成过程看成节点或边的形成 [64], [65],而另一些则使用生成对抗训练 [66], [67]。该领域的方法要么使用 GCN 作为构造块,要么使用不同的架构。
这部分介绍了基于 GCN 的图生成网络和其他图生成网络。前者包括:分子生成对抗网络(Molecular Generative Adversarial Networks,MolGAN)和深度图生成模型(Deep Generative Models of Graphs,DGMG);后者涉及 GraphRNN(通过两级循环神经网络使用深度图生成模型)和 NetGAN(结合 LSTM 和 Wasserstein GAN 从基于随机游走的方法中生成图)。
图9:MolGAN框架[67]。生成器首先从标准正态分布中采样初始向量。将该初始向量通过神经网络传递,生成器输出一个密集的邻接矩阵A和一个对应的特征矩阵X。接着,生成器根据基于A和X的分类分布生成一个采样的离散点 A ~ \tilde{A} A~和 X ~ \tilde{X} X~。最后,GCN为用于导出采样图的矢量表示。将此图表示提供给两个不同的神经网络,一个鉴别器和一个奖励网络分别输出一个介于零和一之间的分数,这将用作反馈以更新模型参数。
图时空网络同时捕捉时空图的时间和空间依赖。时空图具备全局图结构,每个节点的输入随着时间而改变。例如在交通网络中,使用每个传感器作为节点来连续记录某条道路的交通流动速度,其中交通网络的边由传感器对之间的距离决定。图时空网络的目标是预测未来节点值或标签,或预测时空图标签。近期研究探索了仅使用 GCN、结合 GCN 和 RNN 或 CNN,以及专用于图结构的循环架构。
这部分介绍了基于 GCN 的图时空网络和其他图时空网络。前者包括:Diffusion Convolutional Recurrent Neural Network (DCRNN)、CNN-GCN、时空 GCN(Spatial Temporal GCN,ST-GCN)。其他方法有 Structural-RNN,一种循环结构化框架。
DCRNN 的优势是能够处理长期依赖,因为它具备循环网络架构。尽管 CNN-GCN 比 DCRNN 简单一些,但 CNN-GCN 能够更高效地处理时空图,这要归功于 1D CNN 的快速实现。时空 GCN 将时间流作为图的边,这导致邻接矩阵的大小呈平方增长。一方面,它增加了图卷积层的计算成本。另一方面,要捕捉长期依赖,图卷积层必须多次堆叠。StructuralRNN 在同一个语义组内共享相同的 RNN,从而改善了模型效率,但是 StructuralRNN 需要人类先验知识来分割语义组。
图神经网络应用广泛。下面将首先介绍在文献中频繁使用的基准数据集。接着将报告各种方法在四种常用数据集上的基准性能,并列出可用的图神经网络开源实现。最后,我们将介绍图神经网络在各个领域的实际应用案例。
引文网络由论文,作者及其关系(例如引文,作者身份,合著者)组成。尽管引文网络是有向图,但在评估节点分类,链接预测和节点聚类任务的模型性能时,它们通常被视为无向图。有三种流行的论文引用网络数据集:Cora,Citeseer和Pubmed。 Cora数据集包含2708个机器学习出版物,分为七个类别。 Citeseer数据集包含3327篇科学论文,分为六类。 Cora和Citeseer中的每篇论文都用一个热向量表示,该向量指示字典中是否存在单词。 Pubmed数据集包含19717个与糖尿病相关的出版物。 Pubmed中的每篇论文都由术语“频率反文档频率”(TF-IDF)向量表示。此外,DBLP是一个大型的引文数据集,包含从计算机科学书目中收集的数百万篇论文和作者。DBLP的原始数据集可以在 https://dblp.uni-trier.de找到。通过https://aminer.org/citation连续更新DBLP论文引文网络的已处理版本。
社交网络是由来自在线服务(例如BlogCatalog,Reddit和Epinions)的用户交互形成的。 BlogCatalog数据集是一个由博客作者及其社交关系组成的社交网络。博客作者的标签代表他们的个人兴趣。 Reddit数据集是由从Reddit讨论论坛收集的帖子形成的无向图。如果两个帖子包含同一用户的评论,则将链接两个帖子。每个帖子都有一个标签,指示其所属的社区。 Epinions数据集是从在线产品评论网站收集的多重关系图,评论者可以在其中拥有多种类型的关系,例如信任,不信任,核心观点和共同评价。
化学/生物图化学分子和化合物可以用化学图表示,原子为节点,化学键为边缘。此类图通常用于评估图分类性能。 NCI-1和NCI-9数据集分别包含4100和4127种化学化合物,标记它们是否具有有效抑制人类癌细胞系生长的活性。 MUTAG数据集包含188种硝基化合物,标明它们是芳香族还是杂芳香族。 D&D数据集包含1178个蛋白质结构,并标明了它们是酶还是非酶。 QM9数据集包含133885个具有13个化学特性的分子。 Tox21数据集包含标记有12种毒性的12707种化学化合物。另一个重要的数据集是蛋白质-蛋白质相互作用网络(PPI)。它包含24个生物学图,其中节点由蛋白质表示,边缘由蛋白质之间的相互作用表示。在PPI中,每个图形都与人体组织相关联。每个节点都标有其生物学状态。
非结构化图为了测试图神经网络对非结构化数据的泛化,已广泛使用了k最近邻图(k-NN图)。 MNIST数据集包含70000张大小为28×28的图像,并用10位数字标记。将MNIST图像转换为图形的典型方法是根据其像素位置构造8-NN图形。 Wikipedia数据集是从Wikipedia转储的前一百万个字节中提取的单词共现网络。词的标签表示词性(POS)标签。 20NewsGroup数据集包含大约20,000个新闻组(NG)文本文档,这些文档按20种新闻类型进行分类。通过将每个文档表示为一个节点并使用节点之间的相似性作为边缘权重来构造20-NewsGroup的图形。
其他还有一些其他数据集值得一提。 METR-LA是从洛杉矶县高速公路收集的交通数据集。来自MovieLens网站的MovieLens-1M数据集包含6k用户给出的100万个项目评分。它是推荐系统的基准数据集。 NELL数据集是从永无止境的语言学习项目获得的知识图。它由包含三个实体及其关系的三元组表示的事实组成。
在表5列出的数据集中,Cora,Pubmed,Citeseer和PPI是最常用的数据集。他们经常经过测试以比较图卷积网络在节点分类任务中的性能。在表6中,我们报告了这四个数据集的基准性能,所有这些数据集均使用标准数据拆分。开源实现促进了深度学习研究中基线实验的工作。由于存在大量的超参数,因此不使用已发布的代码就很难获得与文献报道相同的结果。在表7中,我们提供了第4-5节中介绍的图神经网络模型的开源实现的超链接。值得注意的是,Fey等。 [86]在PyTorch中发布了一个名为PyTorch Geometric的几何学习库,该库实现了服务器图形神经网络,包括ChebNet [12],1stChebNet [14],GraphSage [24],MPNN [13],GAT [15]和SplineCNN [86]。 。最近,发布了Deep Graph Library(DGL),它在流行的深度学习平台(例如PyTorch和MXNet)之上提供了许多具有一组功能的图形神经网络的快速实现。
Model Framework Github Link
ChebNet (2016) [12] tensorflow https://github.com/mdeff/cnn graph
1stChebNet (2017) [14] tensorflow https://github.com/tkipf/gcn
GGNNs (2015) [18] lua https://github.com/yujiali/ggnn
SSE (2018) [19] c https://github.com/Hanjun-Dai/steady state embedding
GraphSage (2017) [24] tensorflow https://github.com/williamleif/GraphSAGE
LGCN (2018) [27] tensorflow https://github.com/divelab/lgcn/
SplineCNN (2018) [86] pytorch https://github.com/rusty1s/pytorch geometric
GAT (2017) [15] tensorflow https://github.com/PetarV-/GAT
GAE (2016) [59] tensorflow https://github.com/limaosen0/Variational-Graph-Auto-Encoders
ARGA (2018) [61] tensorflow https://github.com/Ruiqi-Hu/ARGA
DNGR (2016) [41] matlab https://github.com/ShelsonCao/DNGR
SDNE (2016) [42] python https://github.com/suanrong/SDNE
DRNE (2016) [63] tensorflow https://github.com/tadpole/DRNE
GraphRNN (2018) [64] tensorflow https://github.com/snap-stanford/GraphRNN
DCRNN (2018) [70] tensorflow https://github.com/liyaguang/DCRNN
CNN-GCN (2017) [71] tensorflow https://github.com/VeritasYin/STGCN IJCAI-18
ST-GCN (2018) [72] pytorch https://github.com/yysijie/st-gcn
Structural RNN (2016) [73] theano https://github.com/asheshjain399/RNNexp
本文按领域介绍了 GNN 的应用,包括计算机视觉、推荐系统、交通、化学等。
图神经网络在不同的任务和领域中具有广泛的应用。尽管GNN的每个类别都有专门的常规任务,包括节点分类,节点表示学习,图分类,图生成和时空预测,但GNN还可应用于节点聚类,链接预测[119]和图分区[120]。在本节中,我们主要根据它们所属的一般领域介绍实际应用。
计算机视觉图神经网络的最大应用领域之一是计算机视觉。研究人员已经探索了在场景图生成,点云分类和分割,动作识别以及许多其他方向上利用图结构的方法。在场景图生成中,对象之间的语义关系有助于理解视觉场景背后的语义。给定图像,场景图生成模型检测并识别对象并预测对象对之间的语义关系[121],[122],[123]。另一个应用通过给定场景图生成逼真的图像来逆转该过程[124]。由于自然语言可以解析为语义图,其中每个单词代表一个对象,因此对于给定文字描述的图像合成方法是一种很有前途的解决方案。
在点云分类和分割中,点云是由LiDAR扫描记录的一组3D点。这项任务的解决方案使LiDAR设备能够看到周围的环境,这通常对无人驾驶车辆有利。为了识别点云所描绘的对象,[125],[126],[127]将点云转换为k最近邻图或超点图,并使用图卷积网络探索拓扑结构。
在动作识别中,识别视频中包含的人为动作有助于从机器方面更好地理解视频内容。一组解决方案可检测视频剪辑中人体关节的位置。由骨骼链接的人体关节自然会形成图形。给定人类关节位置的时间序列,[72],[73]应用时空神经网络来学习人类行为模式。
此外,在计算机视觉中应用图神经网络的可能方向的数量仍在增长。这包括少拍图像分类[128],[129],语义分割[130],[131],视觉推理[132]和问题解答[133]。
推荐器系统基于图的推荐器系统将项目和用户作为节点。通过利用项目与项目,用户与用户,用户与项目之间的关系,以及内容信息,基于图的推荐器系统能够产生高质量的推荐。推荐系统的关键是为用户打分商品的重要性。结果,可以将其转换为链接预测问题。目的是预测用户和项目之间缺少的链接。为了解决这个问题,范等人[9]和Ying等 [11]等。提出了一种基于GCN的图形自动编码器。 Monti等[10]结合GCN和RNN来学习产生已知评级的基本过程。
交通拥堵已成为现代城市的热门社会问题。在路线规划和流量控制中,准确预测交通网络中的交通速度,数量或道路密度至关重要。 [28],[70],[71],[134]采用具有时空神经网络的基于图的方法。他们模型的输入是一个时空图。在该时空图中,节点由放置在道路上的传感器表示,边缘由成对节点在阈值以上的距离表示,并且每个节点都包含一个时间序列作为特征。目的是预测时间间隔内道路的平均速度。另一个有趣的应用是出租车需求预测。这极大地帮助了智能交通系统利用资源并有效地节约能源。给定历史出租车需求,位置信息,天气数据和事件特征,Yao等人 [135]结合了LSTM,CNN和由LINE [136]训练的节点嵌入,以形成每个位置的联合表示,以预测某个时间间隔内某个位置所需的出租车的数量。
化学在化学领域,研究人员应用图神经网络来研究分子的图形结构。在分子图中,原子充当节点,化学键充当边缘。节点分类,图分类和图生成是针对分子图的三个主要任务,目的是学习分子指纹[53],[80],预测分子特性[13],推断蛋白质界面[137]以及合成化学物质。化合物[65],[66],[138]。
其他在将GNN应用于其他问题方面已经进行了初步探索,例如程序验证[18],程序推理[139],社会影响预测[140],对抗攻击的预防[141],电气健康记录模型[142],[143] ],事件检测[144]和组合优化[145]。
尽管图神经网络已经证明了其在学习图数据中的能力,但是由于图的复杂性,仍然存在挑战。在本节中,我们提供了图神经网络的四个未来方向。
加深网络。深度学习的成功在于深度神经架构。例如在图像分类中,模型 ResNet 具有 152 层。但在图网络中,实证研究表明,随着网络层数增加,模型性能急剧下降 [147]。根据论文 [147],这是由于图卷积的影响,因为它本质上推动相邻节点的表示更加接近彼此,所以理论上,通过无限次卷积,所有节点的表示将收敛到一个点。这导致了一个问题:加深网络是否仍然是学习图结构数据的好策略?
感受野。节点的感受野是指一组节点,包括中心节点和其近邻节点。节点的近邻(节点)数量遵循幂律分布。有些节点可能只有一个近邻,而有些节点却有数千个近邻。尽管采用了采样策略 [24], [26], [27],但如何选择节点的代表性感受野仍然有待探索。
可扩展性。大部分图神经网络并不能很好地扩展到大型图上。主要原因是当堆叠一个图卷积的多层时,节点的最终状态涉及其大量近邻节点的隐藏状态,导致反向传播变得非常复杂。虽然有些方法试图通过快速采样和子图训练来提升模型效率 [24], [27],但它们仍无法扩展到大型图的深度架构上。
动态性和异质性。大多数当前的图神经网络都处理静态同质图。一方面,假设图架构是固定的。另一方面,假设图的节点和边来自同一个来源。然而,这两个假设在很多情况下是不现实的。在社交网络中,一个新人可能会随时加入,而之前就存在的人也可能退出该社交网络。在推荐系统中,产品可能具有不同的类型,而其输出形式也可能不同,也许是文本,也许是图像。因此,应当开发新方法来处理动态和异质图结构。
REFERENCES
[1] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only
look once: Unified, real-time object detection,” in Proceedings of
the IEEE conference on computer vision and pattern recognition, 2016,
pp. 779–788.
[2] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards
real-time object detection with region proposal networks,” in
Advances in neural information processing systems, 2015, pp. 91–99.
[3] M.-T. Luong, H. Pham, and C. D. Manning, “Effective approaches
to attention-based neural machine translation,” in Proceedings of
the Conference on Empirical Methods in Natural Language Processing,
2015, pp. 1412–1421.
[4] Y . Wu, M. Schuster, Z. Chen, Q. V . Le, M. Norouzi, W. Macherey ,
M. Krikun, Y . Cao, Q. Gao, K. Macherey et al., “Google’s neural
machine translation system: Bridging the gap between human
and machine translation,” arXiv preprint arXiv:1609.08144, 2016.
[5] G. Hinton, L. Deng, D. Yu, G. E. Dahl, A.-r. Mohamed, N. Jaitly ,
A. Senior, V . Vanhoucke, P . Nguyen, T. N. Sainath et al., “Deep
neural networks for acoustic modeling in speech recognition:
The shared views of four research groups,” IEEE Signal processing
magazine, vol. 29, no. 6, pp. 82–97, 2012.
[6] Y . LeCun, Y . Bengio et al., “Convolutional networks for images,
speech, and time series,” The handbook of brain theory and neural
networks, vol. 3361, no. 10, p. 1995, 1995.
[7] S. Hochreiter and J. Schmidhuber, “Long short-term memory ,”
Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[8] M. M. Bronstein, J. Bruna, Y . LeCun, A. Szlam, and P . Van-
dergheynst, “Geometric deep learning: going beyond euclidean
data,” IEEE Signal Processing Magazine, vol. 34, no. 4, pp. 18–42,
2017.
[9] R. van den Berg, T. N. Kipf, and M. Welling, “Graph convolu-
tional matrix completion,” stat, vol. 1050, p. 7, 2017.
[10] F. Monti, M. Bronstein, and X. Bresson, “Geometric matrix com-
pletion with recurrent multi-graph neural networks,” in Advances
in Neural Information Processing Systems, 2017, pp. 3697–3707.
[11] R. Ying, R. He, K. Chen, P . Eksombatchai, W. L. Hamilton, and
J. Leskovec, “Graph convolutional neural networks for web-
scale recommender systems,” in Proceedings of the ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining.
ACM, 2018, pp. 974–983.
[12] M. Defferrard, X. Bresson, and P . Vandergheynst, “Convolutional
neural networks on graphs with fast localized spectral filtering,”
in Advances in Neural Information Processing Systems, 2016, pp.
3844–3852.
[13] J. Gilmer, S. S. Schoenholz, P . F. Riley , O. Vinyals, and G. E. Dahl,
“Neural message passing for quantum chemistry ,” in Proceedings
of the International Conference on Machine Learning, 2017, pp. 1263–
1272.
[14] T. N. Kipf and M. Welling, “Semi-supervised classification with
graph convolutional networks,” in Proceedings of the International
Conference on Learning Representations, 2017.
[15] P . V elickovic, G. Cucurull, A. Casanova, A. Romero, P . Lio,
and Y . Bengio, “Graph attention networks,” in Proceedings of the
International Conference on Learning Representations, 2017.
[16] M. Gori, G. Monfardini, and F. Scarselli, “A new model for
learning in graph domains,” in Proceedings of the International Joint
Conference on Neural Networks, vol. 2. IEEE, 2005, pp. 729–734.
[17] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Mon-
fardini, “The graph neural network model,” IEEE T ransactions on
Neural Networks, vol. 20, no. 1, pp. 61–80, 2009.
[18] Y . Li, D. Tarlow, M. Brockschmidt, and R. Zemel, “Gated graph
sequence neural networks,” in Proceedings of the International
Conference on Learning Representations, 2015.
[19] H. Dai, Z. Kozareva, B. Dai, A. Smola, and L. Song, “Learning
steady-states of iterative algorithms over graphs,” in Proceedings
of the International Conference on Machine Learning, 2018, pp. 1114–
1122.
[20] J. Bruna, W. Zaremba, A. Szlam, and Y . LeCun, “Spectral net-
works and locally connected networks on graphs,” in Proceedings
of International Conference on Learning Representations, 2014.
[21] M. Henaff, J. Bruna, and Y . LeCun, “Deep convolutional networks
on graph-structured data,” arXiv preprint arXiv:1506.05163, 2015.
[22] R. Li, S. Wang, F. Zhu, and J. Huang, “Adaptive graph convolu-
tional neural networks,” in Proceedings of the AAAI Conference on
Artificial Intelligence, 2018, pp. 3546–3553.
[23] R. Levie, F. Monti, X. Bresson, and M. M. Bronstein, “Cayleynets:
Graph convolutional neural networks with complex rational
spectral filters,” arXiv preprint arXiv:1705.07664, 2017.
[24] W. Hamilton, Z. Ying, and J. Leskovec, “Inductive representation
learning on large graphs,” in Advances in Neural Information
Processing Systems, 2017, pp. 1024–1034.
[25] F. Monti, D. Boscaini, J. Masci, E. Rodola, J. Svoboda, and M. M.
Bronstein, “Geometric deep learning on graphs and manifolds
using mixture model cnns,” in Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, vol. 1, no. 2, 2017, p. 3.
[26] M. Niepert, M. Ahmed, and K. Kutzkov , “Learning convolutional
neural networks for graphs,” in Proceedings of the International
Conference on Machine Learning, 2016, pp. 2014–2023.
[27] H. Gao, Z. Wang, and S. Ji, “Large-scale learnable graph convolu-
tional networks,” in Proceedings of the ACM SIGKDD International
Conference on Knowledge Discovery & Data Mining. ACM, 2018,
pp. 1416–1424.
[28] J. Zhang, X. Shi, J. Xie, H. Ma, I. King, and D.-Y . Yeung, “Gaan:
Gated attention networks for learning on large and spatiotem-
poral graphs,” in Proceedings of the Uncertainty in Artificial Intelli-
gence, 2018.
[29] P . W. Battaglia, J. B. Hamrick, V . Bapst, A. Sanchez-Gonzalez,
V . Zambaldi, M. Malinowski, A. Tacchetti, D. Raposo, A. Santoro,
R. Faulkner et al., “Relational inductive biases, deep learning, and
graph networks,” arXiv preprint arXiv:1806.01261, 2018.
[30] J. B. Lee, R. A. Rossi, S. Kim, N. K. Ahmed, and E. Koh, “Attention
models in graphs: A survey ,” arXiv preprint arXiv:1807.07984,
2018.
[31] Z. Zhang, P . Cui, and W. Zhu, “Deep learning on graphs: A
survey ,” arXiv preprint arXiv:1812.04202, 2018.
[32] P . Cui, X. Wang, J. Pei, and W. Zhu, “A survey on network em-
bedding,” IEEE T ransactions on Knowledge and Data Engineering,
2017.
[33] W. L. Hamilton, R. Ying, and J. Leskovec, “Representation learn-
ing on graphs: Methods and applications,” in Advances in Neural
Information Processing Systems, 2017, pp. 1024–1034.
[34] D. Zhang, J. Yin, X. Zhu, and C. Zhang, “Network representation
learning: A survey ,” IEEE T ransactions on Big Data, 2018.
[35] H. Cai, V . W. Zheng, and K. Chang, “A comprehensive survey of
graph embedding: problems, techniques and applications,” IEEE
T ransactions on Knowledge and Data Engineering, 2018.
[36] P . Goyal and E. Ferrara, “Graph embedding techniques, applica-
tions, and performance: A survey ,” Knowledge-Based Systems, vol.
151, pp. 78–94, 2018.
[37] S. Pan, J. Wu, X. Zhu, C. Zhang, and Y . Wang, “Tri-party deep
network representation,” in Proceedings of the International Joint
Conference on Artificial Intelligence. AAAI Press, 2016, pp. 1895–
1901.
[38] X. Shen, S. Pan, W. Liu, Y .-S. Ong, and Q.-S. Sun, “Discrete
network embedding,” in Proceedings of the International Joint Con-
ference on Artificial Intelligence, 7 2018, pp. 3549–3555.
[39] H. Yang, S. Pan, P . Zhang, L. Chen, D. Lian, and C. Zhang,
“Binarized attributed network embedding,” in IEEE International
Conference on Data Mining. IEEE, 2018.
[40] B. Perozzi, R. Al-Rfou, and S. Skiena, “Deepwalk: Online learning
of social representations,” in Proceedings of the ACM SIGKDD
international conference on Knowledge discovery and data mining.
ACM, 2014, pp. 701–710.
[41] S. Cao, W. Lu, and Q. Xu, “Deep neural networks for learning
graph representations,” in Proceedings of the AAAI Conference on
Artificial Intelligence, 2016, pp. 1145–1152.
[42] D. Wang, P . Cui, and W. Zhu, “Structural deep network embed-
ding,” in Proceedings of the ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining. ACM, 2016, pp. 1225–
1234.
[43] A. Susnjara, N. Perraudin, D. Kressner, and P . Vandergheynst,
“Accelerated filtering on graphs using lanczos method,” arXiv
preprint arXiv:1509.04537, 2015.
[44] J. Atwood and D. Towsley , “Diffusion-convolutional neural net-
works,” in Advances in Neural Information Processing Systems, 2016,
pp. 1993–2001.
[45] J. Chen, T. Ma, and C. Xiao, “Fastgcn: fast learning with graph
convolutional networks via importance sampling,” in Proceedings
of the International Conference on Learning Representations, 2018.
[46] J. Chen, J. Zhu, and L. Song, “Stochastic training of graph
convolutional networks with variance reduction,” in Proceedings
of the International Conference on Machine Learning, 2018, pp. 941–
949.
[47] F. P . Such, S. Sah, M. A. Dominguez, S. Pillai, C. Zhang,
A. Michael, N. D. Cahill, and R. Ptucha, “Robust spatial filter-
ing with graph convolutional neural networks,” IEEE Journal of
Selected T opics in Signal Processing, vol. 11, no. 6, pp. 884–896, 2017.
[48] Z. Liu, C. Chen, L. Li, J. Zhou, X. Li, and L. Song, “Geniepath:
Graph neural networks with adaptive receptive paths,” arXiv
preprint arXiv:1802.00910, 2018.
[49] C. Zhuang and Q. Ma, “Dual graph convolutional networks for
graph-based semi-supervised classification,” in Proceedings of the
World Wide Web Conference on World Wide Web. International
World Wide Web Conferences Steering Committee, 2018, pp. 499–
508.
[50] T. Derr, Y . Ma, and J. Tang, “Signed graph convolutional net-
work,” arXiv preprint arXiv:1808.06354, 2018.
[51] T. Pham, T. Tran, D. Q. Phung, and S. V enkatesh, “Column
networks for collective classification,” in Proceedings of the AAAI
Conference on Artificial Intelligence, 2017, pp. 2485–2491.
[52] M. Simonovsky and N. Komodakis, “Dynamic edgeconditioned
filters in convolutional neural networks on graphs,” in Proceed-
ings of the IEEE conference on computer vision and pattern recognition,
2017.
[53] S. Kearnes, K. McCloskey , M. Berndl, V . Pande, and P . Riley ,
“Molecular graph convolutions: moving beyond fingerprints,”
Journal of computer-aided molecular design, vol. 30, no. 8, pp. 595–
608, 2016.
[54] W. Huang, T. Zhang, Y . Rong, and J. Huang, “Adaptive sampling
towards fast graph representation learning,” in Advances in Neu-
ral Information Processing Systems, 2018, pp. 4563–4572.
[55] M. Zhang, Z. Cui, M. Neumann, and Y . Chen, “An end-to-end
deep learning architecture for graph classification,” in Proceedings
of the AAAI Conference on Artificial Intelligence, 2018.
[56] Z. Ying, J. You, C. Morris, X. Ren, W. Hamilton, and J. Leskovec,
“Hierarchical graph representation learning with differentiable
pooling,” in Advances in Neural Information Processing Systems,
2018, pp. 4801–4811.
[57] J. B. Lee, R. Rossi, and X. Kong, “Graph classification using struc-
tural attention,” in Proceedings of the ACM SIGKDD International
Conference on Knowledge Discovery & Data Mining. ACM, 2018,
pp. 1666–1674.
[58] S. Abu-El-Haija, B. Perozzi, R. Al-Rfou, and A. A. Alemi, “Watch
your step: Learning node embeddings via graph attention,” in
Advances in Neural Information Processing Systems, 2018, pp. 9197–
9207.
[59] T. N. Kipf and M. Welling, “Variational graph auto-encoders,”
arXiv preprint arXiv:1611.07308, 2016.
[60] C. Wang, S. Pan, G. Long, X. Zhu, and J. Jiang, “Mgae: Marginal-
ized graph autoencoder for graph clustering,” in Proceedings of
the ACM on Conference on Information and Knowledge Management.
ACM, 2017, pp. 889–898.
[61] S. Pan, R. Hu, G. Long, J. Jiang, L. Yao, and C. Zhang, “Adver-
sarially regularized graph autoencoder for graph embedding.”
in Proceedings of the International Joint Conference on Artificial
Intelligence, 2018, pp. 2609–2615.
[62] W. Yu, C. Zheng, W. Cheng, C. C. Aggarwal, D. Song, B. Zong,
H. Chen, and W. Wang, “Learning deep network representations
with adversarially regularized autoencoders,” in Proceedings of
the ACM SIGKDD International Conference on Knowledge Discovery
& Data Mining. ACM, 2018, pp. 2663–2671.
[63] K. Tu, P . Cui, X. Wang, P . S. Yu, and W. Zhu, “Deep recursive
network embedding with regular equivalence,” in Proceedings of
the ACM SIGKDD International Conference on Knowledge Discovery
and Data Mining. ACM, 2018, pp. 2357–2366.
[64] J. You, R. Ying, X. Ren, W. L. Hamilton, and J. Leskovec,
“Graphrnn: A deep generative model for graphs,” Proceedings of
International Conference on Machine Learning, 2018.
[65] Y . Li, O. Vinyals, C. Dyer, R. Pascanu, and P . Battaglia, “Learning
deep generative models of graphs,” in Proceedings of the Interna-
tional Conference on Machine Learning, 2018.
[66] N. De Cao and T. Kipf, “Molgan: An implicit generative model
for small molecular graphs,” arXiv preprint arXiv:1805.11973,
2018.
[67] A. Bojchevski, O. Shchur, D. Zügner, and S. Günnemann, “Net-
gan: Generating graphs via random walks,” in Proceedings of the
International Conference on Machine Learning, 2018.
[68] T. Ma, J. Chen, and C. Xiao, “Constrained generation of semanti-
cally valid graphs via regularizing variational autoencoders,” in
Advances in Neural Information Processing Systems, 2018, pp. 7110–
7121.
[69] Y . Seo, M. Defferrard, P . Vandergheynst, and X. Bresson, “Struc-
tured sequence modeling with graph convolutional recurrent
networks,” arXiv preprint arXiv:1612.07659, 2016.
[70] Y . Li, R. Yu, C. Shahabi, and Y . Liu, “Diffusion convolutional
recurrent neural network: Data-driven traffic forecasting,” in
Proceedings of International Conference on Learning Representations,
2018.
[71] B. Yu, H. Yin, and Z. Zhu, “Spatio-temporal graph convolutional
networks: A deep learning framework for traffic forecasting,”
in Proceedings of the International Joint Conference on Artificial
Intelligence, 2017, pp. 3634–3640.
[72] S. Yan, Y . Xiong, and D. Lin, “Spatial temporal graph con-
volutional networks for skeleton-based action recognition,” in
Proceedings of the AAAI Conference on Artificial Intelligence, 2018.
[73] A. Jain, A. R. Zamir, S. Savarese, and A. Saxena, “Structural-rnn:
Deep learning on spatio-temporal graphs,” in Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 2016,
pp. 5308–5317.
[74] S. Pan, J. Wu, X. Zhu, C. Zhang, and P . S. Yu, “Joint structure
feature exploration and regularization for multi-task graph clas-
sification,” IEEE T ransactions on Knowledge and Data Engineering,
vol. 28, no. 3, pp. 715–728, 2016.
[75] S. Pan, J. Wu, X. Zhu, G. Long, and C. Zhang, “Task sensitive fea-
ture exploration and learning for multitask graph classification,”
IEEE transactions on cybernetics, vol. 47, no. 3, pp. 744–758, 2017.
[76] D. I. Shuman, S. K. Narang, P . Frossard, A. Ortega, and P . Van-
dergheynst, “The emerging field of signal processing on graphs:
Extending high-dimensional data analysis to networks and other
irregular domains,” IEEE Signal Processing Magazine, vol. 30,
no. 3, pp. 83–98, 2013.
[77] L. B. Almeida, “A learning rule for asynchronous perceptrons
with feedback in a combinatorial environment.” in Proceedings of
the International Conference on Neural Networks, vol. 2. IEEE, 1987,
pp. 609–618.
[78] F. J. Pineda, “Generalization of back-propagation to recurrent
neural networks,” Physical review letters, vol. 59, no. 19, p. 2229,
1987.
[79] K. Cho, B. Van Merriënboer, C. Gulcehre, D. Bahdanau,
F. Bougares, H. Schwenk, and Y . Bengio, “Learning phrase rep-
resentations using rnn encoder-decoder for statistical machine
translation,” in Proceedings of the Conference on Empirical Methods
in Natural Language Processing, 2014, pp. 1724–1734.
[80] D. K. Duvenaud, D. Maclaurin, J. Iparraguirre, R. Bombarell,
T. Hirzel, A. Aspuru-Guzik, and R. P . Adams, “Convolutional
networks on graphs for learning molecular fingerprints,” in
Advances in Neural Information Processing Systems, 2015, pp. 2224–
2232.
[81] K. T. Schütt, F. Arbabzadah, S. Chmiela, K. R. Müller, and
A. Tkatchenko, “Quantum-chemical insights from deep tensor
neural networks,” Nature communications, vol. 8, p. 13890, 2017.
[82] B. Weisfeiler and A. Lehman, “A reduction of a graph to a
canonical form and an algebra arising during this reduction,”
Nauchno-T echnicheskaya Informatsia, vol. 2, no. 9, pp. 12–16, 1968.
[83] B. L. Douglas, “The weisfeiler-lehman method and graph isomor-
phism testing,” arXiv preprint arXiv:1101.5211, 2011.
[84] J. Masci, D. Boscaini, M. Bronstein, and P . Vandergheynst,
“Geodesic convolutional neural networks on riemannian mani-
folds,” in Proceedings of the IEEE International Conference on Com-
puter Vision Workshops, 2015, pp. 37–45.
[85] D. Boscaini, J. Masci, E. Rodolà, and M. Bronstein, “Learning
shape correspondence with anisotropic convolutional neural net-
works,” in Advances in Neural Information Processing Systems, 2016,
pp. 3189–3197.
[86] M. Fey , J. E. Lenssen, F. Weichert, and H. Müller, “Splinecnn: Fast
geometric deep learning with continuous b-spline kernels,” in
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, 2018, pp. 869–877.
[87] S. Pan, J. Wu, and X. Zhu, “Cogboost: Boosting for fast cost-
sensitive graph classification,” IEEE T ransactions on Knowledge &
Data Engineering, no. 1, pp. 1–1, 2015.
[88] K. Xu, W. Hu, J. Leskovec, and S. Jegelka, “How powerful are
graph neural networks,” arXiv preprint arXiv:1810.00826, 2018.
[89] S. V erma and Z.-L. Zhang, “Graph capsule convolutional neural
networks,” arXiv preprint arXiv:1805.08090, 2018.
[90] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N.
Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,”
in Advances in Neural Information Processing Systems, 2017, pp.
5998–6008.
[91] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-
Farley , S. Ozair, A. Courville, and Y . Bengio, “Generative adver-
sarial nets,” in Advances in neural information processing systems,
2014, pp. 2672–2680.
[92] I. Sutskever, O. Vinyals, and Q. V . Le, “Sequence to sequence
learning with neural networks,” in Advances in Neural Information
Processing Systems, 2014, pp. 3104–3112.
[93] P . Vincent, H. Larochelle, Y . Bengio, and P .-A. Manzagol, “Ex-
tracting and composing robust features with denoising autoen-
coders,” in Proceedings of the international conference on Machine
learning. ACM, 2008, pp. 1096–1103.
[94] G. L. Guimaraes, B. Sanchez-Lengeling, C. Outeiral, P . L. C.
Farias, and A. Aspuru-Guzik, “Objective-reinforced generative
adversarial networks (organ) for sequence generation models,”
arXiv preprint arXiv:1705.10843, 2017.
[95] M. J. Kusner, B. Paige, and J. M. Hernández-Lobato, “Grammar
variational autoencoder,” arXiv preprint arXiv:1703.01925, 2017.
[96] H. Dai, Y . Tian, B. Dai, S. Skiena, and L. Song, “Syntax-directed
variational autoencoder for molecule generation,” in Proceedings
of the International Conference on Learning Representations, 2018.
[97] R. Gómez-Bombarelli, J. N. Wei, D. Duvenaud, J. M. Hernández-
Lobato, B. Sánchez-Lengeling, D. Sheberla, J. Aguilera-
Iparraguirre, T. D. Hirzel, R. P . Adams, and A. Aspuru-Guzik,
“Automatic chemical design using a data-driven continuous
representation of molecules,” ACS central science, vol. 4, no. 2,
pp. 268–276, 2018.
[98] B. Chen, L. Sun, and X. Han, “Sequence-to-action: End-to-end
semantic graph generation for semantic parsing,” in Proceedings of
the Annual Meeting of the Association for Computational Linguistics,
2018, pp. 766–777.
[99] D. D. Johnson, “Learning graphical state transitions,” in Proceed-
ings of the International Conference on Learning Representations, 2016.
[100] M. Schlichtkrull, T. N. Kipf, P . Bloem, R. van den Berg, I. Titov ,
and M. Welling, “Modeling relational data with graph convolu-
tional networks,” in European Semantic Web Conference. Springer,
2018, pp. 593–607.
[101] I. Gulrajani, F. Ahmed, M. Arjovsky , V . Dumoulin, and A. C.
Courville, “Improved training of wasserstein gans,” in Advances
in Neural Information Processing Systems, 2017, pp. 5767–5777.
[102] M. Arjovsky , S. Chintala, and L. Bottou, “Wasserstein gan,” arXiv
preprint arXiv:1701.07875, 2017.
[103] P . Sen, G. Namata, M. Bilgic, L. Getoor, B. Galligher, and T. Eliassi-
Rad, “Collective classification in network data,” AI magazine,
vol. 29, no. 3, p. 93, 2008.
[104] X. Zhang, Y . Li, D. Shen, and L. Carin, “Diffusion maps for textual
network embedding,” in Advances in Neural Information Processing
Systems, 2018.
[105] J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang, and Z. Su, “Arnetminer:
extraction and mining of academic social networks,” in Proceed-
ings of the ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining. ACM, 2008, pp. 990–998.
[106] Y . Ma, S. Wang, C. C. Aggarwal, D. Yin, and J. Tang, “Multi-
dimensional graph convolutional networks,” arXiv preprint
arXiv:1808.06099, 2018.
[107] L. Tang and H. Liu, “Relational learning via latent social dimen-
sions,” in Proceedings of the ACM SIGKDD International Conference
on Knowledge Ciscovery and Data Mining. ACM, 2009, pp. 817–
826.
[108] H. Wang, J. Wang, J. Wang, M. Zhao, W. Zhang, F. Zhang, X. Xie,
and M. Guo, “Graphgan: Graph representation learning with
generative adversarial nets,” in Proceedings of the AAAI Conference
on Artificial Intelligence, 2017.
[109] M. Zitnik and J. Leskovec, “Predicting multicellular function
through multi-layer tissue networks,” Bioinformatics, vol. 33,
no. 14, pp. i190–i198, 2017.
[110] N. Wale, I. A. Watson, and G. Karypis, “Comparison of descrip-
tor spaces for chemical compound retrieval and classification,”
Knowledge and Information Systems, vol. 14, no. 3, pp. 347–375,
2008.
[111] A. K. Debnath, R. L. Lopez de Compadre, G. Debnath, A. J.
Shusterman, and C. Hansch, “Structure-activity relationship of
mutagenic aromatic and heteroaromatic nitro compounds. cor-
relation with molecular orbital energies and hydrophobicity ,”
Journal of medicinal chemistry, vol. 34, no. 2, pp. 786–797, 1991.
[112] P . D. Dobson and A. J. Doig, “Distinguishing enzyme structures
from non-enzymes without alignments,” Journal of molecular biol-
ogy, vol. 330, no. 4, pp. 771–783, 2003.
[113] R. Ramakrishnan, P . O. Dral, M. Rupp, and O. A. V on Lilien-
feld, “Quantum chemistry structures and properties of 134 kilo
molecules,” Scientific data, vol. 1, p. 140022, 2014.
[114] T. Joachims, “A probabilistic analysis of the rocchio algorithm
with tfidf for text categorization.” Carnegie-mellon univ pitts-
burgh pa dept of computer science, Tech. Rep., 1996.
[115] H. Jagadish, J. Gehrke, A. Labrinidis, Y . Papakonstantinou, J. M.
Patel, R. Ramakrishnan, and C. Shahabi, “Big data and its tech-
nical challenges,” Communications of the ACM, vol. 57, no. 7, pp.
86–94, 2014.
[116] B. N. Miller, I. Albert, S. K. Lam, J. A. Konstan, and J. Riedl,
“Movielens unplugged: experiences with an occasionally con-
nected recommender system,” in Proceedings of the international
conference on Intelligent user interfaces. ACM, 2003, pp. 263–266.
[117] A. Carlson, J. Betteridge, B. Kisiel, B. Settles, E. R. Hruschka Jr,
and T. M. Mitchell, “Toward an architecture for never-ending
language learning.” in Proceedings of the AAAI Conference on
Artificial Intelligence, 2010, pp. 1306–1313.
[118] P . V eliˇ ckovi´ c, W. Fedus, W. L. Hamilton, P . Liò, Y . Ben-
gio, and R. D. Hjelm, “Deep graph infomax,” arXiv preprint
arXiv:1809.10341, 2018.
[119] M. Zhang and Y . Chen, “Link prediction based on graph neural
networks,” in Advances in Neural Information Processing Systems,
2018.
[120] T. Kawamoto, M. Tsubaki, and T. Obuchi, “Mean-field theory
of graph neural networks in graph partitioning,” in Advances in
Neural Information Processing Systems, 2018, pp. 4362–4372.
[121] D. Xu, Y . Zhu, C. B. Choy , and L. Fei-Fei, “Scene graph generation
by iterative message passing,” in Proceedings of the IEEE Confer-
ence on Computer Vision and Pattern Recognition, vol. 2, 2017.
[122] J. Yang, J. Lu, S. Lee, D. Batra, and D. Parikh, “Graph r-cnn
for scene graph generation,” in European Conference on Computer
Vision. Springer, 2018, pp. 690–706.
[123] Y . Li, W. Ouyang, B. Zhou, J. Shi, C. Zhang, and X. Wang, “Fac-
torizable net: an efficient subgraph-based framework for scene
graph generation,” in European Conference on Computer Vision.
Springer, 2018, pp. 346–363.
[124] J. Johnson, A. Gupta, and L. Fei-Fei, “Image generation from
scene graphs,” arXiv preprint, 2018.
[125] Y . Wang, Y . Sun, Z. Liu, S. E. Sarma, M. M. Bronstein, and J. M.
Solomon, “Dynamic graph cnn for learning on point clouds,”
arXiv preprint arXiv:1801.07829, 2018.
[126] L. Landrieu and M. Simonovsky , “Large-scale point cloud seman-
tic segmentation with superpoint graphs,” in Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 2018.
[127] G. Te, W. Hu, Z. Guo, and A. Zheng, “Rgcnn: Regular-
ized graph cnn for point cloud segmentation,” arXiv preprint
arXiv:1806.02952, 2018.
[128] V . G. Satorras and J. B. Estrach, “Few-shot learning with graph
neural networks,” in Proceedings of the International Conference on
Learning Representations, 2018.
[129] M. Guo, E. Chou, D.-A. Huang, S. Song, S. Yeung, and L. Fei-
Fei, “Neural graph matching networks for fewshot 3d action
recognition,” in European Conference on Computer Vision. Springer,
2018, pp. 673–689.
[130] X. Qi, R. Liao, J. Jia, S. Fidler, and R. Urtasun, “3d graph neural
networks for rgbd semantic segmentation,” in Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 2017,
pp. 5199–5208.
[131] L. Yi, H. Su, X. Guo, and L. J. Guibas, “Syncspeccnn: Synchro-
nized spectral cnn for 3d shape segmentation.” in Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition,
2017, pp. 6584–6592.
[132] X. Chen, L.-J. Li, L. Fei-Fei, and A. Gupta, “Iterative visual reason-
ing beyond convolutions,” in Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, 2018.
[133] M. Narasimhan, S. Lazebnik, and A. Schwing, “Out of the
box: Reasoning with graph convolution nets for factual visual
question answering,” in Advances in Neural Information Processing
Systems, 2018, pp. 2655–2666.
[134] Z. Cui, K. Henrickson, R. Ke, and Y . Wang, “High-order graph
convolutional recurrent neural network: a deep learning frame-
work for network-scale traffic learning and forecasting,” arXiv
preprint arXiv:1802.07007, 2018.
[135] H. Yao, F. Wu, J. Ke, X. Tang, Y . Jia, S. Lu, P . Gong, J. Ye,
and Z. Li, “Deep multi-view spatial-temporal network for taxi
demand prediction,” in Proceedings of the AAAI Conference on
Artificial Intelligence, 2018, pp. 2588–2595.
[136] J. Tang, M. Qu, M. Wang, M. Zhang, J. Yan, and Q. Mei, “Line:
Large-scale information network embedding,” in Proceedings of
the International Conference on World Wide Web. International
World Wide Web Conferences Steering Committee, 2015, pp.
1067–1077.
[137] A. Fout, J. Byrd, B. Shariat, and A. Ben-Hur, “Protein interface
prediction using graph convolutional networks,” in Advances in
Neural Information Processing Systems, 2017, pp. 6530–6539.
[138] J. You, B. Liu, R. Ying, V . Pande, and J. Leskovec, “Graph
convolutional policy network for goal-directed molecular graph
generation,” in Advances in Neural Information Processing Systems,
2018.
[139] M. Allamanis, M. Brockschmidt, and M. Khademi, “Learning to
represent programs with graphs,” in Proceedings of the Interna-
tional Conference on Learning Representations, 2017.
[140] J. Qiu, J. Tang, H. Ma, Y . Dong, K. Wang, and J. Tang, “Deepinf:
Social influence prediction with deep learning,” in Proceedings of
the ACM SIGKDD International Conference on Knowledge Discovery
& Data Mining. ACM, 2018, pp. 2110–2119.
[141] D. Zügner, A. Akbarnejad, and S. Günnemann, “Adversarial
attacks on neural networks for graph data,” in Proceedings of the
ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining. ACM, 2018, pp. 2847–2856.
[142] E. Choi, M. T. Bahadori, L. Song, W. F. Stewart, and J. Sun, “Gram:
graph-based attention model for healthcare representation learn-
ing,” in Proceedings of the ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining. ACM, 2017, pp. 787–795.
[143] E. Choi, C. Xiao, W. Stewart, and J. Sun, “Mime: Multilevel
medical embedding of electronic health records for predictive
healthcare,” in Advances in Neural Information Processing Systems,
2018, pp. 4548–4558.
[144] T. H. Nguyen and R. Grishman, “Graph convolutional networks
with argument-aware pooling for event detection,” in Proceedings
of the AAAI Conference on Artificial Intelligence, 2018, pp. 5900–
5907.
[145] Z. Li, Q. Chen, and V . Koltun, “Combinatorial optimization
with graph convolutional networks and guided tree search,” in
Advances in Neural Information Processing Systems, 2018, pp. 536–
545.
[146] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning
for image recognition,” in Proceedings of the IEEE conference on
computer vision and pattern recognition, 2016, pp. 770–778.
[147] Q. Li, Z. Han, and X.-M. Wu, “Deeper insights into graph convo-
lutional networks for semi-supervised learning,” in Proceedings of
the AAAI Conference on Artificial Intelligence, 2018.