G = ( V , E , A ) \mathcal { G } = ( V , E , A ) G=(V,E,A)
图网络有很多结构, 这里按照最新的综述论文 A Comprehensive Survey on Graph Neural Networks 文中的分类方式, 主要分为:
这里主要介绍图卷积网络GCN. 因为GCN在捕获结构化依赖上扮演着中心角色.
Inspired by the huge success of convolutional networks in the computer vision domain, a large number of methods that re-define the notation of convolutionfor graph data have emerged recently.
These approaches are under the umbrella of graph convolutional networks (GCNs). The first prominent research on GCNs is presented in Bruna et al. (2013), which develops a variant of graph convolution based on spectral graph theory [20]. Since that time, there have been increasing improvements, extensions, and approximations on spectral-based graph convolutional networks [12], [14],[21], [22], [23].
As spectral methods usually handle the whole graph simultaneously and are difficult to parallel or scale to large graphs, spatial-based graph convolutional networks have rapidly developed recently [24], [25], [26],[27]. These methods directly perform the convolution in the graph domain by aggregating the neighbor nodes’ information. Together with sampling strategies, the computation can be performed in a batch of nodes instead of the whole graph[24], [27], which has the potential to improve the efficiency.
译文:
受卷积网络在计算机视觉领域取得巨大成功的启发,最近出现了大量重新定义图形数据卷积表示法的方法。
这些方法属于图卷积网络(GCNs)的范畴。Bruna等人(2013)首次提出了对GCNs的突出研究,该研究基于频谱图理论[20]开发了一种图形卷积的变体。从那时起,基于频谱的图卷积网络[12]、[14]、[21]、[22]、[23]得到了越来越多的改进、扩展和逼近。
由于频谱方法通常同时处理整个图,且难以并行或缩放到大型图,因此基于空间的图卷积网络近年来发展迅速。这些方法通过聚集相邻节点的信息,直接在图域中进行卷积。结合采样策略,可以在一批节点中进行计算,而不是整个图[24]、[27],具有提高效率的潜力。
将应用于传统数据的卷积操作, 泛化到了图数据上面. 关键是学习一个函数f, 来通过集成自己和邻居的特征生成节点的表示. GCN在构建其他复杂的图神经网络的任务上, 扮演着重要的角色. 包括auto-encoder-based models, generative models, spatial-temporal networks等.
对于GCN而言, 在集成邻居的过程的时候, 使用的权重是无参数的, 而GAN(图注意力网络)使用了一个端到端神经网络架构捕获的权重, 来使得更重要的节点拥有更大的权重.(这里更多的是表述空域的GCN)
对于图卷积网络, 其实是在尝试通过图谱理论或者局部空间来定义图卷积的方式来在图数据上复制CNN的成功.
使用图结构和节点内容信息作为输入, GCN的输出使用以下不同的机制, 可以关注于不同的图分析任务.
这里有一个总结的表, 总结了主要方法的情况:
对于图卷积网络, 是可以通过半监督/全监督/无监督的方式进行端到端训练的, 注意取决于学习任务和标签信息的获取.
3.3.1.1 初始
基于图信号处理的知识, 图上的卷积可以被定义为: x ∗ G g θ = U g θ U T x \mathbf { x } * _ { G } \mathbf { g } _ { \theta } = \mathbf { U } \mathbf { g } _ { \theta } \mathbf { U } ^ { T } \mathbf { x } x∗Ggθ=UgθUTx
其中 g θ = diag ( U T g ) \mathbf { g } _ { \theta } = \operatorname { diag } \left( \mathbf { U } ^ { T } \mathbf { g } \right) gθ=diag(UTg)表示滤波器. 可以看做是L特征值的函数, 也就是 g θ ( Λ ) g _ { \theta } ( \Lambda ) gθ(Λ).
这里有 x ∈ R N \mathbf { x } \in \mathbf { R } ^ { N } x∈RN, xi表示第i个节点的值(这里相当于节点的特征向量长度只有1).
这个等式计算消耗大, 计算L的特征分解对于大图来说可能是非常昂贵的.
在后续的改进中, 这里的信号的设定被进一步扩展, 输入信号表示为: X k ∈ R N × f k − 1 \mathbf { X } ^ { k } \in \mathbf { R } ^ { N \times f _ { k - 1 } } Xk∈RN×fk−1, 这里 f k − 1 f_k-1 fk−1表示输入通道数, f k f_k fk表示输出通道数. 滤波器也整合表示为 g θ = Θ i , j k \mathbf { g } _ { \theta } = \Theta _ { i , j } ^ { k } gθ=Θi,jk, 表示为:
X : , j k + 1 = σ ( ∑ i = 1 f k − 1 U Θ i , j k U T X s , i k ) ( j = 1 , 2 , ⋯   , f k ) \mathbf { X } _ { : , j } ^ { k + 1 } = \sigma \left( \sum _ { i = 1 } ^ { f _ { k - 1 } } \mathbf { U } \Theta _ { i , j } ^ { k } \mathbf { U } ^ { T } \mathbf { X } _ { \mathbf { s } , i } ^ { k } \right) \quad \left( j = 1,2 , \cdots , f _ { k } \right) X:,jk+1=σ(∑i=1fk−1UΘi,jkUTXs,ik)(j=1,2,⋯,fk)
这里的 σ 表示的是一个非线性转换.
3.3.1.2 切比雪夫K阶截断: ChebNet
之后有人利用切比雪夫多项式来近似表示了滤波器, 进一步简化了公式的计算:
g θ = ∑ i = 1 K θ i T k ( Λ ~ ) \mathbf { g } _ { \theta } = \sum _ { i = 1 } ^ { K } \theta _ { i } T _ { k } ( \tilde { \boldsymbol { \Lambda } } ) gθ=∑i=1KθiTk(Λ~),where Λ ~ = 2 Λ / λ max − I N \tilde { \boldsymbol { \Lambda } } = 2 \Lambda / \lambda _ { \max } - \mathbf { I } _ { \mathrm { N } } Λ~=2Λ/λmax−IN
Chebyshev polynomials are defined recursively by T k ( x ) = 2 x T k − 1 ( x ) − T k − 2 ( x ) T _ { k } ( x ) = 2 x T _ { k - 1 } ( x ) - T _ { k - 2 } ( x ) Tk(x)=2xTk−1(x)−Tk−2(x) with T 0 ( x ) = 1 T _ { 0 } ( x ) = 1 T0(x)=1 and T 1 ( x ) = x T _ { 1 } ( x ) = x T1(x)=x
因此卷积操作进一步表示为:
x ∗ G g θ = U ( ∑ i = 1 K θ i T k ( Λ ~ ) ) U T x = ∑ i = 1 K θ i T i ( L ~ ) x where L ~ = 2 L / λ max − I N \begin{aligned} \mathbf { x } * _ { G } \mathbf { g } _ { \theta } & = \mathbf { U } \left( \sum _ { i = 1 } ^ { K } \theta _ { i } T _ { k } ( \tilde { \boldsymbol { \Lambda } } ) \right) \mathbf { U } ^ { T } \mathbf { x } \\ & = \sum _ { i = 1 } ^ { K } \theta _ { i } T _ { i } ( \tilde { \mathbf { L } } ) \mathbf { x } \\ \text { where } \tilde { \mathbf { L } } = 2 \mathbf { L } / \lambda _ { \max } - \mathbf { I } _ { \mathrm { N } } \end{aligned} x∗Ggθ where L~=2L/λmax−IN=U(i=1∑KθiTk(Λ~))UTx=i=1∑KθiTi(L~)x
这个时候, 可以看这个表达式, 这个卷积的计算只依赖于中心节点的K阶邻居.(K步以内可达的节点). 而且这样定义的滤波器也是稀疏的.
3.3.1.3 一阶ChebNet
当前面的公式中, K=1的时候, 并且使得 λ m a x = 2 \lambda_{max}=2 λmax=2, 则进一步简化为:
x ∗ G g θ = θ 0 x − θ 1 D − 1 2 A D − 1 2 x \mathbf { x } * _ { G } \mathbf { g } _ { \theta } = \theta _ { 0 } \mathbf { x } - \theta _ { 1 } \mathbf { D } ^ { - \frac { 1 } { 2 } } \mathbf { A } \mathbf { D } ^ { - \frac { 1 } { 2 } } \mathbf { x } x∗Ggθ=θ0x−θ1D−21AD−21x
为了进一步减少参数, 以避免过拟合, 这里进行了进一步简化, 让两个 θ 相反. 也就是 θ = θ 0 = − θ 1 \theta = \theta _ { 0 } = - \theta _ { 1 } θ=θ0=−θ1, 这就得到了最终简化后的定义:
x ∗ G g θ = θ ( I n + D − 1 2 A D − 1 2 ) x \mathbf { x } * _ { G } \mathbf { g } _ { \theta } = \theta \left( \mathbf { I } _ { \mathbf { n } } + \mathbf { D } ^ { - \frac { 1 } { 2 } } \mathbf { A } \mathbf { D } ^ { - \frac { 1 } { 2 } } \right) \mathbf { x } x∗Ggθ=θ(In+D−21AD−21)x
这里最终表示为:
X k + 1 = A ~ X k Θ \mathbf { X } ^ { \mathbf { k } + \mathbf { 1 } } = \tilde { \mathbf { A } } \mathbf { X } ^ { \mathbf { k } } \Theta Xk+1=A~XkΘ
where A ~ = I N + D − 1 2 A D − 1 2 \tilde { \mathbf { A } } = \mathbf { I } _ { \mathbf { N } } + \mathbf { D } ^ { - \frac { 1 } { 2 } } \mathbf { A } \mathbf { D } ^ { - \frac { 1 } { 2 } } A~=IN+D−21AD−21
通过一阶ChebNet定义的图卷积在空间上是局部的, 这弥补了谱方法与空域方法的差别. 输出的每行表示每个节点通过一个加权集成了自身和相邻节点的信息了的线性转换来获得的潜在表征.
然而, 一阶ChebNet主要的问题是, 在批量训练过程中,随着1stChebNet层数的增加,计算代价呈指数增长. 最后一层中的每个节点必须在以前的层中递归地扩展其邻域. 一些工作已这对这些问题进行了改进.
3.3.1.4 自适应图卷积网络AGCN
为了探索没有被图拉普拉斯矩阵指定的隐藏结构关系, 有人提出了AGCN, AGCN用一个所谓的残差图来扩充一个图,这个图是通过计算节点之间的成对距离来构造的, 尽管能够捕获互补的关系信息, 但是它的计算复杂度为 O ( N 2 ) O(N^2) O(N2).
3.3.1.5 谱方法小结
谱方法主要依赖于拉普拉斯矩阵的分解, 它有三种影响:
对于谱方法, 通常它们都需要载入整个图到内存中, 来应用图卷积, 这对于处理大的图来说, 不是很有效率.
空域方法定义卷积主要基于节点的空间关系. 为了关联图和图像, 图像的每个像素认为是节点. 每个像素直接连接到它的相邻像素.
由于相邻节点的特殊排序,可训练权值可以在不同的位置共享。类似地,对于一般图,基于空间的图卷积采用中心节点表示和其邻居表示的聚合来获得该节点的新表示。为了探索节点感受域的深度和宽度,通常的做法是将多个图形卷积层堆叠在一起.
根据卷积层叠加方法的不同,空间GCN又可分为基于递归(recurrent-based)的GCN和基于合成(composition-based)的空间GCN两大类. 基于递归的方法使用相同的图卷积层来更新隐藏表示,而基于合成的方法使用不同的图卷积层来更新隐藏表示.
3.3.2.1 基于递归的空间GCN(Recurrent-based Spatial GCNs)
基于递归的方法主要想法是更新节点节点的隐藏状态直到得到一个稳定的固定点. 这是通过施加对递归函数的约束,或者使用门控递归单元结构,或者异步地和随机地更新节点潜在表示。
图神经网络GNN(特指早期的一种结构)
这是图神经网络的早期工作, GNN递归更新节点的潜在表征, 直到收敛. 换句话说,从扩散过程的角度来看,每个节点与邻居交换信息直到达到平衡为止。
为了处理异质图(heterogeneous graph), 这类GNN的空间图卷积被定义为
h v t = f ( 1 v , 1 c o [ v ] , h n e t − 1 [ v ] , l n e [ v ] ) \mathbf { h } _ { v } ^ { t } = f \left( 1 _ { \mathbf { v } } , 1 _ { c o } [ v ] , \mathbf { h } _ { n e } ^ { t - 1 } [ v ] , \mathbf { l } _ { n e } [ v ] \right) hvt=f(1v,1co[v],hnet−1[v],lne[v])
这里使用了针对节点v的标签属性, 边的标签属性, 其邻居在时间步t的隐藏表征, 以及其邻居的标签属性.
为了确保收敛, 递归函数必须是一个约束映射, 这个会在映射之后压缩两点之间的距离. 若f()是一个神经网络, 那么一个惩罚项就会使用在参数的Jacobian矩阵上.
Jacobian矩阵是一阶偏导数以一定的方式排列成的矩阵.
GNN使用Almeida-Pineda算法来训练模型. 核心思想是通过运行传播过程到达固定点,然后给出收敛解的后向过程.
门控图神经网络(GGNN)
GGNN使用门控递归单元(GRU)作为递归函数, 来讲递归降低为一个固定的步数.
GGNN的空间图卷积定义为:
h v t = G R U ( h v t − 1 , ∑ u ∈ N ( v ) W h u t ) \mathbf { h } _ { v } ^ { t } = G R U \left( \mathbf { h } _ { v } ^ { t - 1 } , \sum _ { u \in N ( v ) } \mathbf { W h } _ { u } ^ { t } \right) hvt=GRU(hvt−1,∑u∈N(v)Whut)
不同于GNN, GGNN使用基于时间的反向传播算法(BPTT) 来学习参数, 它的优势在于不用再学习约束参数来确保收敛了. 然而,BPTT训练的缺点是它 牺牲了时间和存储的效率. 尤其是在处理大图的时候, GGNN会在所有节点上运行递归函数多次, 需要所有节点的中间态被存储下来.
随机稳态嵌入SSE
为了提升学习效率, SSE算法用来随机地更新节点的潜在表征, 以一种异步的方式. 下面是SSE的迭代算法.
如上, SSE迭代评估节点潜在表征并且使用抽样的批数据更新参数.
为了确保收敛到稳态, 递归函数被定义为一个历史状态和新状态的加权平均
h v t = ( 1 − α ) h v t − 1 + α W 1 σ ( W 2 [ x v , ∑ u ∈ N ( v ) [ h u t − 1 , x u ] ] )    ( 10 ) \mathbf { h } _ { \mathbf { v } } ^ { t } = ( 1 - \alpha ) \mathbf { h } _ { \mathbf { v } } ^ { t - 1 } + \alpha \mathbf { W } _ { \mathbf { 1 } } \sigma \left( \mathbf { W } _ { 2 } \left[ \mathbf { x } _ { \mathbf { v } } , \sum _ { u \in N ( v ) } \left[ \mathbf { h } _ { \mathbf { u } } ^ { t - 1 } , \mathbf { x } _ { \mathbf { u } } \right] \right] \right) \; (10) hvt=(1−α)hvt−1+αW1σ(W2[xv,∑u∈N(v)[hut−1,xu]])(10)
上式中, 第二项是新的结果, 结合第一项的历史状态, 可以得到新的真正的状态.
虽然对邻域信息的求和隐含地考虑了节点度,但这种求和的规模是否影响该算法的稳定性仍是个问题.
3.3.2.2 基于合成的空间GCN(Composition Based Spatial GCNs)
基于合成的方法更新节点表征, 通过堆叠多个图卷积层.
消息传递神经网络(MPNN)
MPNN包含两个阶段, 消息传送阶段(message passing phase)和读出阶段(readout phase). 消息传送阶段实际上运行T步的空间图卷积. 图卷积操作通过消息函数 M t ( ) M_t() Mt()和一个更新函数 U t ( ) U_t() Ut()来定义:
h v t = U t ( h v t − 1 , ∑ w ∈ N ( v ) M t ( h v t − 1 , h w t − 1 , e v w ) ) \mathbf { h } _ { v } ^ { t } = \mathbf { U } _ { t } \left( \mathbf { h } _ { v } ^ { t - 1 } , \sum _ { w \in N ( v ) } M _ { t } \left( \mathbf { h } _ { v } ^ { t - 1 } , \mathbf { h } _ { w } ^ { t - 1 } , \mathbf { e } _ { v w } \right) \right) hvt=Ut(hvt−1,∑w∈N(v)Mt(hvt−1,hwt−1,evw))
通过函数M传递来自旧状态的消息得到新的状态, 使用U来结合新旧状态进行更新, 得到当前时间的真正状态.
这里的读出阶段实际上是一个池化操作, 产生了一个整个图的表征, 基于每个单独节点的隐藏表征. 它被定义为:
y ^ = R ( h v T ∣ v ∈ G ) \hat { \mathbf { y } } = R \left( \mathbf { h } _ { v } ^ { T } | v \in G \right) y^=R(hvT∣v∈G)
通过函数R的输出, 最终的表征y被用来处理图级预测任务. 很多的其他工作都可以看做是使用了U,M的不同形式的结果.
GraphSage
引入了聚合函数的概念来定义图的卷积, 聚合函数实质上是聚合节点的邻域信息. 它必须对节点顺序的排列具有不变性, 例如求均值、和、极大值函数等.
这样的图卷积操作可以被定义为:
h v t = σ ( W t ⋅ a g g r e g a t e k ( h v t − 1 , { h u k − 1 , ∀ u ∈ N ( v ) } ) \mathbf { h } _ { v } ^ { t } = \sigma \left( \mathbf { W } ^ { t } \cdot aggregate _ { k } \left( \mathbf { h } _ { v } ^ { t - 1 } , \left\{ \mathbf { h } _ { u } ^ { k - 1 } , \forall u \in \mathcal { N } ( v ) \right\} \right)\right. hvt=σ(Wt⋅aggregatek(hvt−1,{huk−1,∀u∈N(v)})
GraphSage并没有在所有节点上更新状态, 而是提出了一个批学习算法, 这个提升了对于大图的可扩展性. 其学习过程主要有三步:
3.3.2.3 空域GCN的其他变体
扩散卷积神经网络(DCNN)
PATCHY-SAN
大规模图卷积网络(LGCN)
混合模型网络(MoNet)
3.3.2.4 空域方法小结
空域方法定义图卷积, 通过集成来自邻居的特征信息. 更具不同的堆叠图卷积层的方式, 主要分类两种, 一种是基于递归的要获得节点的稳态的方法, 一种是基于组合的要去合并更高阶的邻域信息的方法.
在训练时, 每一层中, 两种方法都必须更新所有节点的隐藏状态. 然而, 将所有的中间状态存储到内存中并不是一个有效的策略. 为了解决这个问题, 一些训练策略被提出来, 包括针对组合方法的子图训练(GraphSage)和针对递归方法的随机异步训练(SSE)
泛化卷积神经网络到图结构数据的另一个关键点, 那就是图池化模块了. 尤其是对于图级分类任务.
和原始CNN中的池化模块类似, 图池化模块可以容易的减少方差和通过从原始特征数据中下采样来减少计算复杂度.
Mean/max/sum池化是实现这一点的最原始和最有效的方法,因为在池化窗口中计算均值/最大/和值是快速的。
h G = m e a n / max / sum ( h 1 T , h 2 T , … , h n T ) \mathbf { h } _ { G } = m e a n / \max / \operatorname { sum } \left( \mathbf { h } _ { 1 } ^ { T } , \mathbf { h } _ { 2 } ^ { T } , \ldots , \mathbf { h } _ { n } ^ { T } \right) hG=mean/max/sum(h1T,h2T,…,hnT)
Henaff等人证明了在网络的开始加入一个简单的max/mean池化, 对于降低图的维度和减轻昂贵的图傅里叶变换操作的损耗是尤其重要的.
而Defferrard(ChebNet)等人, 进一步优化了max/min池化操作, 设计了一种有效的池化策略.
SortPooling操作也被在架构DGCNN中提出, 也是进行了类似的重排操作, 将顶点重排到更有意义的顺序. 不同于ChebNet,这里是根据顶点图中的结构化的角色来进行的排序.
DIFFPOOL池化模块, 可以生成图的层次表达,它不仅可以与CNN相结合,而且可以与各种(various)图型神经网络进行端到端的结合.
作为针对图数据的早期卷积网络, 谱方法已经在许多图相关分析任务中取得了不错的结果. 这些模型出现在已有的在图信号处理的理论基础上. 通过设计新的图信号滤波器, 可以设计新的图卷积网络.
作为最早的图形数据卷积网络,基于谱的模型在许多与图形相关的分析任务中取得了令人印象深刻的结果. 这些模型具有很好的吸引力,因为它们具有图形信号处理的理论基础. 通过设计新的图信号滤波器[23],我们可以从理论上设计新的图卷积网络。
然而,基于谱的模型有几个缺点, 我们从效率、一般性和灵活性三个方面来说明这一点:
因此,空间模型近年来受到越来越多的关注.
更深
感受野
扩展性
动态与异构
一些新词
···································································································································································································································································································································································
参考:
https://blog.csdn.net/Frank_LJiang/article/details/94971055
https://blog.csdn.net/Frank_LJiang/article/details/95214027
https://blog.csdn.net/Frank_LJiang/article/details/94888011
https://www.cnblogs.com/lart ,尊重作者,致敬作者!