1 概述
图数据特征提取器,让我们可以使用这些特征去对图数据进行节点分类(node classification)、图分类(graph classification)、边预测(link prediction),还可以顺便得到图的嵌入表示(graph embedding)。
GCN 功能非常强大,即使随机初始化两层GCN也可以生成图网络节点有用的特征表示。
作者自己的博客:http://tkipf.github.io/graph-convolutional-networks/
2 GCN基本过程
2.1 基本形式
给定图 ),GCN 的输入为:
(1)特征矩阵(维度为 ,其中N是图数据中的节点个数,表示每个节点的输入特征数 );
(2)一个图结构的矩阵表征(维度为):比如图的邻接矩阵。
GCN隐藏层,其中是一中传播规则,,每个隐藏层都对应一个维度为的特征矩阵,该矩阵中的每一行都是某个节点的特征表征。在每一层中,GCN会使用传播规则讲这些信息聚合起来,从而形成下一层的特征。这样一来,在每个连续的层中特征就会变得越来越抽象。在该框架下,GCN 的各种变体只不过是在传播规则的选择上有所不同 【传播规则范围比较广,包含特征传播,激活等】。
传播规则的简单示例,使用非线性激活函数:
其中为第层的权重矩阵,维度为,即权重矩阵第二个维度的大小决定了下一层的特征数,由于这些权重在图中的节点间共享,该操作与卷积核滤波操作类似,是非线性激活函数(如 ReLU 函数)。最后输出维度为,也就是每个节点的特征由变成,更加抽象了。
2.2 在简单的层次上研究传播规则
上面给出GCN的基本传播过程就是,为了理解传播规则,将在简单的层次上研究传播规则,这时令:
(1),(约束条件就是作用于输入特征矩阵的函数)
(2)设置为恒等函数(也就是无任何作用的函数,即,输入=输出)
(3)选择权重设置为均为1(约束条件变为:)
也就是,等价于多层感知器的输入层。
可以得到上图矩阵,每一行表示经过传播层后每个节点的特征,根据得到的矩阵,可以看出每一行为其相邻节点特征的和,也就是图卷积层会将每个节点表示为其相邻节点特征的聚合。
但是,存在以下问题:
(1)节点的聚合表征不包含它自己的特征!
该表征是相邻节点的特征聚合,因此只有具有自环(self-loop)的节点才会在该聚合中包含自己的特征。
(2)度大的节点在其特征表征中将具有较大的值,度小的节点将具有较小的值。这可能会导致梯度消失或梯度爆炸,也会影响随机梯度下降算法(随机梯度下降算法通常被用于训练这类网络,且对每个输入特征的规模(或值的范围)都很敏感)。
解决问题:
(1)增加自环
针对第一个问题,节点聚合不包括自己的特征,直接为每个节点添加一个自环,具体实现可以在应用传播规则之前将邻接矩阵 与单位矩阵 相加:
这时,由于每个节点都是自己的邻居,每个节点在对相邻节点的特征求和过程中也会囊括自己的特征
(2)对特征表征进行归一化处理
针对第二个问题,通过将邻接矩阵 与度矩阵 的逆相乘,对其进行变换,从而通过节点的度对特征表征进行归一化:
注意,将邻接矩阵 与度矩阵 的逆相乘后,邻接矩阵中每一行的权重(值)都除以该行对应节点的度。然后应用传播规则,得到与相邻节点的特征均值对应的节点表征,这是因为(变换后的)邻接矩阵的权重对应于相邻节点特征加权和的权重。
(3)整合
自环+归一化特征+权重+激活函数
添加权重:是对应的度矩阵,即具有强制自环的矩阵 的度矩阵。设置权重为,现在是矩阵,如果想要缩小输出特征的维度就可以减小的规模,例如,增大同理。
添加激活函数:选择保持特征表征的维度,并应用 ReLU 激活函数:
这就是一个带有邻接矩阵、输入特征、权重和激活函数的完整隐藏层!
3 半监督GCN(用于节点分类:
参考论文:SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
上图中的GCN输入一个图,通过若干层GCN每个node的特征从变成了,但是,无论中间有多少层,node之间的连接关系,即,都是共享的。
半监督GCN是GNN的一种特殊情况,是堆叠两层特定的传播和感知器形成的,形式为:
,
其中, ,进一步把D的拆开与A相乘,得到一个对称且归一化的矩阵,ReLU为非线性激活函数,经过softmax可以得到每一个类别的概率。其中的参数和通过在所有标记样本上最小化交叉熵损失函数得到:
注:可以用这个方法去做 link prediction,只是把损失函数给变化一下即可!!!
其他GCN:
(1)对于很多网络,我们可能没有节点的特征,这个时候可以使用GCN吗?答案是可以的,如论文中作者对那个俱乐部网络,采用的方法就是用单位矩阵 I 替换特征矩阵 X。
(2)我没有任何的节点类别的标注,或者什么其他的标注信息,可以使用GCN吗?当然,就如前面讲的,不训练的GCN,也可以用来提取graph embedding,而且效果还不错。
(3)GCN网络的层数多少比较好?论文的作者做过GCN网络深度的对比研究,在他们的实验中发现,GCN层数不宜多,2-3层的效果就很好了。
4 基于attention的半监督GCN
参考论文:ATTENTION-BASED GRAPH NEURAL NETWORK FOR SEMI-SUPERVISED LEARNING
4.1 GCN同上
传播矩阵P最后的结果就是邻居节点对中心节点产生的影响的和除以其节点个数的总和==等价于每个邻居节点对中心节点的影响是一样的。
4.2 GLN
为了更好的理解GCN,作者将GCN中的非线性变换剔除,只保留传播层,称为GLN,这对于标记样本非常少的半监督学习是非常有意义的,因为会减少很多参数;也为设计更新颖的传播层提供了空间。这样GLN模型就是一个简单的线性模型。
4.3 AGNN
原始的GCN和其他图神经网络使用的是静态,无法自适应的传播法则。无法捕捉中心节点的哪个邻居节点对于中心节点的分类贡献更大。真实数据并非所有的边都是代表着相同的关联强度,其中必然有一些才是至关重要的。基于GLN的实验结果,提出了作用于邻居节点集合的attention机制,它可以学习到分类模型中,哪些邻居与中心节点更相关,并相应的权衡他们的贡献。
AGNN第一层网络与原始GCN一样,参数矩阵将节点特征转化为长度为的特征向量,激活函数使用ReLU。
在每个传播层加入参数化的注意力引导机制,参数为。
这样,对于节点的输出向量为:
,
attention中的softmax函数是确保传播矩阵每行的和为1,代表邻居节点对中心节点的影响力总和为1。这样从节点j到i的注意力为 :
,
计算节点和节点在第层隐含状态的余弦距离,它捕捉了节点到节点的关联程度。注意力机制更倾向于选择那些与中心节点相同类别的邻居节点,给予更强的关联强度。
参考链接:
GCN、机器之心AGNN、包括GCN推导过程