文章目录
-
-
-
- GAT基本原理
-
- 计算注意力系数(attention coefficient)
- 特征加权求和(aggregate)
- multi-head attention
- GAT实现代码
GCN结合邻近节点特征的方式和图的结构依依相关,这也给GCN带来了几个问题:
- 无法完成inductive任务,即处理动态图问题。inductive任务是指:训练阶段与测试阶段需要处理的graph不同。通常是训练阶段只是在子图(subgraph)上进行,测试阶段需要处理未知的顶点。(unseen node)
- 处理有向图的瓶颈,不容易实现分配不同的学习权重给不同的neighbor。
于是,Bengio等人在ICLR 2018上提出了图注意力(GAT)模型,论文详见:Graph Attention Networks
GAT基本原理

结合上图,GAT的核心思想就是针对节点 i i i和节点 j j j , GAT首先学习了他们之间的注意力权重 a i , j a_{i,j} ai,j(如左图所示);然后,基于注意力权重 { a 1 , . . . , a 6 } \{a_1, ... , a_6\} { a1,...,a6}来对节点 { 1 , 2 , . . . , 6 } \{1, 2, ... ,6\} { 1,2,...,6}的表示 { h 1 , . . . , h 6 } \{h_1, ... , h_6\} { h1,...,h6}加权平均,进而得到节点1的表示 h 1 ′ {h}'_1 h1′ 。
和所有的attention mechanism一样,GAT的计算也分为两步走:
计算注意力系数(attention coefficient)
对于顶点 i i i ,逐个计算它的邻居们和它自己之间的相似系数

解读一下这个公式:
- 首先一个共享参数 W W W的线性映射对于顶点的特征进行了增维,当然这是一种常见的特征增强(feature augment)方法;
- ∣ ∣ || ∣∣对于顶点 i , j i, j i,j 的变换后的特征进行了拼接(concatenate);
- 最后 a ( ) a() a() 把拼接后的高维特征映射到一个实数上。
显然学习顶点 i , j i, j i,j 之间的相关性,就是通过可学习的参数 W W W 和映射 a ( ) a() a() 完成的。
有了相关系数,离注意力系数就差归一化了!其实就是用个softmax

特征加权求和(aggregate)
第二步很简单,根据计算好的注意力系数,把特征加权求和(aggregate)一下。

h i ′ {h}'_i hi′ 就是GAT输出的对于每个顶点 i i i 的新特征(融合了邻域信息)。
multi-head attention

multi-head attention也可以理解成用了ensemble的方法。
关于GAT的解读,推荐下面几篇文章:
- 向往的GAT(图注意力模型)
- 图注意力网络(GAT) ICLR2018, Graph Attention Network论文详解
- 深入理解图注意力机制
GAT实现代码
GAT实现代码Github地址:Pytorch | Tensorflow | Keras
PyTorch版代码解析:
- https://www.jianshu.com/p/7a397ca90895
- https://blog.csdn.net/weixin_36474809/article/details/89350573
Tensorflow版代码解析:
- 我的另外一篇博客:Graph Attention Network (GAT) 的Tensorflow版代码解析
- https://blog.csdn.net/karroyan/article/details/100318072
- https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/105548217
- https://blog.csdn.net/lyd1995/article/details/98451367