作者:張張張張
github地址:https://github.com/zhanghekai
【转载请注明出处,谢谢!】
G A T GAT GAT源代码地址:https://github.com/PetarV-/GAT
G A T GAT GAT论文地址:https://arxiv.org/pdf/1710.10903.pdf
\qquad G A T GAT GAT是在 G C N GCN GCN的基础上进行改进而得以实现的,不熟悉 G C N GCN GCN的朋友可以阅读我的另一篇文章【图结构】之图神经网络GCN详解,关于输入的特征矩阵的生成方式以及最后如何用 G A T GAT GAT或 G C N GCN GCN进行分类,都在这篇文章中有所讲述!
在 G C N GCN GCN详解那篇文章最后我们提出了 G C N GCN GCN的两个缺点, G A T GAT GAT就是来解决这两个缺点的:
G C N GCN GCN缺点:
\qquad G r a p h A t t e n t i o n N e t w o r k ( G A T ) Graph Attention Network (GAT) GraphAttentionNetwork(GAT)提出了用注意力机制对邻近节点特征加权求和。 邻近节点特征的权重完全取决于节点特征,独立于图结构。 G A T GAT GAT和 G C N GCN GCN的核心区别在于如何收集并累和距离为1的邻居节点的特征表示。 图注意力模型 G A T GAT GAT用注意力机制替代了 G C N GCN GCN中固定的标准化操作。本质上, G A T GAT GAT只是将原本 G C N GCN GCN的标准化函数替换为使用注意力权重的邻居节点特征聚合函数。
G A T GAT GAT优点:
图注意力层的输入是:一个节点特征向量集:
h = { h ⃗ 1 , h ⃗ 2 , ⋯ , h ⃗ N } , h ⃗ i ∈ R F h=\{\vec{h}_1,\vec{h}_2,\cdots,\vec{h}_N\},\vec{h}_i\in \R^F h={h1,h2,⋯,hN},hi∈RF
其中 N N N为节点个数, F F F为节点特征的个数。矩阵 h h h的大小是 N × F N\times F N×F,代表了所有节点的特征,而 R \R R只代表了某一个节点的特征,所以它的大小为 F × 1 F \times 1 F×1。输出同理。
每一层的输出是:一个新的节点特征向量集:
h ′ = { h ′ ⃗ 1 , h ′ ⃗ 2 , ⋯ , h ′ ⃗ N } , h ′ ⃗ i ∈ R F ′ h'=\{ \vec{h'}_1,\vec{h'}_2,\cdots,\vec{h'}_N\},\vec{h'}_i\in \R^{F'} h′={h′1,h′2,⋯,h′N},h′i∈RF′
其中 F ′ F' F′表示新的节点特征向量维度(可以不等于 F F F)。
\qquad G A T GAT GAT与 G C N GCN GCN同样也是一个特征提取器,针对的是 N N N个节点,按照其输入的节点特征预测输出新的节点的特征。
\qquad 为了得到相应的输入与输出的转换,我们需要根据输入的特征至少进行一次线性变换得到输出的特征,所以我们需要对所有节点训练一个权重矩阵: W ∈ R F ′ × F W\in\R^{F' \times F} W∈RF′×F,这个权重矩阵就是输入的 F F F个特征与输出的 F ′ F' F′个特征之间的关系。
\qquad 针对每个节点实行 s e l f − a t t e n t i o n self-attention self−attention的注意力机制,注意力系数 ( a t t e n t i o n    c o e f f i c i e n t s ) (attention \;coefficients) (attentioncoefficients)为:
(1) e i j = a ( W h ⃗ i , W h ⃗ j ) e_{ij}=a(W\vec{h}_i,W\vec{h}_j)\tag{1} eij=a(Whi,Whj)(1)
注意: a a a不是一个常数或是矩阵, a ( ) a() a()是一个函数,类似于 f ( x ) f(x) f(x)那种自己定义好的函数。
★什么是 s e l f − a t t e n t i o n self-attention self−attention机制?
\qquad s e l f − a t t e n t i o n self-attention self−attention其作用是能够更好地学习到全局特征之间的依赖关系, s e l f − a t t e n t i o n self-attention self−attention通过直接计算图结构中任意两个节点之间的关系,一步到位地获取图结构的全局几何特征。
\qquad s e l f − a t t e n t i o n self-attention self−attention利用了 a t t e n t i o n attention attention机制,分三个阶段进行计算:(1) 引入不同的函数和计算机制,根据 Q u e r y Query Query和某个 K e y i Key_i Keyi,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量 C o s i n e Cosine Cosine相似性或者通过再引入额外的神经网络来求值;(2) 引入类似 s o f t m a x softmax softmax的计算方式对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为 1 1 1的概率分布;另一方面也可以通过 s o f t m a x softmax softmax的内在机制更加突出重要元素的权重;(3)第二阶段的计算结果 a i a_i ai即为 v a l u e i value_i valuei对应的权重系数,然后进行加权求和即可得到 a t t e n t i o n attention attention数值。
\qquad 作者通过 m a s k e d    a t t e n t i o n masked \;attention maskedattention将这个注意力机制引入图结构中, m a s k e d    a t t e n t i o n masked \;attention maskedattention的含义是:仅将注意力分配到节点 i i i的邻居节点集 N i N_i Ni上,即 j ∈ N i j \in N_i j∈Ni (在本文中,节点 i i i也是 N i N_i Ni的一部分)。 为了使得注意力系数更容易计算和便于比较,我们引入了 s o f t m a x softmax softmax对所有的 i i i的相邻节点 j j j进行正则化:
(2) α i j = s o f t m a x j ( e i j ) = e x p ( e i j ) ∑ k ∈ N i e x p ( e i k ) \alpha_{ij}=softmax_j(e_{ij})=\frac{exp(e_{ij})}{\sum_{k\in N_i}exp(e_{ik})}\tag{2} αij=softmaxj(eij)=∑k∈Niexp(eik)exp(eij)(2)
\qquad 实验之中,注意力机制 a a a是一个单层的前馈神经网络, a ⃗ ∈ R 2 F ′ \vec{\rm{a}}\in\R^{2F'} a∈R2F′是神经网络中连接层与层之间的权重矩阵,在该前馈神将网络的输出层上还加入了 L e a k y R e L u LeakyReLu LeakyReLu函数,这里小于零斜率为 0.2 0.2 0.2。
★什么是 L e a k y R e L u LeakyReLu LeakyReLu函数?
\qquad R e L u ReLu ReLu是将所有的负值都设为零,相反, L e a k y R e L u LeakyReLu LeakyReLu是给所有负值赋予一个非零斜率,在本论文中以数学的方式我们可以表示为:
y i = { x i i f    x i ≥ 0 0.2 i f    x i ≤ 0 y_i=\begin{cases}x_i & if\;x_i\geq0\\0.2 & if\;x_i\leq0\end{cases} yi={xi0.2ifxi≥0ifxi≤0
\qquad 综合上述公式(1)和(2),整理到一起可得到完整的注意力机制如下:
(3) α i j = e x p ( L e a k y R e L u ( a ⃗ T [ W h ⃗ i ∣ ∣ W h ⃗ j ] ) ) ∑ k ∈ N i e x p ( L e a k y R e L u ( a ⃗ T [ W h ⃗ i ∣ ∣ W h ⃗ k ] ) ) \alpha_{ij}=\frac{exp(LeakyReLu(\vec{\rm{a}}^T[W\vec{h}_i||W\vec{h}_j]))}{\sum_{k\in N_i}exp(LeakyReLu(\vec{\rm{a}}^T[W\vec{h}_i||W\vec{h}_k]))}\tag{3} αij=∑k∈Niexp(LeakyReLu(aT[Whi∣∣Whk]))exp(LeakyReLu(aT[Whi∣∣Whj]))(3)
注意: e i j e_{ij} eij和 α i j \alpha_{ij} αij都叫做"注意力系数",只不过 α i j \alpha_{ij} αij是在 e i j e_{ij} eij基础上进行归一化后的。
\qquad 通过上述运算得到了正则化后的不同节点之间的注意力系数,可以用来预测每个节点的输出特征:
(4) h ′ ⃗ i = σ ( ∑ j ∈ N i α i j W h ⃗ j ) \vec{h'}_i=\sigma(\sum_{j \in N_i}\alpha_{ij}W\vec{h}_j)\tag{4} h′i=σ(j∈Ni∑αijWhj)(4)
\qquad 为了稳定 s e l f − a t t e n t i o n self-attention self−attention的学习过程,作者发现扩展我们的机制以采用 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multi−headattention是有益的。具体而言, K K K个独立注意力机制执行公式(4),然后将它们的特征连接起来。但是,如果我们对最终的网络层执行 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multi−headattention,则连接操作不再合理,相反,我们采用 K K K平均来替代连接操作,并延迟应用最终的非线性函数(通常为分类问题的 s o f t m a x softmax softmax或 l o g i s t i c    s i g m o i d logistic \;sigmoid logisticsigmoid),得到最终的公式:
h ′ ⃗ i = σ ( 1 K ∑ k = 1 K ∑ j ∈ N i α i j k W k h ⃗ j ) \vec{h'}_i=\sigma(\frac{1}{K}\sum_{k=1}^{K}\sum_{j\in N_i}\alpha_{ij}^kW^k\vec{h}_j) h′i=σ(K1k=1∑Kj∈Ni∑αijkWkhj)
★什么是 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multi−headattention ?
\qquad 这里面 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multi−headattention其实就是多个 s e l f − a t t e n t i o n self-attention self−attention结构的结合,每个 h e a d head head学习到在不同表示空间中的特征,多个 h e a d head head学习到的 a t t e n t i o n attention attention侧重点可能略有不同,这样给了模型更大的容量。
m u l t i − h e a d    a t t e n t i o n multi-head\;attention multi−headattention图例:
\qquad 由节点 h ⃗ 1 \vec{h}_1 h1在其邻域上的 m u l t i − h e a d    a t t e n t i o n multi-head\;attention multi−headattention(具有 K = 3 K = 3 K=3个头)的图示。不同的箭头样式和颜色表示独立的注意力计算,来自每个头的聚合特征被连接或平均以获得 h ′ ⃗ 1 \vec{h'}_1 h′1。
\qquad G A T GAT GAT的分类过程与 G C N GCN GCN的分类过程十分相似,均是采用 s o f t m a x softmax softmax函数 + + +交叉熵损失函数 + + +梯度下降法来完成的,详细内容可参阅我的另一篇文章【图结构】之图神经网络GCN详解