Graph Attention-Based Forecasting

NLP中大火的Transformer和GAT本质在做一样的事情。Transformer利用self-attention机制将输入中的每个单词用其上下文的加权来表示,而GAT则是利用self-attention机制将每个节点用其邻居的加权来表示。Transformer的公式如下所示:

公式里面的Q,K,V是一个单词的三种描述,其中,Q是当单词作为上下文的中心位置时的表示,K是当单词作为上下文时的表示,V是当单词作为加权输入时的表示。

其实代表了单词之间的相似性,Softmax函数(归一化指数函数)的形式通常按下面的式子给出:

Softmax函数归一化后得到注意力权重。


Transformer和GAT的联系和区别

联系

都是通过探索输入之间的关联性(注意力权重),通过对上下文信息(句子上下文/节点邻居)进行聚合,来获得各个输入(单词/节点)的表示。

区别

GAT中,作者对自注意力进行了简化。每个节点无论是作为中心节点/上下文/聚合输出,都只用一种表示h.即Q=K=V。

在图上,节点的邻居是一个集合,具有不变性。Transformer将文本隐式的建图过程中丢失了单词之间的位置关系,用额外的位置编码来描述位置信息。


Graph上的Attention为什么有效

在大规模Graph中由于节点较多,复杂的背景噪声会对GNN性能产生不良影响。在Attention的作用下,GNN模型会关注到Graph中最重要的节点/节点中最重要的信息从而提高信噪比。

Attention更巧妙地利用了Graph节点之间的相互联系,区分了联系的层级,能够增强任务中需要的有效信息。比如在玩狼人的时候预言家说你是平民,你的平民信息会得到大幅度增强,而普通人说你是平民,你的平民信息增强有限。


引用

https://www.zhihu.com/question/275866887

https://zhuanlan.zhihu.com/p/132497231

你可能感兴趣的:(Graph Attention-Based Forecasting)