图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018

本文的第一作者来自剑桥大学计算机学院。
文本提出了图形注意网络(GATs),这是一种新型的神经网络结构,它对图结构的数据进行操作,利用masked self-attention来解决先前方法的缺点。通过堆叠不同的GAT层,使得节点能够关注它们的邻域特性。我们可以(隐式地)为一个邻域内的不同节点指定不同的权重,而不需要任何昂贵的矩阵运算(比如求逆),也不需要预先了解图的结构。

GRAPH ATTENTIONAL LAYER

输入,每个结点的特征矩阵,N*F:
在这里插入图片描述
输出,新的结点的特征。新的特征使用注意力机制聚合了邻域内结点的信息:
在这里插入图片描述
为了将输入的特征转化为更高级别的特征,因此首先学习一个由共享参数矩在这里插入图片描述计算的可学习线性变换。
之后,采用self-attention计算结点对(j是结点i的一阶邻居结点)之间的注意力系数:
在这里插入图片描述这表示了结点i对结点j的重要性。同时采用了mask的机制,以一定的几率随机mask掉邻域内的结点,不计算其注意力系数。最终,采用softmax进行normalize:
在这里插入图片描述激活函数采用LeakyRelu,最终计算注意力权重的公式如下:
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第1张图片其中,||表示向量之间的拼接操作。整个注意力的计算过程如下图所示:
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第2张图片
因此,layer的输出表示为:
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第3张图片
为了让attention的计算更稳定,进一步采用了multi-head的机制,对同一个结点多次计算其注意力。这样输出的特征就变成了K×F’的向量:
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第4张图片
当在网络的最后一层(预测层)进行multi-head attention,就不再是向量的拼接,而是进行平均:
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第5张图片
K=3的多头attention计算过程如图:
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第6张图片

COMPARISONS TO RELATED WORK

  • 尽管multi-head的计算方式产生了K倍的参数,但是可并行化,其复杂度与Kipf等人的GCN相当;并且与之相比,并不需要昂贵的矩阵分解操作。
  • 注意力机制带来可解释性。
  • 不依赖于全局的结构特征,只聚合邻域内的信息,不必要求对邻域结点下采样,也不假定结点之间的顺序。

EVALUATION

采用如下四个数据集:
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第7张图片
将任务分为Transductive learning以及Inductive learning。前者对应前三个数据集,对一个graph进行操作;后者对应PPI,数据集中含有多个graph。

Transductive learning

与GCN[1]和MoNet [2]进行对比。
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第8张图片

Inductive learning

与GraphSAGE [3]进行对比(GraphSAGE详细内容可以戳这里)。
图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018_第9张图片

【1】Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. International Conference on Learning Representations (ICLR), 2017.
【2】Federico Monti, Davide Boscaini, Jonathan Masci, Emanuele Rodol`a, Jan Svoboda, and Michael M Bronstein. Geometric deep learning on graphs and manifolds using mixture model cnns. arXiv preprint arXiv:1611.08402, 2016
【3】William L Hamilton, Rex Ying, and Jure Leskovec. Inductive representation learning on large graphs. Neural Information Processing Systems (NIPS), 2017

你可能感兴趣的:(图神经网络论文阅读(六) GRAPH ATTENTION NETWORKS,ICLR2018)