GRAPH ATTENTION NETWORKS图注意力网络 论文翻译

图注意力网络(GAT) ICLR2018, Graph Attention Network论文详解

ABSTRACT

我们提出了图注意网络(GATs),这是一种新型的基于图结构数据的神经网络结构,利用屏蔽的自注意层masked self-attentional layers来解决基于图卷积或其近似的现有方法的缺点。通过堆叠节点能够参与其邻域特征的层,我们可以(隐式)为邻域中的不同节点指定不同的权重,而不需要任何代价高昂的矩阵运算(比如求逆),也不依赖于预先知道图的结构。通过这种方法,我们同时解决了基于谱的图神经网络的几个关键挑战,使我们的模型易于适用于归纳inductive和转导问题transductive problems。我们的GAT模型在四个已建立的转导和归纳图基准transductive and inductive graph benchmarks上取得或匹配了最先进的结果:Cora、Citeseer和Pubmed引文网络数据集,以及protein- protein interaction dataset蛋白质-蛋白质相互作用数据集(其中测试图在训练过程中保持不可见)。

1 INTRODUCTION

卷积神经网络已经成功应用于解决图像分类(He等人,2016)、语义分割(Je Gou等人,2017)或机器翻译(Gehring等人,2016)等问题,其中底层数据表示具有网格状结构。这些架构通过将它们应用于所有输入位置,有效地重用它们的本地过滤器,并带有可学习的参数。
然而,许多有趣的任务涉及的数据不能用网格状结构表示,而是位于不规则的域中。这是3D网格、社交网络、远程通信网络、生物网络或大脑连接体的情况。这类数据通常可以用图的形式表示。
文献中已经有过几次扩展神经网络处理任意结构图的尝试。早期的工作使用递归神经网络处理图域中表示为有向无环图的数据(Frasconi等,1998;Sperduti & Starita,1997)。图神经网络(GNNs)是Gori等人(2005)和Scarselli等人(2009)作为递归神经网络的推广,可以直接处理更一般的一类图,如循环图、有向图和无向图。GNNs由一个迭代过程组成,它传播节点状态直到平衡;其次是神经网络,它为每个节点生成输出基于它的状态。这个想法被Li等人(2016)采纳和改进,他们建议在传播步骤中使用门控递归单元(Cho等人,2014)。
然而,将卷积推广到图域的兴趣越来越大。这方面的进展通常分为光谱方法和非光谱方法。
一方面,谱方法是用图的谱表示来工作的,并且已经成功地应用于节点分类的上下文中。在布鲁纳等人(2014)中,卷积运算是通过计算图Laplacian的特征分解在傅立叶域中定义的,从而导致潜在的高强度计算和非空间局部化滤波器。这些问题在随后的作品中得到了解决。Henaff等人(2015)引入了平滑系数的谱滤波器参数化,以便使它们在空间上局部化。后来,Defferrard等人(2016)提出了通过拉普拉斯图的切比雪夫Chebyshev展开来近似滤波器,消除了计算拉普拉斯特征向量的需要,产生了空间局部化滤波器spatially localized filters。最后,Kipf & Welling (2017)通过限制过滤器在每个节点周围的1步邻域内操作,简化了以前的方法。然而,在上述所有的谱方法中,学习滤波器都依赖于拉普拉斯特征基,拉普拉斯特征基依赖于图的结构。因此,在特定结构上训练的模型不能直接应用于不同结构的图
另一方面,我们有非光谱方法(Duvenaud等人,2015;阿特伍德&托斯卡利,2016年;Hamilton等人,2017),它直接在图上定义卷积,在空间近邻的组上操作。这些方法的挑战之一是定义一个与不同大小的邻居一起工作并维护CNN的权重共享特性的运营商。在某些情况下,这需要学习每个节点度的特定权重矩阵(Duvenaud等人,2015年),使用转换矩阵的幂来定义邻域,同时学习每个输入通道和邻域度的权重(Atwood & Towsley,2016年),或者提取包含固定节点数的邻域并将其正常化(Niepert等人,2016年)。蒙蒂等人(2016)提出了混合模型CNN(MoNet),这是一种空间方法,它将CNN架构统一概括为图。最近,Hamilton等人(2017)引入了GraphSAGE,一种以归纳方式计算节点表示的方法。这种技术通过对每个节点的固定大小的邻域进行采样,然后在其上执行特定的聚合器(比如对所有采样的邻居的特征向量的均值,或者通过递归神经网络对其进行喂养的结果)。这种方法在几个大规模归纳基准large-scale inductive benchmarks中取得了令人印象深刻的性能。
在许多基于序列的任务中,注意力机制几乎已经成为事实上的标准(Bah- danau等人,2015;Gehring等人,2016)。注意力机制的一个好处是,它允许处理可变大小的输入,关注输入中最相关的部分来做出决策当注意机制用于计算单个序列的表示时,通常称为自我注意或内部注意self-attention or intra-attention。与递归神经网络(rnn)或卷积一起,自我注意被证明对机器阅读(Cheng等人,2016)和学习句子表示(Lin等人,2017)等任务非常有用。然而,Vaswani等人(2017)表明,自我关注不仅可以改进基于rnn或卷积的方法,而且足以构建一个在机器翻译任务中获得最新性能的强大模型。
受最近这项工作的启发,我们引入了一种基于注意力的体系结构attention-based architecture 来对图结构数据进行节点分类。这个想法是通过关注它的邻居,遵循自我关注策略self-attention strategy来计算图中每个节点的隐藏表示。注意力架构有几个有趣的特性:(1)操作高效,因为它可以跨节点-邻居对node- neighbor pairs并行;(2)它可以通过给邻居指定任意的权重来适用于不同程度的图节点;(3)该模型直接适用于归纳学习问题inductive learning problems,包括模型必须推广到完全看不见的图的任务。我们在四个具有挑战性的基准上验证了所提出的方法:Cora、Citeseer和Pubmed引文网络,以及一个诱导性蛋白质-蛋白质交互数据集Cora, Citeseer and Pubmed citation networks as well as an inductive protein-protein interaction dataset,实现或匹配最先进的结果,这些结果突出了基于注意力的模型在处理任意结构图时的潜力。
值得注意的是,正如Kipf & Welling (2017)和Atwood & Towsley (2016)一样,我们的工作也可以作为MoNet(蒙蒂等人,2016)的一个特定实例重新表述。此外,我们跨边缘共享神经网络计算的方法让人想起关系网络(桑托罗等人,2017)和VAIN (Hoshen,2017)的提法,其中通过使用共享机制,对象或代理之间的关系是成对聚集的。同样,我们提出的attension模型可以连接到Duan等人(2017)和Denil等人(2017)的作品中,他们使用邻域注意操作来计算环境中不同对象之间的注意系数。其他相关方法包括局部线性嵌入(LLE) (Roweis & Saul,2000)和内存网络(Weston等人,2014)。LLE在每个数据点周围选择固定数量的邻居,并为每个邻居学习一个权重系数,以重构每个点作为其邻居的加权和。第二个优化步骤提取点的特征嵌入。内存网络也与我们的工作共享一些连接,特别是如果我们将节点的邻域解释为内存,它用于通过关注节点的值来计算节点特征,然后通过在相同的位置存储新的特征来更新。

2 GAT ARCHITECTURE

在本节中,我们将展示用于构建任意图形注意网络的构建块层(通过堆叠这一层),并直接概述其与神经图处理领域的前人工作相比在理论和实践上的好处和局限性。

2.1图形注意层GRAPH ATTENTIONAL LAYER

我们将首先描述一个单一的图形注意力层,作为我们实验中使用的所有GAT架构中使用的唯一一层。我们使用的特定注意力设置密切关注Bahdanau等人的工作(2015)——但该框架对注意力机制的特定选择是不可知的。GRAPH ATTENTION NETWORKS图注意力网络 论文翻译_第1张图片

GRAPH ATTENTION NETWORKS图注意力网络 论文翻译_第2张图片
GRAPH ATTENTION NETWORKS图注意力网络 论文翻译_第3张图片

2.2 COMPARISONS TO RELATED WORK

第2.1节中描述的图形注意层直接解决了以前用神经网络建模图形结构数据的方法中存在的几个问题:

  • 在计算上,它是高效的:自关注层的操作可以跨所有边缘并行,输出特征的计算可以跨所有节点并行。不需要特征分解或类似的昂贵矩阵运算。单个GAT注意力头部计算F′特征的时间复杂度可以表示为O(|V | FF′+|E| F′),其中F是输入特征的数量,| V |和| E |分别是图中的节点数和边数。这种复杂性与图卷积网络(gcn)(Kipf & Welling,2017)等基线方法相当。应用多头注意力将存储和参数要求乘以K倍,而单个头部的计算是完全独立的,可以并行化。
  • 与gcn相反,我们的模型允许(隐式)将不同的重要性分配给相同邻域的节点,从而实现模型容量的飞跃。此外,分析学习到的注意力权重可能会带来可解释性的好处,机器翻译领域的情况就是如此(例如Bahdanau等人的定性分析(2015))。
  • 注意机制以一种共享的方式应用于图中的所有边,因此它不依赖于对全局图结构或其所有节点(许多现有技术的限制)的预先访问。这有几个可取的含义:①不要求图是无向的(如果边j → i不存在,我们可以简单地省略计算αij)。②它使我们的技术直接适用于归纳学习inductive learning——包括在训练中完全看不到completely unseen的图上评估模型的任务。
  • Hamilton等人最近发表的归纳方法inductive method(2017)对每个节点的固定大小邻域进行采样,以保持其计算足迹的一致性;这不允许它在执行推理时访问整个邻域。此外,当使用基于LSTM (Hochreiter & Schmidhuber,1997)的邻域聚合器时,这种技术获得了一些最强的结果。这假设存在跨邻居的一致顺序节点排序,作者通过一致地向LSTM输入随机顺序的序列来确认它。我们的技术不存在这两个问题——它对整个邻居都有效(以可变的计算占用为代价,这一点仍然与GCN等方法不相上下),并且不假设其中有任何顺序。
  • 如第1节所述,GAT可以重新表述为MoNet的一个特定实例(Monti等人,2016)。更具体地说,将伪坐标函数设置为u(x,y)= f(x)||f(y),其中f(x)表示节点x的(一潜在的MLP变换的)特征,||表示串联;权函数为wj (u) = softmax(MLP(u))(在节点的整个邻域内执行softmax)将使MoNet的补丁操作符patch operator与我们的类似。尽管如此,人们应该注意到,与以前考虑的MoNet实例相比,我们的模型使用节点特征进行相似性计算,而不是节点的结构属性(这将假设提前知道图的结构)。

我们能够生成一个利用稀疏矩阵操作的GAT层版本,将存储复杂性降低到节点和边数的线性,并能够在更大的图形数据集上执行GAT模型。但是,我们使用的张量操作框架只支持秩-2张量rank-2 tensors的稀疏矩阵乘法,这限制了层当前实现时的批处理能力(尤其是对于有多个图的数据集)。妥善解决这一制约因素是今后工作的重要方向。根据图结构在适当位置的规律性,GPU可能无法在这些稀疏场景中提供与CPU相比的主要性能优势。还应该注意的是,我们模型的“感受野”receptive field的大小是受网络深度的上限限制的(类似于GCN和类似的模型)。但是,可以很容易地应用跳过连接skip connections(He等人,2016)等技术来适当扩展深度。最后,跨所有图边的并行化,特别是以分布式的方式,可能会涉及大量冗余计算,因为感兴趣的图中的邻域往往会高度重叠。

3 EVALUATION

4 CONCLUSIONS

我们提出了图注意网络(GATs),这是一种新型的卷积型神经网络,它利用隐藏的自我注意层masked self-attentional layers对图结构数据进行操作。在这些网络中使用的图注意力层计算效率很高(不需要昂贵的矩阵运算,并且可以在图中的所有节点上并行),允许(隐式)在处理不同大小的邻域时向邻域内的不同节点分配不同的重要性,并且不依赖于预先知道整个图结构——从而用以前的基于谱的方法解决了许多理论问题。我们利用注意力的模型已经在四个完善的节点分类基准上成功实现或匹配了最先进的性能,包括转导型transductive和归纳型inductive(尤其是使用完全看不见的图进行测试)。
图注意力网络有几个潜在的改进和扩展可以作为未来的工作来解决,比如克服第2.2款中描述的实际问题,以便能够处理更大的批量。一个特别有趣的研究方向将是利用注意力机制对模型的可解释性进行深入分析。此外,从应用的角度来看,扩展该方法来执行图分类而不是节点分类也是有意义的。最后,扩展模型以合并边缘特征(可能指示节点之间的关系)将允许我们处理更大的各种问题。

你可能感兴趣的:(笔记,神经网络,深度学习,自然语言处理)