近日,Bengio 团队提出了基于近邻节点注意机制的网络架构 GAT,可用于处理复杂、不规则结构的计算图,并在三种困难的基准测试中得到了业内最佳水平,研究人员称该模型有望在未来处理任意不规则结构图。该论文现已提交至 ICLR 2018 大会。
卷积神经网络已成功应用于解决图像分类、语义分割、机器翻译等问题,其中背后的数据表证有着网格状的结构。这些结构通过把学习到的参数应用到所有的输入位置,能高效的重复使用局部过滤器。
然而,许多有趣任务的数据并不能表示为网格状的结构,而是分布在不规则的区域。这就像是 3D 网格、社交网络、通信网络、生物网络或者大脑连接组一样。这样的数据通常用图(graph)的形式表示。
目前的文献中,已经有很多尝试来拓展神经网络以解决图随意的架构。早期的研究使用递归神经网络在图域中把数据直接表达为有向非循环图。图神经网络网络(GNN)首次出现于 Gori 等人(2005)与 Scarselli 等人(2009)的论文,把它作为递归神经网络的泛化形式,能够直接处理更普遍的图类,比如循环图、有向和无向的图。GNN 包括一个迭代过程,来传播节点状态直到平衡;然后是一个神经网络,基于其状态为每个节点生成一个输出;之后,这种思路被 Li 等人(2016)采用并改进,提出在传播步骤中使用门控循环单元(Cho et al.,2014)。
因此,把卷积泛化到图域中一直是个引发研究者兴趣的课题。在这个方面的进步通常可被归类为光谱方法与非光谱方法。
在这篇论文中,作者们提出了一种基于注意机制的架构,能够完成图结构数据的节点分类。该方法的思路是通过注意其邻位节点,计算图中每个节点的隐藏表征,还带有自注意策略。这种注意架构有多重性质:
(1)运算高效,因为临近节点对可并行;
(2)可以通过对近邻节点指定任意的权重应用于不同 degree 的图节点;
(3)该模型可以直接应用于归纳学习问题中,其中包括了需要将模型泛化到此前未见的图的任务。
作者们提出的通过节点连接共享神经网络计算的方法和关系网络(Santoro et al., 2017)的形式类似,其中对象之间的关系(用卷积神经网络提取图像中的区域特征)通过应用一种共享机制将所有的对象两两配对然后聚合而成。他们在三种有挑战性的基准测试上验证了提出的方法:Cora 和 Citeseer 引用神经网络数据集和一个蛋白质与蛋白质相互作用的数据集,新方法在这些测试中均获得了当前最佳的结果,展现了基于注意的模型处理任意结构图的潜力。
论文:Graph Attention Networks
论文链接:https://arxiv.org/abs/1710.10903
我们提出了图注意网络(graph attention networks,GATs),这是一种新型的神经网络架构,用于处理图结构化的数据(graph-structured data),利用隐藏的自注意层克服了过去的基于图卷积或其近似的方法的缺点。这些层的节点可以注意近邻节点的特征,通过将这些层堆叠起来,我们可以为不同节点的近邻指定不同的权重,而不需要耗费任何繁重的矩阵计算(比如矩阵求逆),也不需要预先知道图的结构。通过这种方法,我们同时解决了多个基于频谱的图神经网络的关键挑战,并准备将模型应用于归纳问题以及直推问题。我们的 GAT 模型在三种公认的直推和归纳图基准测试中取得了当前最佳的结果:Cora 和 Citeseer 引用神经网络数据集和一个蛋白质与蛋白质相互作用的数据集(其中的测试图在训练过程中完全不可见)。
GAT 的架构
图 1. 左方:GAT 模型中应用的注意机制 a(W~hi ,W~hj ),通过一个权重向量参数化~a ∈ R^2F'。右方:节点 1 对其近邻节点的多头注意(其中 K=3 heads)。不同的箭头格式和颜色表示独立的注意计算。来自每个头的聚合特征连接或平均后得到 ~h1'。
表 1:实验中使用的数据集。
表 2:对 Cora 和 Citeseer 数据集的实验结果(分类准确度)的总结。
表 3:对 PPI 数据集的实验结果(微平均的 F1 分数)的总结。
图 2. 在 Cora 数据集上对一个预训练的 GAT 模型的第一个隐藏层的计算特征表示的 t-SNE 图。节点颜色表示类别。边的粗细表示节点 i 和 j 之间的聚合归一化注意系数,由所有 8 个注意头计算得出: