2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs

2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs

  • 摘要
  • 1 INTRODUCTION
  • 2 NOTATIONS
  • 3 RELATED WORK
    • 3.1 Neural attention mechanism
    • 3.2 Graph convolutional networks on large graph
    • 3.3 Graph convolution networks for spatiotemporal forecasting
    • 4 GATED ATTENTION NETWORKS
    • 4.1 MULTI-HEAD ATTENTION AGGREGATOR
    • 4.2 GATED ATTENTION AGGREGATOR
    • 4.3 OTHER GRAPH AGGREGATORS
  • 5 INDUCTIVE NODE CLASSIFICATION
    • 5.1 MODEL
    • 5.2 EXPERIMENTAL SETUP
    • 5.3 MODEL ARCHITECTURES AND IMPLEMENTATION DETAIL
    • 5.4 MAIN RESULTS
    • 5.5 ABLATION ANALYSIS
  • 6 TRAFFIC SPEED FORECASTING
    • 6.1 GRAPH GRU
    • 6.2 EXPERIMENTAL SETUP
    • 6.3 MAIN RESULTS
  • 7 CONCLUSION AND FUTURE WORK

2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第1张图片

论文:https://arxiv.org/abs/1803.07294?context=cs.SI
代码:https://github.com/jennyzhang0215/GaAN.

摘要

我们提出了一种新的网络结构,门注意网络(GaAN),用于图的学习。GaAN不同于传统的多头注意机制(它均衡的消耗所有的注意头),它使用一个卷积子网络来控制每个注意头的重要性。我们证明了GaAN在电感节点分类问题上的有效性。此外,以GaAN为构建块,构造了图形门控重电流单元(GGRU)来解决交通速度预测问题。对三个实际数据集的大量实验表明,我们的GaAN框架在这两个任务上都取得了最新的结果。

1 INTRODUCTION

许多关键的机器学习任务涉及到图形结构的数据集,例如对社会网络中的帖子进行分类(Hamilton等人,2017a)、预测蛋白质之间的界面(Fout等人,2017)和预测道路网络中的真实交通速度(Li等人,2018)。解决这些问题的主要困难在于如何找到正确的方式来表达和利用图的底层结构信息。传统上,这是通过计算各种图统计数据(如度和中心度)、使用图核或提取人类工程特征来实现的(Hamilton等人,2017b)。

然而,最近的研究已经转向通过图形卷积来解决这些问题(Duvenaud et al.,2015;Atwood and Towsley,2016;Kipf and Welling,2017;Fout et al.,2017;Hamilton et al.,2017a;Velickovi et al.,2018;Li et al.,2018),它概括了规则网格拓扑上卷积的标准定义(Gehring等人,2017;Krizhevsky等人,2012)到图结构上的“卷积”。“图卷积”的基本思想是在一组相邻节点上开发一个局部参数共享算子,以聚集一组较低层次的局部特征。我们将这种算子称为图聚合器(Hamilton等人,2017a),将局部节点集称为聚合器的接收场。然后,通过叠加多个图聚合器,我们构建了一个深度神经网络(Le Cun等人,2015)模型,该模型可以端到端地进行训练,以提取整个图的局部和全局特征。注意,我们使用图卷积的空间定义而不是谱定义(Hammond等人,2011;Bruna等人,2014),因为在普定义中全谱处理需要拉普拉斯矩阵的特征分解,这在大型图上是计算困难的,而本地化版本(Defferard等人,2016;KipfWelling,2017)可以解释为图聚集(Hamilton等人,2017a)。

图聚合器是图卷积神经网络的基本组成部分。一个模型是否能够覆盖图的结构信息在很大程度上取决于它的聚合器的设计。大多数现有的图形聚合器都是基于邻域上的集合(Kipf和Welling,2017;Hamilton等人,2017a)或计算邻域特征的加权和(Monti等人,2017)。本质上,置换不变且可以动态调整大小的函数是合格的图聚合器。其中一类功能是神经注意网络(Bahdanau等人,2015),它使用子网络来计算集合中元素的相关权重。在注意模型家族中,多头注意模型被证明对机器翻译任务有效(Lin等人,2017;Vaswani等人,2017)。后来,它被用作图聚合器来解决节点分类问题(Velickovi c等人,2018)。一个注意头将与查询向量相似的元素求和到一个表示子空间中。使用多个注意头可以在不同的表示子空间中探索特征,这在本质上可以提供更多的建模能力。然而,平等地对待每一个注意力集中者,就失去了从某些注意力集中者那里获益的机会,而这些注意力集中者本来就比其他注意力集中者更重要

为此,我们提出了门控注意网络(GaAN)来学习图。GaAN使用一个小的卷积子网来计算每个注意头的一个软门来控制它的重要性。与传统的允许所有参与内容的多头注意不同,门控注意可以通过引入的门来调节参与内容的数量。此外,由于在门的构造中只引入了一个简单的、轻量级的子网,因此计算开销可以忽略不计,而且模型易于训练。我们将新的聚合器应用于归纳节点分类问题,证明了它的有效性。我们还改进了(Hamilton等人,2017a)中引入的采样策略,以降低内存成本并提高运行时效率,以便在相对较大的图上训练我们的模型和其他图聚合器。此外,由于我们提出的聚合器是非常通用的,我们将其扩展为构造一个图门控递归单元(GGRU),它直接适用于时空预测问题。在两个节点分类数据集PPI和Red dit(Hamilton等人,2017a)和一个交通速度预测数据集METR-LA(Li等人,2018)上进行的大量实验表明,GaAN始终优于基线模型,并达到了最先进的性能。
综上所述,我们的主要贡献包括:(a)一个新的多头注意聚集器,在注意头上有额外的门;(b)一个将图聚集器转换为图递归神经网络的统一框架;(c)三个真实数据集上的最新预测性能。

2 NOTATIONS

我们将一个非线性激活函数为 α ( ⋅ ) \alpha(\cdot) α()的单全连接层表示为 F C θ α = α ( W x + b ) FC_{\theta}^{\alpha}=\alpha(Wx+b) FCθα=α(Wx+b),其中 θ = { W , b } \theta=\{W,b\} θ={W,b}为参数。 θ \theta θ的下标不同表示不同的变换参数;

  • h ( ⋅ ) h(\cdot) h()表示LeakyReLU 激活,将负的斜率映射为0.1
  • σ ( ⋅ ) \sigma(\cdot) σ()表示sigmoid激活函数。
  • ⊕ \oplus 表示链接算子
  • ∣ ∣ k = 1 K x k ||_{k=1}^Kx_k k=1Kxk表示将序列 x 1 x_1 x1 x K x_K xK拼接。
  • ∘ \circ 表示Hadamard积
  • ⟨ ⋅ , ⋅ ⟩ \langle\cdot, \cdot\rangle ,表示向量内积

3 RELATED WORK

在这一部分中,我们将回顾关于图形学习的相关研究。我们的模型也与之前提出的许多图聚合器相关。我们将在第4.3节讨论这些聚合器。

3.1 Neural attention mechanism

神经注意机制在深度学习文献中被广泛采用,并提出了许多变体(Chorowski et al.,2014;Xu et al.,2015b;Seo et al.,2017;Vaswani et al.,2017)。其中,我们的模型受到了在(Vaswani等人,2017年)中提出的多头部注意架构的启发。给定一个查询向量 q q q和一组键值对 { ( k 1 , v 1 ) , . . . , ( k n , v n ) } \{(\mathrm{k}_1,\mathrm{v}_1), ..., (\mathrm{k}_n, \mathrm{v}_n)\} {(k1,v1),...,(kn,vn)},单个注意头计算值向量 ∑ i = 1 n ω i v i \sum_{i=1}^{n}\omega _i\mathrm{v}_i i=1nωivi的加权组合。通过对查询和键之间的内积应用softmax生成权重,例如, w = s o f t m a x ( { q T k 1 , . . . , q T k n } ) \mathrm{w}=softmax(\{\mathrm{q}^T\mathrm{k}_1, ... , \mathrm{q}^T\mathrm{k}_n\}) w=softmax({qTk1,...,qTkn}). 在多头的情况下,K个不同头的输出被串联起来形成一个具有固定维数的输出向量。GaAN模型与多头部注意机制的区别在于,我们计算额外的门来控制每个头部输出的重要性

3.2 Graph convolutional networks on large graph

在大型图上应用图卷积是一项挑战,因为内存复杂度与节点总数成正比,在大型图中,节点总数可能是数十万个(Hamilton等人,2017a)。为了减少内存使用和计算成本,(Hamilton等人,2017a)提出了使用采样算法来选择节点和边的小子集的GraphSAGE框架。在每次迭代中,GraphSAGE首先统一地对一小批节点进行采样。然后,对于每个节点,只选择固定数量的邻居进行聚合。最近,Chen等人(Chen等人,2018)提出了一种新的采样方法,该方法根据提议的分布随机采样两组节点。然而,该方法仅适用于一个聚合器,即图卷积网络(GCN)(Kipf和Welling,2017)。

3.3 Graph convolution networks for spatiotemporal forecasting

近年来,研究者将常用于静态图学习的图卷积应用于时空预测。(Seo等人,2016)提出了图卷积递归神经网络(GCRNN),它用ChebNet算子代替了LSTM中的完全连接层(Hochreiter和Schmidhuber,1997),并将其应用于合成视频预测任务。Li等人。(Li等人,2018)提出了扩散卷积递归神经网络(DCRNN)来解决交通预测问题,其目标是在给定历史交通速度和基础道路图的传感器网络中预测未来的交通速度。DCRNN使用扩散卷积算子(Atwood和Towsley,2016)在GRU中重新放置完全连接的层(Chung等人,2014)。此外,DCRNN还考虑了图边的方向。我们的GGRU与GCRNN和DCRNN的区别在于,我们提出了一种基于任意图聚合器的递归神经网络的统一构造方法,而不是单一的模型。

4 GATED ATTENTION NETWORKS

在这一部分中,我们首先给出了一个图聚合器的一般公式,然后给出了多头注意机制。然后,我们介绍了所提出的门点聚合器。最后,我们回顾了前人提出的其他类型的图聚合器,并说明了它们与我们的关系。

Generic formulation of graph aggregators
给定一个节点 i i i及其相邻节点 N i \mathcal{N}_i Ni,图聚合器是以 y i = γ Θ ( x i , { z N i } ) \mathrm{y}_i=\gamma_\Theta(\mathrm{x}_i,\{\mathrm{z}_{\mathcal{N}_i}\}) yi=γΘ(xi{zNi})形式的函数 γ \gamma γ,其中 x i \mathrm{x}_i xi y i \mathrm{y}_i yi是中心节点 i i i的输入和输出向量。 z N i = { z j ∣ j ∈ N i } \mathrm{z}_{\mathcal{N}_i}=\{\mathrm{z}_j|j\in \mathcal{N}_i\} zNi={zjjNi}是相邻节点中的参考向量集,而 Θ \Theta Θ是聚合器的可学习参数。在本文中,我们不考虑使用边缘特征的聚合器。但是,通过定义 z j \mathrm{z}_j zj来包含边缘特征向量 e i , j \mathrm{e}_{i,j} ei,j,可以很容易地将边缘合并到我们的定义中。

4.1 MULTI-HEAD ATTENTION AGGREGATOR

对中心节点特征 x i \mathrm{x}_i xi进行线性规划,得到查询向量,并对相邻节点特征进行投影,得到关键值和向量值。然后,我们应用多头注意机制(Vaswani等人,2017年)来获得最终聚集函数。多头注意力聚合器的详细公式如下:
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第2张图片
这里, K K K是注意头的数量。 ω i , j ( k ) \omega_{i,j}^{(k)} ωi,j(k)是节点 i i i j j j之间的第 k k k个注意权重,这是通过对点积值应用softmax生成。 θ x a ( k ) \theta_{xa}^{(k)} θxa(k) θ z a ( k ) \theta_{za}^{(k)} θza(k) θ v ( k ) \theta_{v}^{(k)} θv(k)是第 k k k个头的参数,用于计算查询、键和值向量,它们的维数分别为 d a d_a da d a d_a da d v d_v dv K K K个注意输出与输入向量串联,传递到 θ o θ_o θo参数化的输出全连接层,得到最终的输出 y i \mathrm{y}_i yi,其具有维数 d o d_o do。我们的聚合器与GAT(Velickovi et al.,2018)中的不同之处在于,我们采用了关键值保持机制和点积注意,而GAT不计算附加值向量,使用完全连接层计算 ϕ ω ( k ) \phi_{\omega}^{(k)} ϕω(k)

4.2 GATED ATTENTION AGGREGATOR

虽然多头部注意力聚集器能够探索中心节点与其邻域之间的多个表示子空间,但并非所有这些子空间都同等重要;某些子空间甚至可能不存在于某些节点。输入一个捕捉无用表示的注意力的输出会误导模型的最终预测。
因此,我们计算一个介于0(低重要性)和1(高重要性)之间的附加软门,为每个头部分配不同的重要性。结合多头注意聚合器,我们得到了门控注意聚合器的公式:
在这里插入图片描述
其中 g i ( k ) g_i^{(k)} gi(k)是一个标量,在节点 i i i的第 k k k个头部的门值。为了确保添加的门不会引入太多附加参数,我们使用卷积网络 ψ g \psi_g ψg,该网络取中心节点和相邻节点的特征来生成门值。所有其他参数的含义与方程(1)中的相同。
ψ g \psi_g ψg网络有多种可能的设计。在本文中,我们将平均池和最大池结合起来构建网络。具体公式如下:
在这里插入图片描述
这里, θ m θ_m θm在取元素最大值之前将邻域特征映射到 d m d_m dm维向量, θ g θ_g θg将连接的特征映射到最后的 K K K门。通过设置一个较小的 d m d_m dm,用于计算门的子网将具有可忽略的计算开销。GaAN聚合器结构的一般说明如图1所示。此外,我们还比较了图2a和图2b中多头注意聚集器和门控注意聚集器的一般结构。
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第3张图片

4.3 OTHER GRAPH AGGREGATORS

除了基于注意力的聚合器之外,大多数以前的图聚合器可以归纳为两类:图池聚合器(graph pooling aggregators)图对和聚合器(graph pairwise sum aggregators)。在本节中,我们首先描述这两种类型的聚合器,然后解释它们与基于注意力的聚合器的关系。最后,我们给出了一个除了本文中使用的多头注意聚合器之外的基线聚合器的列表。
Graph pooling aggregators
图池聚合器的主要特点是不考虑相邻节点与中心节点之间的相关性。相反,相邻节点的特征被直接聚合,中心节点的特征被简单地连接或添加到聚合向量中,然后通过输出函数 ϕ o \phi_o ϕo
在这里插入图片描述
这里,投影函数 ϕ v \phi_v ϕv和输出函数 ϕ o \phi_o ϕo可以是单个完全连接的层,pool(·)运算符可以是average pooling、max pooling或sum pooling。
现有的大多数图聚合器都是图池聚合器的特例。一些模型仅集成了社区的节点特征(Du  venaud等人,2015年;Kipf和Welling,2017年;Hamilton等人,2017a),而其他模型也集成了边缘特征(Atwood和Towsley,2016年;Fout等人,2017年;Schutt等人,2017年)。在图2c中,我们演示了图形池聚合器的架构。

Graph pairwise sum aggregators
与基于注意力的聚合器一样,图对和聚合器也通过取 K K K个加权和来聚合邻域特征。不同之处在于节点 i i i与其邻居 j j j之间的权重与 N i \mathcal{N}_i Ni中其他邻居无关。图对和聚合器的公式如下:
在这里插入图片描述
这里, ω i , j ( k ) \omega_{i,j}^{(k)} ωi,j(k)只与 x i \mathrm{x}_i xi z i \mathrm{z}_i zi对相关,而在基于注意的模型中, ω i , j ( k ) \omega_{i,j}^{(k)} ωi,j(k)与所有邻居 z N i \mathrm{z}_{\mathcal{N}_i} zNi的特征相关。图LSTM(Liang et al.,2016)和MoNet(Monti et al.,2017)中的自适应遗忘门策略等模型使用单头或多头的成对求和聚合器。在图2d中,我们说明了图对式和聚合器的结构。

Baseline aggregators
为了公平地评估GaAN相对于以往工作的有效性,我们选择了每一类中的两个代表性聚合器作为baselines:
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第4张图片

5 INDUCTIVE NODE CLASSIFICATION

5.1 MODEL

在归纳节点分类设置中,为每个节点分配一个或多个标签。 在训练过程中,验证和测试节点是不可观察的,目标是预测看不见的测试节点的标签。 我们的方法遵循(Hamilton et al。,2017a)的方法,其中在训练期间的每次迭代中都会采样一小部分节点,并堆叠多层图形聚合器以计算预测值。

使用 M M M层图形聚合器的堆栈,我们将首先对节点 B 0 B_0 B0的微型批次进行采样,然后通过对 B 0 \mathcal{B}_{0} B0的相邻节点进行采样将 B ℓ \mathcal{B}_{\ell} B递归扩展为 B ℓ + 1 \mathcal{B}_{\ell+1} B+1。 经过 M M M个采样步骤,我们可以获得节点批处理的层次结构: B 1 , . . . , B M \mathcal{B}_1,...,\mathcal{B}_M B1...BM。 初始化为节点特征的节点表示形式将从 B M \mathcal{B}_M BM B 0 \mathcal{B}_0 B0以相反的顺序聚合。 投影最后一层的表示,即 B 0 \mathcal{B}_0 B0中节点的最终表示,以获得输出。 我们将Sigmoid型激活用于多标签分类,将softmax激活用于多分类。 另外,我们使用交叉熵损失来训练模型。

一个朴素的采样算法总是对所有的邻居进行采样。然而,在大型图上并不实用,因为内存复杂度是 O ( ∣ V ∣ ) O(| \mathcal{V} |) O(V),时间复杂度是 O ( ∣ E ∣ ) O(| \mathcal{E} |) O(E),其中 ∣ V ∣ | \mathcal{V} | V ∣ E ∣ | \mathcal{E} | E是节点和边的总数。相反,与GraphSAGE类似,我们只对每个节点的邻居子集进行采样。在我们的实现中,在第采样步骤,我们采样min ( ∣ N i ∣ , S ℓ ) (|\mathcal{ N}_i |,S_{\ell}) (NiS)个邻居,而不替换节点 i i i,其中 S ℓ S_{\ell} S是一个超参数,用于控制第`步骤中采样邻居的最大数量。此外,为了改进over-graphage并进一步降低内存开销,我们在每个小批量中合并从不同种子邻域采样的重复节点。如表1所示,这大大减小了B的大小。

注意,对于所有节点 i i i,min ( ∣ N i ∣ , S ℓ ) (| \mathcal{N}_i |,S_{\ell}) (NiS)都不相同。我们实现了新的GPU内核,它直接对长度可变的输入进行操作,以加速计算,而不是将采样的邻域集填充到相同的大小。

5.2 EXPERIMENTAL SETUP

我们对GaAN与最新模型、我们框架中的五个基于聚合器的模型以及基于PPI和Reddit数据集的两层全连接神经网络进行了彻底的比较(Hamilton等人,2017a)。五个基准聚合器包括第4.3节中提到的多头注意力聚合器、两个基于池的聚合器和两个基于对和的聚合器。我们还对这两个数据集进行了全面的消融分析。

PPI数据集来自分子特征数据库(Subramanian等人,2005)。每个节点代表一个蛋白质,而边缘代表蛋白质之间的相互作用。标签代表了基因本体中每个蛋白质的细胞功能。这个数据集包含24个子图,其中20个在训练集中,2个在验证集中,2个在测试集中。Reddit是一个在线讨论论坛,用户可以在这里发布和讨论不同主题的内容。每个节点代表一个post,如果两个节点被同一个用户注释,则它们是连接的。标签指明了帖子所属的社区。数据集的详细统计数据见表2。

2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第5张图片

5.3 MODEL ARCHITECTURES AND IMPLEMENTATION DETAIL

GaAN和其他五个基于聚合器的网络都有两个图聚合器。每个聚合器之后是负斜率为0.1的LeakyReLU激活和dropout率设置为0.1的dropout层。所有层的输出维数do均为128,除非我们比较了不同输出维数下的相对性能。为了使不同头数的多头模型的参数个数具有可比性,在评价头数变化的效果时,我们首先给出了值向量维数和头数的乘积,即 d v × K d_v×K dv×K。此外,如果没有特别的解释,假设第一层和第二层的超参数是相同的。

在PPI实验中,两个池聚合器的 d v = 512 d_v=512 dv=512,其中 d v d_v dv表示 θ v θ_v θv投影的值向量的维数。对于成对和聚合器,键 d a d_a da的维数设置为24、 d v d_v dv=64和 K K K=8。对于GaAN和多头注意聚合器, d a d_a da设置为24,产品 d v × K d_v×K dv×K固定为256。对于GaAN,我们在栅极生成网络中将 d m d_m dm设置为64。另外,我们在小批量训练算法中使用了整个邻域。

在Reddit实验中,两个池聚合器的 d v = 1024 d_v=1024 dv=1024。对于成对求和聚合器, d a d_a da=32, d v d_v dv=256, K K K=8。对于基于注意力的聚合器, d a d_a da设为32, d v × K d_v×K dv×K设为512。我们将GaAN中的栅极生成网络设为 d m = 64 d_m=64 dm=64。另外,对于两个基于注意力的模型,头的数量在第一层都固定为1。第一和第二采样步骤中的最大采样邻域数表示为 S 1 S_1 S1 S 2 S_2 S2,在主实验中分别设置为25和10。在烧蚀分析中,我们还观察了将它们设置为 ( 50 , 20 ) , ( 100 , 40 ) 和 ( 200 , 800 ) (50,20),(100,40)和(200,800) (5020)(10040)(200800)时的性能。

为了说明合并图结构的有效性,我们还评估了隐藏维数为1024和ReLU激活的两层全连接神经网络。
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第6张图片

我们使用Adam(Kingma和Ba,2015)训练所有基于聚合器的模型,并在验证集上提前停止。此外,我们使用验证集来执行学习速率衰减调度程序。对于Reddit,在训练之前,我们会规范化所有特性,并将所有特性投影到256的隐藏维度。初始学习率为0.001,每次验证F1分数在4个阶段的窗口内不下降,10个阶段出现提前停止时,衰减率为0.5,逐渐降低到0.0001。渐变规格化值剪辑不大于1.0。对于PPI数据集,在传递给聚合器之前,所有输入特性都被投影到64维隐藏状态。学习率从0.01开始下降到0.001,如果验证F1分数在15个阶段没有增加,并且在30个阶段停止训练,则衰减率为0.5。

训练批大小固定为512。此外,在所有的实验中,我们都使用验证集来选择最佳的超参数进行训练。培训、验证和测试拆分与中的相同(Hamilton等人,2017a)。微观平均F1分数用于评估两个数据集的预测精度。我们对Reddit重复训练5次,对PPI重复训练3次,用不同的随机种子,报告F1平均测试分数和标准差。
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第7张图片

5.4 MAIN RESULTS

我们将我们的模型与先前的归纳节点分类方法进行了比较。这包括GraphSAGE(Hamilton等人,2017a)、GAT(Velickovi等人,2018)和FastGCN(Chen等人,2018)。GraphSAGE模型使用了一个2层的样本和聚集模型,其邻域大小为 S ( 1 ) = 25 , S ( 2 ) = 10 S^{(1)}=25,S^{(2)}=10 S(1)=25S(2)=10,没有遗漏。三层GAT模型在第一层、第二层和第三层分别由4个、4个和6个头部组成。每个注意头有256个维度。GAT没有使用邻域抽样、L2正则化或辍学。fast GCN模型是三层128维GCN的快速版本,每层采样邻域大小分别为400、100和400,测试过程中不进行采样。表3总结了最新模型的所有结果以及本文提出的模型。在表和图中,我们将多头注意力聚合器表示为“仅注意”。我们发现,所提出的GaAN模型在两个基准分数上都达到了F1的最佳分数,而其他的基准聚合器也可以向最新水平展示竞争结果。我们注意到基于聚合器的模型比完全连接的模型获得更高的F1分数,这证明了图聚合器的有效性。我们的最大池和平均池基线在Reddit上的得分高于原始图表纸上的得分。这主要有助于我们使用dropout和LeakyReLU激活函数.

5.5 ABLATION ANALYSIS

我们进行了大量的烧蚀实验,分析了不同超参数下不同图形聚合器的性能。我们还可视化了GaAN模型的门。
Effect of the number of attention heads and the sample size
我们比较了当使用不同数量的注意头和抽样策略时聚合器的性能。结果见表4。我们发现基于注意的模型在参数较少的情况下始终优于基于混合和对和的模型,这证明了注意机制在该任务中的有效性。此外,GaAN在注意头数目K相同的情况下,始终优于多注意头模型,这证明了增加额外的门来控制注意头的重要性对最终的分类性能是有利的。从表4的最后两个行块中,我们注意到增加关注头的数量并不能总是在Reddit上产生更好的结果。相反,在PPI上,K值越大,预测结果越好。此外,我们可以看到更大的sam  pling尺寸的稳定改善,这与中的观察一致(Hamilton等人,2017a)。
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第8张图片

Effect of output dimensions in the PPI dataset
在PPI数据集的训练模型中,我们将输出维度更改为64、96和128。F1测试分数如图3a所示。所有多头模型的K=8。我们发现,对于更大的输出维度,性能变得更好,并且所提出的GaAN始终优于其他模型。
Visualization of gate values
在图3b中,我们可视化了在Reddit数据集上训练的GaAN-K8模型输出的五个不同节点的门值。它说明了不同节点所学习的门组合的多样性。在大多数情况下,门在不同的注意头之间变化,这表明门生成网络可以学习为不同的注意头分配不同的重要性。

6 TRAFFIC SPEED FORECASTING

6.1 GRAPH GRU

追随(Lin等人,2017),我们将交通速度预测描述为一个时空序列预测问题,其中输入和目标是在五个固定时空图上定义的序列,例如道路网络。为了简化符号,我们将 Y = Γ Θ ( X , Z ; G ) Y=\Gamma _\Theta(X,Z;\mathcal{G}) Y=ΓΘ(X,Z;G)表示为对 G \mathcal{G} G中的所有节点应用 γ \gamma γ聚合器,即 y i = γ Θ ( x , z N i ) \mathrm{y}_i=\gamma_\Theta(\mathrm{x},\mathrm{z}_{\mathcal{N_i}}) yi=γΘ(x,zNi)。基于给定的图聚合器r,我们可以构造一个类GRU的RNN结构.
使用以下方程:
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第9张图片
这里, X t ∈ R ∣ ν ∣ × d i \mathrm{X}_t\in\mathbb{R}^{|\nu|\times d_i} XtRν×di是输入特征, H t ∈ R ∣ ν ∣ × d o \mathrm{H}_t \in \mathbb{R}^{\lvert \nu\lvert \times d_o } HtRν×do是节点在 t t t个时间戳处的隐藏状态。 ∣ ν ∣ \lvert \nu \lvert ν是节点总数, d i d_i di是输入的维度, d o d_o do是状态的维度。 U t \mathrm{U}_t Ut R t \mathrm{R}_t Rt是控制 H t \mathrm{H}_t Ht计算方式的更新门和重置门。 G \mathcal{G} G是定义不同节点之间连接结构的图。

我们把这个RNN结构称为图GRU(GGRU)。GGRU可以用作RNN编码器-解码器结构(Lin et al.,2017)的基本构建块,以预测传感器网络 X ^ J + 1 , . . . , X ^ J + K , \hat{X}_{J+1},..., \hat{X}_{J+K}, X^J+1...,X^J+K中的未来 K K K个传输速度步数,基于之前观测到的传输速度 X 1 , X 2 , … , X J \mathrm{X}_1,\mathrm{X}_2,…,\mathrm{X}_J X1X2XJ J J J个步骤。在解码器中,我们使用中描述的定时采样技术(Lin等人,2017)。图4说明了本文中的编码器-解码器结构。当使用基于注意的聚合器,即多头注意聚合器或我们的GaAN聚合器时,还将基于注意过程学习递归步骤中的连接结构。这可以看作是轨迹GRU(TrajGRU)(Shi等人,2017)在不规则图形结构数据上的扩展。
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第10张图片

6.2 EXPERIMENTAL SETUP

为了评估拟议的GGRU交通速度预测模型,我们使用了来自(Li等人,2018)的METR-LA数据集。数据集包含洛杉矶县高速公路的交通信息。数据集中的节点表示测量交通速度的传感器,而边缘表示由道路网络距离测量的传感器对之间的接近度。传感器速度每五分钟记录一次。完整的数据集统计数据见表6。
我们遵循(Li等人,2018)的方法来分割数据集。前70%的序列用于训练,中间10%用于验证,最后20%用于测试。我们还使用与(Li等人,2018)中相同的评估指标进行评估,包括平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)。长度为12的序列用作输入,以预测未来一小时(12步)内的交通速度。

6.3 MAIN RESULTS

我们将提出的GGRU架构的六种变体与三种基线模型进行了比较,包括完全连接的LSTM、GCRNN和DCRNN(Li等人,2018)。我们使用与归纳节点分类实验中相同的6个聚合器来构造GGRU,并且在编码器和解码器中都使用状态维为64的两层GGRU。对于基于注意力的模型,我们设置 K K K=4、 d a = 16 d_a=16 da=16 d v = 16 d_v=16 dv=16。对于GaAN,我们设置 d m = 64 d_m=64 dm=64,并且只在门生成网络中使用max pooling。对于基于池的聚合器,我们将 d v d_v dv设置为128。对于成对和聚合器,我们设置 K K K=4、 d a d_a da=32和 d v d_v dv=16。
由于路线图是有向的,而我们的模型不处理边缘信息,因此我们首先将路线图转换成无向图,并将其用作Eqn中的 G \mathcal{G} G。(6) 是的。所有的模型都是用Adam优化器通过最小化MAE损失来训练的。初始学习率设置为0.001,批大小为64。我们使用与中相同的计划抽样策略(Li等人,2018)。

表1显示了两个数据集上15分钟、30分钟和1小时前预测的不同方法的比较。表5显示了提前15分钟、30分钟和1小时预测的分数以及三个预测时段的平均分数。对于平均得分,我们可以看到,所提出的GGRU模型始终比GCRNN(它也将交通网络建模为无向图)给出更好的结果。此外,基于GaAN的GGRU模型不使用边缘信息,比在道路网络中使用边缘信息的DCRNN具有更高的精度。
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第11张图片
2018-GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs_第12张图片

7 CONCLUSION AND FUTURE WORK

我们介绍了GaAN模型,并将其应用于两个具有挑战性的任务:归纳节点分类和交通速度预测。在这两种情况下,GaAN都优于先前的最先进算法。在未来,我们计划通过集成边缘特征和处理具有数百万甚至数十亿节点的海量图来扩展GaAN。此外,我们的模型不局限于图学习。未来工作的一个特别令人兴奋的方向是将GaAN应用于自然语言处理任务,如机器翻译。

你可能感兴趣的:(图注意力网络,图卷积神经网络GCN)