交通论文阅读:Graph WaveNet for Deep Spatial-Temporal Graph Modeling

论文背景

悉尼科技大学发表在IJCAI 2019上的一篇论文,标题为Graph WaveNet for Deep Spatial-Temporal Graph Modeling,目前谷歌学术引用量41。

文章指出,现有的工作在固定的图结构上提取空间特征,认为实体间的关系是预先定义好的,这些方法不能有效地去捕捉时间趋势,RNN和CNN的方法不能处理长时间序列。

相关工作部分,文章介绍了用于时空图建模的交通预测方法,如何来同时捕获空间和时间上的依赖是一个重要问题。已有的方法大多基于RNN或CNN来捕获时间关联,但在处理长序列时,RNN存在梯度消失问题,使用标准的1D卷积网络层数会随着感受域的增大而线性增加。

解决的科学问题

文章提出了一种GraphWavenet的网络结构,通过使用一种自适应的矩阵,并学习节点嵌入,能够精确捕获空间关联,同堆叠一维扩散卷积,指数级增加感受域,来捕获长序列的时间特征。

交通论文阅读:Graph WaveNet for Deep Spatial-Temporal Graph Modeling_第1张图片

对于不同时刻输入的图节点有不同的特征,文章希望捕获给定不同时刻图中节点的动态特征。以提高预测的精度。图中的每个节点是一个传感器,预测的是下一时刻节点的速度。

算法框架

使用的是GCN+TCN来捕获时空关联,文章提出了一个自适应邻接矩阵,可以保存空间依赖,不需要任何先验知识,可以自己发现隐藏的空间依赖,自适应邻接矩阵定义如下:

其中,E1∈R^{N\times c}表示源节点的embedding,E2∈R^{N \times c}是目标节点的embedding,E1乘E2得到空间依赖,再使用ReLu消除弱连接,Softmax用来做归一化。文章提出的图卷积:

 其中X∈R^{N\times D}为结点的特征矩阵,Z∈R^{N\times M}表示输出,W∈R^{D\times M}表示参数矩阵,P^{k}表示转移矩阵的幂级数,k表示k阶,对数据做k次变换。前向转移矩阵,后向转移矩阵

时间卷积层

基于扩散因果卷积TCN来捕获时间趋势,TCN的结构如下,使用堆叠的CNN结构来捕获长期依赖,从下至上扩散因子为2^{^{k-1}},使用的是1D的卷积,层数越高,感受域越大。

交通论文阅读:Graph WaveNet for Deep Spatial-Temporal Graph Modeling_第2张图片

文章使用的是基于门控机制的GTCN,输入为数据为X∈R^{N\times D\times S},

 表示点积,g(·)是输出层的激活函数,\sigma是sigmod函数,控制信息输出到下一层的比率,模型框架如下图所示:

交通论文阅读:Graph WaveNet for Deep Spatial-Temporal Graph Modeling_第3张图片

左边为GTCN(gated TCN) +GCN分别捕获时间、空间关联,两者使用残差连接,不同的spatial-temporal layer之间使用skip connection连接(1D卷积,设置了不同的跳跃步数,一层层展开就如TCN结构),右边使用两层MLP+ReLu作为输出层,可以映射输出维度,预测输出的T步是一起输出的而不是递归输出的。

文章使用了MAE,损失为每层真实值与每层输出的绝对差值之和,T代表序列长度,N为节点数,D为扩散的总层数。

实验

在METR-LA和PEMS-BAY两个美国高速公路数据集上进行了实验,这两个数据集包括了由多个传感器(节点)记录的车速或流量等节点特征:

交通论文阅读:Graph WaveNet for Deep Spatial-Temporal Graph Modeling_第4张图片

邻接矩阵的值代表传感器之间距离的高斯归一化表示。在短期(<30min)和中长期(>=30min)速度预测上效果优于基线

交通论文阅读:Graph WaveNet for Deep Spatial-Temporal Graph Modeling_第5张图片

文章还做了消融实验,证明提出的自适应邻接矩阵的有效性

交通论文阅读:Graph WaveNet for Deep Spatial-Temporal Graph Modeling_第6张图片

其次,由于使用的是卷积,训练速度也是非常快的。 

总结

 文章提出了自适应矩阵,可以学习空间依赖的隐藏特征,而GTCN则用来代替传统的RNN结构捕获时间关联,其核心为扩散因果卷积加门控机制,堆叠以增加感受域。

文章在讨论中提到,在给定图结构信息的情况下,加入自适应邻接矩阵可以为模型引入新的有用信息,能够捕获结点影响的强弱特征,其中某些节点对图中的大多数节点具有影响,而其他节点的影响较弱。这类似于注意力机制,能够对哪些有显著影响的节点的隐含特征赋予较高的分数。

论文源码:https://github.com/nnzhan/Graph-WaveNet

.

你可能感兴趣的:(【交通预测论文翻译】,深度学习)