本文目标是预测交通流,该问题最大的挑战是交通流数据的高度非线性和复杂的关系模式。现存的预测方法缺乏对交通流动态时空关系的建模,于是本文提出一种带注意力机制的图卷积神经网络 attention based spatial-temporal graph convolutional network (ASTGCN) model 具体思路:
模型由3个独立的组件,每个组件分别对交通流3种时间特性 (temporal properties)建模
将时间特性分为三类分别建模再融合这一思路,可参考以下两篇文章:
【1】Zhang, J. , Zheng, Y. , Qi, D. , Li, R. , & Yi, X. . (2016). DNN-based prediction model for spatio-temporal data. Acm Sigspatial International Conference on Advances in Geographic Information Systems. ACM.
【2】Zhang, J. , Zheng, Y. , & Qi, D. . (2016). Deep spatio-temporal residual networks for citywide crowd flows prediction.
每个组件包含2个主要部分
现有研究
模型 | 局限 |
---|---|
时间序列分析模型 | 难以处理不稳定、非线性数据 |
传统机器学习模型 | 用于处理复杂数据,但是(1)难以同步考虑高维交通数据的时空相关性;(2)依赖于特征工程,需要较多专家经验 |
深度学习模型 | 如(1)CNN处理网格数据的空间特征;(2) GCN描述图数据的空间相关性。但以上方法均不能同时处理时空特性和动态相关性 |
具体文献综述部分主要从以下三方面分析
变量 | 含义 |
---|---|
f ∈ ( 1 , . . . , F ) f\in (1,...,F) f∈(1,...,F) | 在交通图 G G G 中的每个节点都有 f f f个时间序列数据 |
x t c , i ∈ R {x_t^{c,i}}\in \mathbb{R} xtc,i∈R | 节点 i i i 在 t t t 时刻的第 c c c 个属性的值, c = f l o w / o c c u p y / s p e e d c=flow/occupy/speed c=flow/occupy/speed |
x t i ∈ R {{\mathrm{x}}_t^{i}}\in \mathbb{R} xti∈R | 节点 i i i 在 t t t 时刻的所有属性值 |
X t = ( x t 1 , x t 2 , . . . , x t N ) T ∈ R N × F {{\textrm{X}}_t = \left ( {\mathrm{x}}_t^{1},{\mathrm{x}}_t^{2},...,{\mathrm{x}}_t^{N}\right )^T}\in \mathbb{R}^{N\times F} Xt=(xt1,xt2,...,xtN)T∈RN×F | 所有节点在 t t t 时刻的所有属性值 |
χ = ( X 1 , X 2 , . . . , X τ ) ∈ R N × F × τ \chi =({\textrm{X}}_1,{\textrm{X}}_2,...,{\textrm{X}}_\tau )\in \mathbb{R}^{N\times F\times \tau} χ=(X1,X2,...,Xτ)∈RN×F×τ | τ \tau τ 个时间片段的所有节点所有属性值 |
y t i = x t f , j ∈ R {{y_t^i}={x_t^{f,j}}} {\in} {\mathbb{R} } yti=xtf,j∈R | 节点 i i i 在未来 t t t 时刻的 f l o w flow flow 值 |
问题描述
给定 χ \chi χ ,预测未来 T p T_p Tp 时间片段的交通流量序列 Y = ( y 1 , y 2 , . . . , y N ) T ∈ R N × T p {Y={(y^1, y^2,...,y^N)^T} }\in \mathbb{R}^{N\times T_p} Y=(y1,y2,...,yN)T∈RN×Tp ,
其中 y i = ( y τ + 1 i , y τ + 2 i , . . . , y τ + T p i ) ∈ R T p {y^i}={(y_{\tau +1}^i,y_{\tau +2}^i,...,y_{\tau +T_p}^i)} \in \mathbb{R}^{T_p} yi=(yτ+1i,yτ+2i,...,yτ+Tpi)∈RTp
通过注意力机制捕获以上两种关系,此处以 r e c e n t recent recent 模块为例:
经过注意力机制调整后的输入,被喂入时空卷积模块(spatial-temporal convolution module),该模块由时空维度的图卷积组成,以捕获来自近邻节点的空间依赖性。同时沿着时间维度卷积,也能够捕获来自近邻时间的时间依赖性。
谱图理论将卷积从网格结构数据推广到了图结构数据,本文研究的交通网络实际是图结构数据,为充分利用交通网络拓扑特征,在每个时间片段上,作者采用基于谱图理论的图卷积处理,以挖掘空间维度的相关性。
此处公式推导不展开,基于谱图的(或称频谱域)的图神经网络详细教程,请参考 【GCN】万字长文带你入门 GCN
几个要点:
在捕获图像的空间维度信息后,再叠加一个普通的卷积层(在时间维度),通过融合近邻时间片段的信息,以更新目标节点的信息,更新公式如下:
总结
最后这步,就是看看怎么将三个部分(recent / daily-periodic / weekly-periodic segment)的输出融合,融合原则就是从历史数据中学习,因为不同地区 不同时刻的三个部分影响权重不同,公式如下:
最后的结果肯定是该模型更好,具体对比结果如下,(注:MSTGCN模型指的是,没有注意力机制的ASTGCN)
最后最后小总结: