文章信息
本周阅读的论文是题目为《Traffic Graph Convolutional Recurrent Neural Network: A Deep Learning Framework for Network-Scale Traffic Learning and Forecasting》的一篇2020年发表在IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS的基于TGC-LSTM的城市网络级交通流预测文章。
摘要
由于道路网络时变的交通模式和复杂的空间依赖性,交通流预测是一个具有挑战性的时空预测问题。为了克服该挑战,作者将交通网络看为一张图,并提出一个新的深度学习预测模型,交通图卷积长短时记忆网络(TGC-LSTM)学习交通网络中道路之间的相互作用,并预测网络级的交通状态。作者基于物理网络拓扑定义了交通图卷积,并讨论了与谱图卷积的关系。图卷积权值的L1范数和图卷积特征的L2范数被加到模型的损失函数中增强模型的可解释性。实验结果表明提出的模型在两个真实世界数据集的表现要优于其他先进模型。图卷积权重的可视化表明提出的框架可以识别交通网络中影响力较大的路段。
介绍
交通流预测是智能交通系统(ITS)中最具挑战性的任务之一。由于近年来交通数据的数量和种类不断增加,数据驱动的交通预测方法已经显示出相当大的前景,其能力优于传统的和基于模拟的方法。现有的预测方法大致分为两类,一类是经典的统计模型,这类模型在处理高维时间序列数据方面具有一定的缺陷;第二类则是机器学习模型,如支持向量机(SVR)等,这类模型在捕捉客流空间特性上具有一定缺陷。近年来,随着深度学习的飞速发展,基于深度学习的交通预测模型逐渐引起学者们的关注。例如,循环神经网络(RNN)以及其变体LSTM和GRU以及卷积神经网络(CNN)等,均展现出解决交通流预测问题的良好潜力。考虑到交通网络本质上具有显著的物理拓扑特征,部分学者采用图卷积神经网络捕捉复杂的空间特性。然而,这类图卷积模型的缺陷之一是卷积算子的感受野不受交通网络图的限制。事实上,交通网络中相距较远的两个节点的交通状态在短时间内不应相互影响,且邻接的节点是否相互影响也需要进一步研究。因此,作者提出一个基于实际交通中自由流速度的自由流可达性矩阵,并将其应用于图卷积算子中学习交通网络中真正有影响力的邻接节点特征。
在该研究中,作者将交通网络作为一个图学习,并对基于交通网络的图进行卷积。为了学习邻接特征并融合道路物理特征,作者提出一种交通图卷积算子。在此基础上,提出一种交通图卷积长短时记忆网络模型(TGC-LSTM)用以建模交通流的动态性和时空依赖性。大量的实验结果表明,TGC-LSTM的预测结果优于其他先进的基线模型。更重要的是,结果表明,该模型能够识别出现实交通网络中最具影响力的路段。本研究的主要贡献如下:
1)提出一个交通图卷积算子以适应交通网络的物理特性,提取综合特征;
2)提出一个交通图卷积LSTM(TGC-LSTM)学习复杂动态的时空依赖性;
3)为了使学到的局部卷积特征更加一致和具有可解释性,提出两个正则项,包括交通图卷积权重的L1范数以及交通图卷积特征的L2范数,并引入到模型的损失函数中;
4)本研究中使用的真实交通速度数据,包括交通网络的图形结构,通过一个公开的网站发布,以方便进一步研究这个问题。
技术
1) 问题定义
交通图网络:通常来说,图包含一个节点和边。表示交通流网络的图与社交网络图、文档引用图等不同:基于交通网络的图不存在孤立的节点/边,且交通网络结构很少发生变化;交通网络中每条路的交通状态时刻变化;交通网络中的道路具有丰富的物理特征,例如长度、类型、速度限制等。因此,为了保证图中定义的一致性,作者使用节点表示交通感应位置,可以是传感器或者道路路段;图中的边表示连接这些交通传感位置的十字路口或路段,具体表示为无向图,其中一共有N个节点
,边表示为
。
邻接(Adjacency)矩阵和领域(Neighborhood)矩阵:交通网络图中节点的连通性通过一个0-1邻接矩阵表示。基于邻接矩阵,一个边计数函数
可以被定义为计算由节点i到达节点j的最少边数。接着,每个节点i的k阶邻居,包括节点自身可以被定义为
。然而,由于交通状态为时间序列数据,且当前交通状态会直接影响自身的未来状态,因此作者认为所有的道路都是自影响的。所以作者考虑节点的邻域包含节点本身和邻域矩阵来表征整个图的一跳邻域关系,记为
,其中I为单位矩阵。接着,图中节点的k阶邻阶关系可以定义为
。然而,
中一些元素会不可避免地大于1。由于节点的k-hop邻域仅用于描述所有k-hop邻居的存在,并没有必要按阶数对节点的k-hop邻域加权。因此,作者将
中所有元素裁剪至0~1之间,并定义一个新的k-hop邻域矩阵
,且每个元素满足:
自由流可到达性矩阵:基于交通网络中每条路的长度,定义一个距离矩阵。在考虑道路网络中车辆交通的基本物理特性时,需要了解路段对相邻路段的影响主要通过两种方式传递::向上游传播的减速或阻塞;与下游行驶的特定车辆组相关的驾驶员行为和车辆特征。因此,对于基于交通网络的图,非邻接节点之间的交通影响传输不能绕过中间节点,所以需要考虑相邻和附近节点对之间影响的可到达性。为确保k-hop相邻节点之间的交通影响传输满足交通流理论,作者定义了一个自由流可到达性矩阵
,
其中,是节点间的自由流速度,具体指的是在没有交通挤塞或其他不利情况(例如恶劣天气)的情况下,驾驶者行驶时的平均速度。M表示在自由流速度下行驶一段距离的特定时间间隔,决定了
的时间影响。
等于1,表示车辆可以在自由流状态下,经过m个时间步(长度为)由节点i到节点j,否则为0。事实上,
衡量了在自由流状态下,车辆能否在给定时间内由节点i到达节点j。作者认为每条道路都是自达的,因此
的对角线值都设为1。
交通流预测问题:在本研究中,交通网络转化为由N个节点构成的图,表示N个交通感知位置和一组边的集合。在时间段t,这些节点的信号代表的交通状态可以定义为。为了制定交通预测问题,将上述主要符号总结如下表。
短时交通流预测问题旨在学习一个函数,将过去T个时间步的历史图信号
映射到随后一个或多个时间步的图信号上。该研究尝试预测未来一个时间步的图信号
,可表示为:
该研究的另一个目标是通过学习函数中的权重参数以学习交通网络图中邻接节点与邻域节点之间的交通影响传递。
2) 交通图卷积
卷积操作的核心思想是从二维或三维矩阵结构的输入数据中提取局部特征。输入空间中影响卷积运算结果的局部区域称为感受野。类似地,图卷积层的核心思想是从图结构的输入数据中提取局部特征。然而,传统的图卷积的感受野是受到限制的,只能关注一阶邻接节点。为解决这个问题,作者通过替换一阶邻接矩阵为k阶邻接矩阵以扩展感受野。同时,现有的研究要么忽略了图中边的性质,例如不同感知位置之间的距离(图边的长度)和自由流的可达性,要么没有考虑图中节点的高阶邻域。因此,为解决上述问题,作者考虑了图的边属性和交通网络图的高阶邻域,并提出k阶交通图卷积(TGC)操作如下:
其中,是k阶交通图卷积的可训练权重矩阵,可以用于度量图节点之间的交互影响,从而增强模型的可解释性,
是提取的k阶交通图卷积特征。由于
和
均为只有0和1的稀疏矩阵,因此
的结果也是稀疏的。需要注意的是,k应该是一个正整数,取值越大,TGC的感受野越大,更多的邻接特征可以从图中被提取,随着k的增大,
最终会收敛到
。在实际应用中,并不需求将k取最大值,因为这会造成过大的计算量。
为了丰富特征空间,从交通图卷积中提取到不同阶数(1~K)的特征将被拼接在一起作为一个向量如下:
包含了所有k阶的交通图卷积特征,如图一左侧所示。文章还比较了交通图卷积和谱图卷积的计算量等区别,感兴趣的读者可以阅读原文了解相关介绍。
3)交通图卷积长短时记忆网络(TGC-LSTM)
基于交通图卷积(TGC),作者进一步提出了交通图卷积长短时记忆网络(TGC-LSTM)充分学习复杂的时空依赖性,如图一右侧所示。与LSTM相比,该模型的门控结构和隐藏状态均没有改变,但输入替换成了图卷积特征,遗忘门、输入门、输出门以及输出单元状态计算如下:
由于交通网络图中的每个节点都受到自身和相邻节点前一状态的影响,因此图中每个节点的LSTM 单元状态也应该受到相邻单元状态的影响。为此,作者设计了一个单元状态门并加入到LSTM单元中,计算如下:
通过该门控机制,当单元状态循环输入到后续时间步长时,将考虑相邻单元状态的影响。接着,最终单元状态和隐藏状态计算如下:
在最后的时间步T,隐藏状态是TGC-LSTM的输出,也称为模型的预测值,文章使用均方误差(MSE)作为模型的损失函数用以训练模型。
图1 TGC-LSTM的模型框架
4)交通图卷积正则化
为了将图卷积特征限制在一个合理的尺度内,并使学习到的权重更稳定和可解释,作者提出了两个可选的正则化项,可以添加到损失函数中。
图卷积权重的正则项:由于图卷积权重并不局限于正数,而且每个节点提取的特征受到多个相邻节点的影响,因此在训练过程中,图卷积权重可能变化很大。理想情况下,卷积权值自身应该具有信息量,这样可以通过绘制卷积权重来解释和可视化网络中不同节点之间的关系。然而,如果没有正则化,这是不可能的,因为非常高或低的权重往往会随机出现,结果是高/低权重往往会相互抵消。综合起来,这些权重仍可以表示网络的信息特征,但不能反映图中节点之间的真实关系。因此,作者在损失函数中加入图卷积权重矩阵的L1范数作为正则项,使这些权重矩阵尽可能稀疏。L1范数可以定义如下:
通过这种方式,训练出来的图卷积权重是稀疏且稳定的,从而可以更直观地区分哪个相邻节点或节点组对目标节点的贡献最大。
图卷积特征的正则项:考虑到邻域节点对特定节点的影响必须通过感兴趣节点和影响节点之间的所有节点传递,在图卷积不同阶数中提取的特征不应该变化太大。因此,为限制从图卷积的相邻阶数中提取的特征之间的差异,基于TGC特征正则项的L2范数被加入到损失函数上。该正则项定义如下:
通过这种方式,由图卷积提取的邻接阶数的特征不会有太大差异,因此,图卷积算子应该更符合交通网络中存在的关系的物理现实。至此,在时间t的总的损失函数可以定义如下:
其中,和表示惩罚项,用于控制正则化项对图卷积权值和特征的权重大小。
实验
实验部分,作者建立并开源了两个真实世界网络级的交通流速度数据集用于验证模型的预测精度。实验结果表明,相比于其他现有方法,TGC-LSTM模型在平均绝对误差和均方根误差等常见交通流预测指标上,具有更好的性能和精度。此外,作者还对模型的训练效率、正则项的影响以及模型的可解释性和可视化进行研究。感兴趣的读者可以阅读原文实验部分。
结论
在本文中,作者将交通网络作为一个图来学习,并定义了一个交通图卷积运算(TGC)来捕获交通网络的空间特征。TGC结合了邻接矩阵和自由流可达矩阵从图中提取空间特征。接着,作者提出了一种TGC-LSTM模型来预测整个网络的流量状态,并分别在TGC权值和TGC特征上设计了两个正则化项,这两个正则化项可以添加到模型的损失函数中,以帮助学习到的TGC权值更加稳定和可解释。通过对两个真实世界交通数据集的评估,TGC-LSTM被证明优于其他基线模型。此外,学习到的TGC权重可以帮助识别最具影响力的道路,从而增强所提出模型的可解释性。
Attention
欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!