1. 文章信息
《Train Time Delay Prediction for High-Speed Train Dispatching Based on Spatio-Temporal Graph Convolutional Network》是2022年3月发表在IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTA TION SYSTEMS上的一篇文章。
2. 摘要
列车晚点预测可以提高列车调度的质量,帮助调度员更准确地估计列车的运行状态,做出合理的调度决策。一辆列车的延误受多种因素的影响,如客流、故障、极端天气、调度策略等。一列火车的出发时间一般由调度员决定,这受到他们的策略和知识的限制。现有的列车延误预测方法不能综合考虑多列车和多线路之间的时间和空间相关性。文章不试图预测某一列车的具体延误时间,而是预测某一段时间内列车延误的集体累积效应,用一个车站的总到达延误次数来表示。文章提出了一个深度学习框架——列车时空图卷积网络(TSTGCN),用于预测一个车站列车延误的集体累积效应,用于列车调度和应急预案。该模型主要由近期、每日和每周三部分组成。每个组件包含两个部分:时空注意机制和时空卷积,可以有效地捕捉时空特征。三个分量的加权融合产生最终的预测结果。在中国铁路客票系统列车运行数据上的实验表明,TSTGCN在列车延误预测方面明显优于现有的先进基线。
3. 介绍
与之前研究不同的是,文章并不预测一辆列车的延误,因为如果一辆列车的延误导致其他列车的延误,具体的调度决策是由列车调度部门做出的,这取决于调度员的经验和知识。相反,预测每个车站每个时段的晚点车次,对列车调度更有价值。晚点列车的发车时间由现场调度员决定。例如,在北京南站(北京),有四趟列车(车次为t1、t2、t3、t4)分别开往上海、太原和武汉。表I显示了这四列火车的出发信息。由于极端天气,火车晚点了。车站调度员可根据车站环境(如客流)优先安排t1、t4次列车到上海。
从上面的例子可以看出,预测一趟列车的具体晚点时间意义不大。预测一定时期内列车晚点数量(集体累积效应)更有价值,可以指导调度员的决策。此外,集体累积效应还会考虑像极端天气这样导致列车晚点的外部因素,避免考虑不全面导致的预测不准确。
基于以上分析,文章建立了一个TSTGCN模型来预测各站列车晚点总数。更准确地说,预测到达延误次数,为列车调度和应急计划提供参考。
与现有工作相比,文章的贡献可以总结如下:
(1)首次提出了延误情况下列车调度的集体累积效应预测。
(2)构建了列车延误的集体累积效应预测模型TSTGCN,用于预测某一时段内某一车站的到达延误。该模型充分考虑了时间和空间相关性。
(3)构建了中国高速铁路网的真实图表,不仅包括所有车站,还包括路线的里程信息。中国高速铁路的16周实际运营数据集也是该文章建立的,包含2019年10月8日至2020年1月27日的1,954,176条延误记录,727个车站,以及车站之间的所有路线。
(4)将人工神经网络、支持向量回归机、射频、LSTM基线与TSTGCN进行比较,并使用平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)来评估列车延误预测的性能。
4. 高速列车运行数据分析
A. 列车延误的时空相关性
列车晚点预测是一个典型的时空数据预测问题。相邻站的数据和时间戳彼此动态相关。在分析列车延误时,需要考虑多个列车和线路之间的时间和空间相关性。列车延误数据具有空间相关性、时间相关性和时空相关性的特征。
1)空间依赖性:空间依赖性来源于高速铁路网上车站与其相邻车站之间的关系。一个站经常直接影响它的一阶邻居。为了充分解释这一特性,在图1中从空间角度展示了列车延误的影响。两个站之间的线代表它们相互作用的强度,线越暗,强度越大。可以看到,济南站和徐州站之间有联系,延误的列车可能从济南开往徐州,因此,它们的列车延误次数是相关的。如果车站是一个枢纽站,并且与多个车站相邻,那么延误的次数会对多个车站产生直接的影响,比如图1中的郑州站,多趟不同路线和方向的列车停靠在这里,当这里的一趟列车延误时,可能会造成多个方向和路线的列车延误。除了车站的空间特征,相邻距离也影响晚点列车的数量。例如,郑州站和徐州站之间的距离比许昌站之间的距离更远,当郑州到徐州和许昌的列车晚点时,到徐州的列车可以有更多的时间从晚点调整到正常运行,因此徐州站比许昌站受晚点的影响更小。
对于高速铁路网上的两个节点,如果它们之间有一条边,则认为这两个节点可以相互影响。如果边的距离长,则认为相互影响的程度小。在时空网络中,认为两个节点之间存在空间依赖性。
2)时间相关性:列车的运行是多方向的,分为上行和下行。一列列车不同的运行方向会对其他不同方向的列车产生不同的影响。预测某一方向某一列车的晚点是非常困难的,涉及到调度。无论火车开往哪个方向,在哪个线路上运行,乘客共用的车站总是一样的。当发生延误时,调度员需要根据车站的情况来确定列车的顺序,同一车站的列车不容易分开讨论。因此,文章的研究重点是单站到达延误。对于高速铁路网上的每个车站,延误显然与过去一个或多个时期的历史延误有关。例如,假设有四列火车t1、t2、t3、t4将到达A站,t1在A站延迟12:00,这可能会导致将在接下来的2小时内到达的t2、t3和t4的延迟。由于调度员的努力,t3到达A并准时离开,所以t4可能不会被延误。除了在时间维度上的接近性(一个站的延迟与过去几个小时的延迟有关),延迟还反映出一定的周期性,即一个站某一时段的延迟与过去几天、几周的延迟具有相同的趋势。这种邻近性和周期性的属性就是时空网络数据中的时间相关性。
3)时空相关性:在空间维度上,站点之间的相互作用程度不同,即使是同一个站点,随着时间的推移,对其邻居的影响也发生变化;在时间维度上,一个站点的历史数据对该站点及其邻居在未来不同时间的延迟状态有不同的影响。因此,列车运行数据在空间和时间维度上都表现出很强的动态相关性。这说明,为了准确预测时延,需要探索复杂的非线性时空网络数据,而不仅仅是建立基于单一时间序列的预测模型。文章提出的TSTGCN基于列车运行数据的时空特性和动态相关性来预测车站的集体累积效应。
B. 高速列车运行数据描述
文章使用的是来自中国铁路客票系统的高速列车运行数据,包括2019年10月8日至2020年1月27日727个火车站的列车运行记录。这些属性包括列车运行日期、车次、站名、站号、预计到达时间和出发时间、实际到达时间和出发时间、停靠超时、是否到达延误和是否出发延误。列车运行数据以整分钟记录。通过北京南站的部分列车运行数据见表二。从表二可以看出,2019年10月19日19:00-21:00,有7趟列车到达北京南站,其中晚点列车为G21、G269、G207。G207的到达延迟影响了G4961的运行。这时调度员决定哪趟列车先发车。
文章的重点是建立一个列车延误的集体累积效应预测模型,来预测一个车站在特定时期的总到达延误次数。使用带时间戳的出发延误数和到达延误数作为每个站点的二维特征。
5. 预测模型
A. 列车延误的集体累积效应预测
高速铁路网可以看作是一个无向图。图上的节点代表一系列相互连接的站点。车站之间的连接是由火车的路线决定的。更准确地说,如果一列火车经过a站和b站,那么它们之间就有联系。在网络上运行的任何列车都有一个由S = S1、S2,...,SN。这种路线的特点是有一个始发站和目的站以及几个中间站。全国各地都有很多站,分布在不同的地点。每个车站都规定了可以通过的列车以及预计到达和离开的时间。对于站S,时刻表规定列车应该在时间t’SA到达,在站S停留一段时间后在时间t’SD离开。在大多数情况下,时间表是准确的,这意味着大多数火车将在预期的时间到达。但由于极端天气、客流、某些突发事件等不可控原因,列车可能不会正点到达。实际到达和离开时间被定义为tSA和t’SD。预期到达时间和实际到达时间之差定义为到达延误,预期离开时间和实际离开时间之差定义为离开延误。如果到达延误 < 0,将其计为到达延迟。需要注意的是,列车在始发站没有到达时间,在终点站也没有发车时间。两个车站的实际运行时间是指列车从第一个车站出发并到达第二个车站所需的时间tS+1 A -tSD。
列车发车时间取决于调度策略,而这个策略的制定又与本站的晚点情况有关。分析车站可能出现的到达延误,可以帮助调度员更快更方便的做出正确的策略,从而保证每趟列车的有序运行。结合到达延误预测和调度策略,可以更准确地估计列车的发车时间。
为了解决列车到达延误的预测问题,将现有的列车运行数据转化为时空数据,然后使用TSTGCN模型对数据进行训练。
B. 列车延误建模的集体累积效应预测
高速铁路网被定义为一个无向图G = (S,E,A,M)。S是所有站的集合,|S| = N. E是边,代表站与站之间的路线。A ∈ R,代表站与站之间的连通性。a是g的邻接矩阵,M代表站与站之间的距离,这是g的距离权重矩阵,距离越长,权重越小。在G中,每个站在周期τ中有多个统计值,为到达延误和离开延误的数量。用F来表示每个站的特征数,Xτi∈ R表示站I在周期τ内的所有特征值。Xτ=(Xτ1,Xτ2,...,XτN)T表示周期τ内所有站点的所有特征值。X = (X1,X2,...,Xt)T表示所有站在t个周期内的所有特征值。此外,设置yτi来表示一个站i在未来时间段τ内的到达延迟。
给定一个固定的周期τ和由过去周期τ内的列车数据集生成的高速铁路网上所有车站的特征值测度,我们预测到达延误序列Y = (y1,y2,...,yN)T未来一段时间Tp,yi=(yτ+1 i,yτ+2 i,...,yτ+Tp i)表示未来时段Tp内站i的到达延迟序列。
C. 基于注意机制的TSTGCN
图2是本文中使用的TSTGCN的总体框架。使用列车的历史运行数据作为训练数据来建立列车延误的集体累积效应预测模型。文章中的预测模型主要由三个结构相同的独立组件组成,分别对列车历史运行数据的近期、每日和每周相关性进行建模。它主要由三个网络结构相同的部分组成,每个部分由若干个时空块和全连通层组成。每个块都有一个时空注意模块和卷积模块。为了提高训练的效率,在每个组件中使用一个残差学习框架。最后,基于参数矩阵进一步组合三个分量的输出结果,得到最终的预测结果。TSTGCN能够很好地捕捉输入数据的动态时空相关性,预测长度也可以调整,具有良好的应用扩展性。
1)图形时间序列:TSTGCN的输入数据是多站多时段的延时数据,是一类典型的时空网络数据。时空网络可以看作是网络上由图形信号组成的时间序列数据。网络上每个节点的数据是一个时间序列,具有邻近性、周期性等复杂的相关性。文章主要讨论近期、每日和每周的时间序列数据。假设采样频率为每天q,当前时间为t0,预测窗口的大小为Tp。截取时间轴上长度为Th、Td和Tw的三个时间序列段,分别作为最近、每日和每周分量的输入,其中Th、Td和Tw是Tp的整数倍。使用Xτ来表示过去τ周期内空间网络上的图形信号。三个时间序列组成部分的详情如下:
a) 最近时间序列:最近时间序列。具体来说,如果一列运行在固定火车站之间的列车由于某种原因晚点到达一个车站,下一个车站的到达延误可能会受到一定程度的影响,这种影响会通过车站之间的连接关系传递到高速铁路网上的多个火车站。因此,过去一个或多个站点的到达延误必然会影响未来多个站点的到达延误。
b) 周时间序列:周周期时间序列。每周周期时间序列由过去几周的片段组成。这些碎片的周属性和时间间隔与预测周期相同。一般情况下,周一的交通模式与历史上的周一类似,但可能与周六和周日有很大不同。大量的人会选择周六乘坐高铁出行,周日下午回去,可能会造成车站交通相对拥挤,导致列车晚点。因此,该组件的设计是为了捕获到达延迟数据中的每周周期特征。
2) 注意机制:在文章中,TSTGCN采用了基于时空注意机制的多重注意机制模型。这种多注意力模型能够很好地捕捉输入数据的时空相关性。传统的编码器-解码器必须将所有输入信息压缩成固定长度的向量。使用这种固定长度编码来表示更长或更复杂的输入数据通常会导致信息丢失。使用这种模型结构不可能对输入和输出序列之间的对应关系进行建模。注意机制最初是为了解决传统编解码器中存在的两个问题而提出的。注意力模型的核心思想是对编码器的所有输入进行加权,然后在当前位置输入到解码器,以影响解码器的输出。通过对编码器的输出进行加权,可以使用原始数据的更多上下文信息,同时实现与输出的对齐。在原始数据上计算一次关注权重的模型称为单层关注模型,在输入上叠加几层关注模块的模型称为多层关注模型。
a) 时间注意机制:在时间维度上,不同时间段的站点到达延迟之间存在相关性,不同时间各站点的相关性也在变化。列车在前一个或几个时间段的到达延误,会影响同一线路车站未来的到达延误。这里,我们使用一个基于时间片的自我关注机制来赋予数据不同的重要性。首先,计算输入数据的时间权重矩阵Z。Z中的元素表示时间i和j之间的依赖程度。计算公式如下:
之后我们用softmax的函数对Z进行归一化,保证关注权重之和为1,得到最终的时间关注矩阵:
得到的时间注意矩阵将直接应用于时空模块的第r层输入,得到融合了时间注意的输入数据,然后作为空间注意模块的输入。
b) 空间注意机制:在空间维度上,列车在不同站点的到达延误之间存在一定的相关性,尤其是相邻站点之间的影响高度相关。此外,不同距离的相邻站之间的相互影响也不同。具体来说,就是列车连续通过两个车站时,体现出每个车站的空间相关性。第一站列车的到达延误会影响下一站列车的到达时间,从而影响整个火车站列车的到达延误;相邻车站之间距离的影响体现在一列列车从一个车站发车的延误上,这两个车站之间的距离越大,从延误状态调整到正常状态的可能性越大,当前延误对下一个车站的影响越低。这里,注意机制可以被用来在空间维度上自适应地捕捉动态相关性和站间距离的影响。
考虑到高速铁路网络的静态特性,首先对输入特征矩阵进行线性变换,并计算每个级联站之间的相关权重矩阵C。方程式如下:
然后,计算距离权重矩阵M,以给予彼此更近的站更多的权重,并且M’通过标准化处理获得。非相邻站之间的距离权重为0(将值0分配给矩阵中未连接边的位置)。假设站i和站j之间的距离为dSiSj,则距离矩阵对应位置的权重为:
通过融合相关权重矩阵C和距离权重矩阵M’类似地,使用softmax的函数来归一化Q,以获得最终的空间注意矩阵。这些等式如下:
空间注意力矩阵可以捕捉高速铁路网络上节点之间的相关性和距离影响。在进行图卷积时,会随着邻接矩阵和空间注意力矩阵动态调整节点间的影响权重。
c) 图形卷积:文章采用GCN对高速铁路网上节点的空间特征进行建模。在空间维度上,网络是一种图形结构的数据。与网格数据不同,它存在于非欧氏空间,这使得传统的神经网络难以处理。而图卷积神经网络可以直接对原始图结构数据进行建模,得到图结构中节点的表示。主流的图形卷积方法包括空间方法(顶点域)和谱方法(谱域)。文章用谱方法来定义图的卷积。谱方法利用卷积定理和傅里叶变换将图形从顶点域转移到谱域,然后在谱域定义卷积核。将详细介绍如何通过图形卷积捕捉站点的空间维度特征。
高速铁路网上每个车站的特征可以看作是图上的信号。在每个时间片内,利用基于谱图论的图卷积对信号进行直接处理,充分利用了图节点信号的空间相关性。
具有卷积核gθ的卷积运算的形式表达式为:
在图卷积的实现中,拉普拉斯矩阵的特征值分解是非常重要的一步。高速铁路网规模很大,直接分解拉普拉斯矩阵代价很大,所以用切比雪夫多项式来近似求解。卷积运算可以表示为以下形式:
为了动态调整节点间的相关性,我们将切比雪夫多项式的每一项与空间注意力矩阵融合。因此,基于时空注意机制的图卷积运算表示如下:
然后,我们用线性校正单位ReLU作为激活函数。对于每个时间片,从整个高速铁路网络上的每个节点提取其0到k1邻居的信息,以更新节点的信息。
d) 标准二维卷积:CNN是一种前馈神经网络,包含卷积计算,具有深层结构。它专门用于处理具有类似网格结构的数据。文章利用2D-CNN对高速铁路网上节点的时间相关特性进行建模。
图卷积运算在空间维度上收集高速铁路网上各节点的相邻信息后,沿时间维度的标准卷积运算通过合并相邻时间片的信息来更新节点的信号,进而捕捉相邻时间片之间的依赖关系。以日周期分量中的第r层为例,其卷积运算表示如下:
TSTGCN模型中的时空关注模块会自动对有价值的信息给予更多关注(影响权重更大)。由注意机制调整的输入数据被输入到时空卷积模块。时空卷积模块由沿空间维度卷积的空间卷积模块和沿时间维度卷积的时间卷积模块组成。前者捕捉域内的空间相关性,后者利用附近时间内数据的时间相关性。
总之,时空模块能够很好地捕捉高速铁路网数据的时空特征。时空注意模块和时空卷积模块形成时空模块。可以叠加多个时空模块,更深入地提取数据的动态时空相关性。在每个组件输出后附加一个全连接层,可以保证每个组件的输出与预测目标具有相同的尺寸和形状,便于多个组件的集成。
5)多组件集成:这里介绍如何融合多个组件的输出。在北京等中心城市,人流在早上或晚上有一个明显的高峰,高铁列车也可能有一定的晚点,所以日周期和周周期分量的输出比较关键。但在一些偏远地区,由于缺乏强周期流,日周期和周周期分量的精度可能较差。因此,在融合三个分量的输出时,三个分量对每个节点的影响权重是不同的,需要根据列车运行的历史数据来确定。三个组件整合的最终结果是:
6. 实验
为了评估TSTGCN模型的预测效果,在建立的真实数据集上对其进行了训练。此外,使用ANN、SVR、RF和LSTM作为基线模型来评估TSTGCN的预测效果。
A. 数据集
原始数据集来自中国铁路https://www.12306.cn客票系统。数据集包括727个车站的高速列车运行和延误数据。第3章详细介绍了这些属性。数据为2019年10月8日至2020年1月27日。按照时间对原始数据进行切片,时间切片的大小设置为1小时。从2019年10月8日0时至2019年10月8日0时59分,一直记录到2020年1月27日23时至2020年1月27日23时59分。统计每个时间片内每个车站的到达延误(实际到达时间-预计到达时间> 0)和出发延误(实际出发时间-预计出发时间> 0)车次。实验中考虑了两种列车延误特性,包括到达延误和出发延误,预测的目标是整个火车站的到达延误。
7. 结论
根据高速列车运行数据的时空特性和动态时空相关性,构建基于关注机制的列车到达延误累积效应预测模型,用于铁路调度。该模型结合时空注意机制和时空卷积来捕捉列车运行数据的时空特征,从而实现更准确的预测。在实验阶段,将TSTGCN与ANN、SVR、RF和LSTM模型进行了比较,并使用MAE、RMSE和MAPE对这些模型的预测效果进行了评估。实验结果表明,TSTGCN明显优于列车调度的列车延误累积效应预测。
Attention
欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!