Adaptive Graph Convolutional Recurrent Network for Traffic Forecasting 论文理解+机翻

背景:快速的城市化带来了人口的增长,并带来了巨大的流动性和挑战性。在这些挑战中,智能交通系统是一个重要领域,交通预测是城市交通管理的重要部分。

问题描述:论文关注的是如何准确的预测未来的交通状况,例如交通流量和速度、乘客需求等。

方法:传统的预测方法采用时间序列模型,它们无法捕捉到大规模交通的非线性相关性和复杂的时空模式。论文提出了一种叫做 Adaptive Graph Convolutional Recurrent Network (AGCRN)的方法。它结合了图卷积神经网络(GCN)和循环神经网络(RNN)的思想,用于捕获不同时间段交通流量数据之间相互依赖的关系。

图卷积神经网络 (GCN):GCN用于捕获不同交通节点之间的关系,节点可以表示城市中不同交通路口或者区域。GCN通过学习临近节点的信息来预测未来的交通情况。

循环神经网络(RNN):RNN用于捕获时间序列中的时间依赖性。它可以帮助模型理解过去交通数据如何影响未来的数据。

实验和结果:在真实世界交通数据集上进行实验验证了AGCRN模型的性能。实验结果表明,AGCRN在交通预测方面有很高的准确性。

1 Introduction

交通预测的复杂性

交通预测具有复杂的内部依赖性(即一个交通序列内部的时间相关性)和外部依赖性(即来自己不同源头的多个相关交通序列之间的空间相关性)。这些依赖由不同来源产生。例如,用于交通流量和交通速度预测的不同环路检测器/交叉口,以及用于乘客需求预测的各种站点/区域。

传统方法的限制

传统的交通预测方法简单的采用时间序列模型,例如自回归综合移动平均模型(ARIMA)和向量自回归模型(VAR)。然后,它们无法捕捉大规模交通数据中的非线性相关性和复杂的时空模式。这些方法往往忽略了不同交通序列之间的相互影响以及空间相关性,因此在处理这些挑战时表现不佳。传统方法在处理这些问题时存在限制。因此,需要采用更先进的方法来应对这些挑战,以提高交通预测的准确性和可靠性。

研究趋势

最近的研究趋势是采用深度学习方法,专注设计新的神经网络结构,以捕获所有交通数据序列共享的显著时空模式。时间依赖性采用循环神经网络(RNN)和时间卷积模块(TCN)进行建模,空间相关性采用基于图卷积神经网络(GCN)进行建模。

问题

虽然深度学习的方法取得了令人满意的结果,但是对于不同数据序列的特定细粒度模式并不准确,因为它们过于偏向捕捉共享模式。此外,现有的GCN方法需要预先定义一个相似度或者距离度量来生成连接图,这需要大量的领域知识,并且对图的质量非常敏感。

提出的解决方法和模型

作者提出了两种机制来改进现有GCN构建块,来分别解决上述问题。

1)提出了一个节点自适应参数学习(NAPL)模块,用于学习每个交通序列特定模式。

2)提出了数据自适应图生成(DAGG)模块,用于从数据中推断节点嵌入属性,并在训练过程中生成图。

NAPL:这个模块允许模型为每个节点学习特定的模式或参数,而不是共享全局参数。它使用了矩阵分解的思想,将参数学习分解为两个较小的参数矩阵,从而可以为每个节点生成特定的参数。

 DAGG:这个模块允许模型根据数据自动生成图结构,而不是依赖于预定义的图。它使用了节点嵌入和权重池来动态生成图,以更好地捕捉交通数据中的空间关系。

作者将这两个模块与循环神经网络相结合,提出了一个统一的交通预测模型AGCRN。AGCRN能够捕捉交通数据中的细粒度节点特定的时空相关性,并统一了修正后的GCN中的节点嵌入属性。

2 Related Work

Correlated time series prediction 

在探讨相关事件序列预测领域的发展和趋势时,提到了深度学习方法的崭露头角。深度学习方法在处理时间序列数据时具有出色的性能,因为它们可以自动捕捉数据的复杂模式和相关性,而不需要手动设计模型或者特征。然而,一些现有方法需要大量的训练数据和参数来实现高性能,这也是作者在文本中提到的一个重要问题。此外,尽管深度学习在时间预测中表现出色,但有时候他们忽略了不同时间序列之间的相互影响,这也是研究者们继续探索改进的方向之一。

GCN based Traffic forecasting

这段文字在于强调了交通预测邻域的研究过程,尤其是在处理时间序列数据时,研究者越来越关注空间相关性。他们尝试用GCN等方法来全面的捕捉交通数据时的时空特征,以提高交通预测的准确性和通用性。尽管有些进展,但仍然有些挑战,比如对预定义空间连接图的依赖性。

Graph Convolutional Networks

这段文本在介绍GCN以及其相关的方法时,强调了GCN在处理图数据方面的通用性和重要性。新的研究方法试图摆脱对静态预定义连接图的依赖,允许模型从数据中动态的学习或者推断连接关系。

3 Methodology

3.1 Problem Definition

本段介绍目标是多步交通预测问题。问题的背景是有多个相关的单变量时间序列,这些序列用符号X表示,表示为X=[X_{1},X_{2},...,X_{n}],其中X_{t}表示在时间步骤t处的N个数据源的观测值。目标是基于观察到的历史数据来预测相关的交通时间序列的未来值。

作者使用了一个函数F_{\Theta },其中\Theta表示模型中所有可学习的参数,这个函数的任务是根据过去T时间步的数据来预测未来\tau个时间步的数据。方程如下:

f(X_{t+1},X_{t+2},...,X_{t+\tau })=F_{\Theta }(X_{t},X_{t},...,X_{t-T+1})

为了更准确地处理不同交通时间序列之间的空间相关性,进一步在图上进行建模,其中图          G=(V,E,A)、

  • V代表节点集,表示交通时间序列的源
  • E代表边的集合
  • A是图的邻接矩阵,表示节点或者交通时间序列之间的空间接近程度

于是,该问题被修改为:

f(X_{t+1},X_{t+2},...,X_{t+\tau })=F_{\Theta }(X_{t},X_{t},...,X_{t-T+1},G)

这意味着模型将根据图G中的空间关系来预测未来的交通时间序列值。模型的目标是利用历史数据和图结构来进行准取的交通预测。

3.2 Node Adaptive Parameter Learning

最近的交通预测研究中,常常使用GCN来捕捉不同交通时间序列之间的空间相关性。GCN的计算基于图的拉普拉斯矩阵L(L=D-A),在谱域进行处理。在论文《Semi-supervised classification with graph convolutional networks》中提到,可以通过一阶切比雪夫多项式展开来近似图卷积操作。其公式如下:

  •  A是图的邻接矩阵
  • D是度矩阵
  • X是GCN层的输入特征
  • Z是输出特征
  • Θ是可学习的权重
  • b是偏置

然而,共享参数的方法对于交通预测问题来说并不是最佳的选择。因为交通时间序列在不同节点之间可能具有多样性的模式,这是由于时间序列数据的动态性以及影响交通的各种因素。因此,仅仅捕捉所有节点之间的共享模式不能满足准确的交通预测需求,需要学习每个节点的特定模式。

为了解决这个问题,提出了GCN的增强版节点自适应参数学习(NAPL)模块,他借鉴了矩阵因子化的思想。

NAPL学习两个较小的参数矩阵:节点嵌入矩阵(EG)和权重池矩阵(WG)。这两个矩阵的乘积生成了GCN层的参数Θ,其中每个节点从共享的权重池WG中提取参数,根据其节点嵌入EG,这可以被解释为从所有交通时间序列中发现的一组候选模式中学习节点特定模式。

最终,NAPL增强的GCN(即NAPL-GCN)的计算公式如下:

这种方法旨在通过学习节点特定的模式来提高交通时间序列的预测性能,以更好地捕捉空间相关性和节点特定模式。 

3.3 Data Adaptive Graph Generation

现有的基于GCN的交通预测模型存在一个问题,即这些模型需要预定义一个邻接矩阵来执行图卷积操作。通常情况下,邻接矩阵A是通过距离或者相似性度量来计算,用于描述节点之间连接的关系。

距离函数:根据节点之间的地理位置来定义图,节点之间的连接性受到他们之间地理位置的影响。

相似性函数:根据节点属性或者时间序列本身的相似性来定义节点之间的连接性。

这些方法存在一些问题,预定义的图不能获取到完整的包含空间依赖性的信息,并且与预测任务没有直接关系,这可能会导致相当大的偏差。此外,如果没有适当的知识,这些方法无法适应其他领域,使得现有的基于gcn的模型效果不佳。

为了解决这个问题,作者提出了DAGG模块的方法,自动推断从数据中获取的隐藏依赖的关系。DAGG模块首先初始化了一个可学习的节点嵌入字典(EA)来表示所有节点,然后通过计算这些节点之间的相似性来推断它们之间的空间依赖关系。具体来说,它通过计算EA和EA的转置的点积,然后应用softmax和ReLU函数来生成一个自适应的邻接矩阵,而不需要生成A和计算拉普拉斯矩阵。在训练过程中,EA会自动更新以学习不同交通时间序列之间的隐藏依赖关系,并获得用于图卷积的自适应矩阵。最终,DAGG增强的GCN模型可以用以下方式表示:

 这种方法的好处在于它能够自动从数据中学习节点之间的空间依赖关系,而不需要依赖于预定义的图结构。这提高了模型对不同交通数据的适应性,使其能够更好地捕捉空间关系,从而提高了交通预测的性能。最后,对于处理极大图的情况,可以采用图分割和子图训练等方法来解决计算成本较高的问题。

3.4 Adaptive Graph Convolutional Recurrent Network

AGCRN旨在捕捉交通时间序列中的空间和时间相关性,同时融合了"NAPL-GCN"、"DAGG" 和"Gated Recurrent Units"(GRU)。

具体来说,AGCRN取代了GRU中的MLP层,使用"NAPL-GCN"来学习节点特定的模式。此外,它使用"DAGG"模块来自动发现空间依赖关系。下面是AGCRN的形式化表示:

Adaptive Graph Convolutional Recurrent Network for Traffic Forecasting 论文理解+机翻_第1张图片

  • X:;t 和 h_{t} 分别表示时间步 t 的输入和输出
  • [·] 表示连接操作
  • z 和 r 分别表示重置门和更新门
  • E、Wz、Wr、W_{\hat{h}}、bz、br 和 b_{\hat{h}} 是AGCRN中可学习的参数

与GRU类似,AGCRN中的所有参数都可以通过时间反向传播进行端到端训练。 

这个模型的关键点在于:

  1. 节点特定模式学习:通过使用"NAPL-GCN"来替代传统的MLP层,AGCRN能够学习每个节点的特定模式,从而更好地捕捉节点之间的空间关系。

  2. 自动发现空间依赖关系:使用"DAGG"模块,AGCRN可以自动地从数据中发现节点之间的空间依赖关系,而无需预定义的图结构。

  3. 参数共享:AGCRN将所有嵌入矩阵统一为E,而不是在不同的"NAPL-GCN"层和"DAGG"中学习独立的节点嵌入矩阵,这有助于确保所有GCN块之间的节点嵌入一致性,并提高了模型的可解释性。

3.5 Multi-step traffic prediction

使用堆叠的"AGCRN"层作为编码器来捕捉节点特定的时空模式,并将输入(即历史数据)表示为H(一个维度为R^{N \times d_{o}}的矩阵)。然后,通过将表示从R^{N \times d_{o}}投影到R^{N \times \tau },可以直接获得所有节点未来τ步的交通预测。

与传统的逐步顺序预测不同,这里的方法不需要逐步生成输出,这有助于减少时间消耗。

模型的训练目标是最小化L1损失(L1 loss),并优化多步预测的损失函数。因此,AGCRN用于多步交通预测的损失函数可以表示为:

  • Wθ代表网络中的所有可学习参数
  • X_{:,i}是实际的观测值
  • {X}'_{:,i}是模型在时间步i上的预测值

这个问题可以通过反向传播和Adam优化器来解决,目标是最小化损失函数以提高预测的准确性。 

4 Experiments

4.1 Datasets

为了评估性能,在两个公开的现实世界的交通数据集:PeMSD4和PeMSD8上进行了实验。

PeMSD4: PeMSD4数据集指的是旧金山湾区的交通流量数据。在2018年1月1日至2018年2月28日期间,共有307个环路探测器被选中。

PeMSD8: PeMSD8数据集包含了从2016年7月1日至2016年8月31日期间从圣贝纳迪诺地区170个环路探测器收集的交通流量信息。

数据预处理:用线性插值法填充数据集中的缺失值。然后,这两个数据集被聚合成5分钟的窗口,每天产生288个数据点。此外,我们采用标准归一化方法对数据集进行归一化,使训练过程更加稳定。

对于多步交通预测,我们使用一个小时的历史数据来预测下一个小时的数据,

我们组织12步的历史数据作为输入,下面的12步数据作为输出。我们按照时间顺序将数据集分成训练集、验证集和测试集。两个数据集的分割比例为6:2:2。虽然我们的方法不需要预定义的图,但是我们使用预定义的图作为基线。附录中提供了详细的数据集统计。

 5 Discussion

多变量或相关的时间序列预测任务是许多应用领域的基础任务,包括流行病传播预测、气象(例如空气质量、降雨)预测、股票预测和销售预测等。虽然本文的任务是交通预测,但所提出的两个自适应模块和我们的AGCRN模型也可以单独或联合适应各种多变量/相关时间序列预测任务。这意味着这些方法具有通用性,可以应用于多个领域,而不仅仅局限于交通预测。

本文提出的能够从数据中自动发现不同相关时间序列之间的相互依赖关系。这一点对于许多相关时间序列预测问题非常重要,因为在一些情况下,很难事先定义这些时间序列之间的图结构或连接关系。

作者提到了未来的工作方向,将重点关注两个方面的扩展性:

  1. 数据方面 - 验证AGCRN在更多时间序列预测任务上的性能;
  2. 模型方面 - 将NAPL和DAGG应用于更多基于GCN的交通预测模型。这进一步强调了他们的方法的通用性和未来研究的潜在方向。

6 Conclusion

在本文中提出用节点自适应参数学习和数据自适应图生成模块来增强传统的图卷积网络,分别用于学习节点特定模式和从数据中发现空间相关性。在这两个模块的基础上,我们进一步提出了自适应图卷积循环网络,该网络可以自动捕获时间序列数据中节点特定的空间和时间相关性,而无需预先定义图。

这项工作具有广泛的社会和商业应用潜力,特别是在大数据时代。自适应模块增强了对动态、相互依赖的时间序列数据的数据分析和相关应用的鲁棒性,从而有助于更好地建模和分析基于图结构的多通道数据,这些数据具有复杂的显式和隐式相关性。这项研究支持更好地建模和分析多渠道数据,这对于解决世界范围内的经济和社会问题(如流感爆发、经济增长和气候变化的预测)具有重要意义,并有可能加速相关研究的进展。

然而,这项工作可能存在负面影响,例如在拼车平台上可能出现的公平性问题。如果出租车供应无法满足需求,平台可能会过分强调预测的高需求区域,这可能会增加低需求区域旅行者的等待时间。这突显了在使用数据驱动的模型时需要考虑公平性和平衡性的问题,以确保社会中的各个群体都能受益。

你可能感兴趣的:(剪枝学习,深度学习,人工智能,机器学习)