读论文:DNN-Based Prediction Model for Spatio-Temporal Data

标题: 基于DNN的时空数据预测模型
作者: Junbo Zhang, Y u Zheng, Dekang Qi, Ruiyuan Li, Xiuwen Yi

文章目录

  • ==Abstract==
  • ==Introduction==
  • ==贡献==
  • ==综述==
    • 一、系统
      • 1.1 系统框架
      • 1.2 系统演示
    • 二、模型
      • 2.1 ST预测问题的表述
      • 2.2 DeepST
    • 三、 评估
      • 3.1 多样的ST应用
      • 3.2 多步超前预测
      • 3.3 数据越多越好?
  • ==总结==
  • ==未来展望==


Abstract

位置采集和无线通信技术的进步导致了时空(ST)数据的广泛使用,而这些数据都具有独特的空间属性(即地理层次和距离)和时间属性(即接近性、周期和趋势)。为此,本文提出了一种基于深度学习的时空数据预测模型(DeepST),并利用它来进行实时人流预测;

Index Term——Deep Learning; Spatio-Temporal Data; Prediction.


Introduction

  • ST数据的独特属性
    1)空间属性,由地理层次和距离组成。首先,地理层次较高的位置具有较粗的颗粒度。其次,两个地点之间有一个地理距离,它可以衡量它们之间的相关性;
    2)时间属性,由接近度、周期和趋势组成。每个实例的时间戳让我们能够按时间顺序来排序,而相邻的时间戳通常比远处的时间戳有更高的相似性。此外,ST数据通常有一定的周期性模式,以一定的频率重复出现,比如早晚高峰等;

学习ST数据并对其做出准确预测对于一个城市来说有着重大的意义。但是想要同时掌握其空间和时间属性并非一件易事。为此,本文提出了一种DNN的的预测模型(名为DeepST),其中包括两个关键部分:空间-时间和全局


贡献

  1. 本文为时空数据设计了一个新的深度学习架构,并应用各种专业知识来处理ST数据;
  2. 将该框架应用在了城市人流预测上,并开发出了对应的系统来实现该功能;

综述

一、系统

1.1 系统框架

系统的框架如图1所示:
读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第1张图片

我们的框架有三个主要部分:离线训练、在线预测和网站监控;在离线训练中,从一个城市收集到的轨迹(如出租车)被送入 "计算流量 "模块,该模块输出两种类型的流量(见定义2)。然后,这些历史流量被用来学习DeepST模型。在在线预测中,从计算实时轨迹的人群流量开始,学习到的DeepST模型被用来预测未来的流量,这些流量在以后与实时流量串联起来。在最后一个部分,为了直观地监测,我们从实时和预测的人群流量中生成热图,可以显示城市的全球状况。同时,单个区域的曲线显示更详细的流量


1.2 系统演示

读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第2张图片
一下子找不到该网站,先不找了


二、模型

2.1 ST预测问题的表述

  • 定义1:本文根据经度和纬度将一个城市划分为一个M×N的网格地图,其中一个网格代表一个区域;
  • 定义2:在这项研究中,我们使用人群流动作为案例的测量。对于位于第m行和第n列的网格(m,n),第k个时间戳的两种类型的人群流动,即流入、流出,分别定义为:
    读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第3张图片

其中T rk:g1→g2→…→g|Trk|表示第k个时间戳的轨迹;gi表示地理空间坐标;gi∈(m,n)表示点gi位于网格(m,n)内;|·|表示一个集合的基数;

在每个网格中存在Q个随时间变化的测量值。因此,任何时候的观测都可以用一个张量X∈RQ×M×N来表示;

  • 问题1:给出历史观测值Xk,其中k=0,1,…,t-1,来预测Xt

2.2 DeepST

图3显示了DeepST的结构,它由两个部分组成:时空部分和全球部分;
读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第4张图片

将所有的历史观测数据输入到时空部分。根据时间属性,我们选择不同的时间戳,并将其串联在一起,分别建立接近度、周期和趋势模型。接近度、周期和趋势的输出则是通过早期融合进一步合并,再将其送入若干卷积层;
全局组件中,我们首先得到预测时间t的元数据,并将其转化为二进制矢量,然后将其送入一个包含一个(或几个)全连接层的块中。
上述组件的输出通过后期融合和Tanh激活函数进行合并

流程

  • 1.获得时间上的依赖性:在ST预测中,由于输入有可能是一个很长的观察序列。因此在一个单一的模型中学习时间和空间属性是十分困难的。所以我们需要选择那些依赖性较高的时间戳来减少输入量,其属性有:1)时间上的接近性;2)周期;3)趋势;
  • 2.卷积:利用卷积算子来捕捉空间依赖性。图4显示了自然提供捕捉空间依赖性能力的卷积:
    读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第5张图片

我们发现,一个卷积层可以很好地描述空间区域的近距离依赖性,两个卷积层可以进一步描述远距离依赖性。这意味着更多的卷积层可以捕捉到更远的依赖关系,甚至是整个城市的依赖关系

接近度、周期和趋势部分都被送入相似的卷积层。通过卷积,它们的输出分别为:
读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第6张图片

其中∗表示卷积算子;f是激活函数;H(1)c , H(1)p , H(1)s分别是第一卷积层对接近、周期、趋势序列的输出

    1. 融合:根据融合时间的不同,DNN中有两种常见的类型:早期融合晚期融合。它们具有不同的功能,将在我们的模型中用于融合不同类型的ST数据:
      (1) 早期融合:采用早期融合将接近性、周期性和趋势性结合起来,然后再进行卷积操作:

其中W(2)·以及B(2)就是两个参数;

在这之后可以在其上堆叠更多的卷积层,本文则是采用了4个卷积层;
(2) 获取元数据以及晚期融合:后期融合更善于融合不同领域的数据。元特征可以提供一些全局信息,如星期、气象条件,这对预测人流和空气质量总是有益的。此处,文章将元数据作为时间戳t的全局特征,让Gt是t处的元特征向量,后期融合可以写成:

其中Hst是图3中时空部分的输出,Wst和WG是参数。tanh是双曲切线,确保输出值在-1和1之间。这里采用均方误差MSE作为损失函数;


三、 评估

  • 模型:根据不同的时间依赖性,我们的DeepST有4种变体(即C、CP、CPT、CPTM):
    读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第7张图片

ARIMA是差分自回归移动平均模型;SARIMA则是季节性差分自回归移动平均模型;VAR模型除了分析自身滞后项的影响外,还分析其他相关因素的滞后项对未来值产生的影响。这几个都是时间序列预测的模型

  • 数据集:如下表所示:
    读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第8张图片

TaxiBJ15:根据定义1和2,从出租车轨迹中计算流量;TaxiGY16:从贵阳的出租车轨迹中计算流量;LoopGY16:从贵阳的环路探测器中收集两类交通流量;BikeNYC14: 根据自行车的租用以及归还来计算流量;并将以上数据都归一化到[-1,1]之间

并采用RMSE来作为评估指标;


3.1 多样的ST应用

本文用不同的模型来对ST数据集进行学习,结果如表3所示:
读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第9张图片

可以看出,我们的DeepST模型优于4个基线,CPTM是其中最好的,从而证明了元数据的好处


3.2 多步超前预测

定义:利用历史上的和接近预测的未来值来预测未来更远的值;

图5显示了TaxiBJ15数据集上的相关结果:
读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第10张图片

这里的DeepST是4个DeepST变体中最好的一个。它表明DeepST的性能最好,并且可以有效地预测未来的数值序列


3.3 数据越多越好?

本文还针对DNN模型的数据量进行了进一步的探究,通过采集其他地方的信息来扩展数据集,结果图下图所示:
读论文:DNN-Based Prediction Model for Spatio-Temporal Data_第11张图片

我们可以看到,更多的数据会导致更低的误差,这意味着数据量对DNN非常重要


总结

本文提出了一个基于DNN的ST数据预测模型,它可以同时捕获时间和空间属性。并在各种ST预测任务上对DeepST进行了评估,包括人流、自行车的出租/归还、交通流量,最终发现其性能优于4个基础模型;


未来展望

可以看到:就算是运用最基础的DNN模型来进行时空预测也能有不错的效果,那么如果使用其他更加精致的模型,相信应该会得出更好的结果!

你可能感兴趣的:(dnn,人工智能)