(27) 基于深度学习和多源大数据的浮动共享单车流量预测

交通预见未来(27): 基于深度学习和多源大数据的浮动共享单车流量预测

1、文章信息

《Short-term FFBS demand prediction with multi-source data in a hybrid deep learning framework》。

2019年新发在交通传统期刊IET Intelligent Transport Systems上的一篇文章,运输科技四区,审稿周期三个月。

2、摘要

本文主要是利用深度学习方法来预测浮动共享单车的短时流量预测free-floating bike sharing (FFBS)。上海共享单车的出行数据来源于摩拜公司。同时我们还收集了其他数据集,如天气数据和空气质量数据。共享单车需求的时空模式表明,工作日出行呈现出明显的通勤模式,而周末出行通常涉及不同的出行目的。在此基础上,提出了一种混合深度学习神经网络(HDL-net)来预测浮动共享单车的短时需求量(15,20,30分钟)。HDL-net在早高峰时的性能优于在晚高峰和非高峰时的性能。此外,本文将HDL-net与5中benchmark进行了比较。结果表明,所提出的混合深度学习框架在三个时间区间的预测性能都优于基准模型。本研究的结果对于交通主管部门制定有效的供需平衡策略和自行车道规划方案具有重要的参考价值

3、简介

目前,共享单车主要有两种类型,即基于站点的自行车共享和自由浮动的自行车共享(FFBS)。最近,最大的共享单车服务提供商之一的摩拜公司,开始公布部分历史出行记录。摩拜发布的个人出行记录具有较高的地理分辨率,为交通研究者研究共享单车出行需求提供了很好的机会。本文使用了摩拜发布的出行记录数据提出了一种混合深度学习神经网络用于短期共享单车需求预测。提出的混合深度学习架构将从多源数据集成到一个端到端的学习框架中,在探索短期共享单车需求的空间和时间特性方面具有很大的潜力。

4、数据集

据报道,上海2017年已经有超过150万辆共享单车. 本文将网格单元作为共享单车需求预测的基本空间单元。考虑到共享单车的出行观测大多位于上海老中心区,我们将研究区域划分为5×5个网格。图2显示了研究期间聚集的共享单车需求的空间分布。

(27) 基于深度学习和多源大数据的浮动共享单车流量预测_第1张图片

 

本文收集了三种类型的数据。共享单车出行数据是从摩拜公司收集的,摩拜公司仅通过一些数据科学竞赛,如上海开放数据应用竞赛,以非公开的方式提供部分历史出行记录。如今,摩拜已经有超过400万辆自行车,分布在全球80个城市,每天产生约2000万订单。摩拜单车提供的共享数据包括2016年8月1日至8月31日期间的1023,603次个人出行。数据集中的trips由306,936个用户和17688辆自行车产生。主要使用的数据集字段为the order ID, bike ID, user ID, pick-up timestamp, pick-up geo-location, drop-off timestamp and drop-off geo-location。而且,行程记录的行程持续时间大于10小时或超过50公里的行程距离被进一步删除,主要是因为一些用户可能忘记正确锁自行车。最后,本文一共选取了1023306个trips。

气象资料来自上海气象局,由气象站提供的每小时综合天气资料。所得的天气资料包括每小时的总气温、雨量、风速、能见度、湿度及气压。空气质量数据来自国家环境监测中心,获得的每小时空气质量汇总信息包括SO2、NO2、CO、O3、颗粒物(PM) 10和pm2.5的最后,利用ArcGIS软件将采集到的共享单车出行数据、天气数据和空气质量数据聚合成相应的网格单元。表1总结了考虑的变量的描述性统计。

(27) 基于深度学习和多源大数据的浮动共享单车流量预测_第2张图片

 

5、模型框架

这一部分我们构建了一个混合深度学习框架来预测短期共享单车需求。该方法将LSTM和ConvLSTM结合端到端深度学习体系结构中的神经网络。

注意,本文中与天气和空气质量相关的变量是时间上变化但空间上静止的,而共享单车需求变量在研究期间是空间上和时间上变化的。在提出的混合深度学习框架中,堆叠的LSTM层来提取时间特征,并捕获天气和空气质量相关变量之间的时间相关性(可以看成一个timesteps有多个features,一个feature相当于一个指标)。堆叠的ConvLSTM层来捕获共享单车需求变量之间的空间和时间特征(见图3)。然后将这三种类型的数据集的层次特征合并在一起,并输入到多个完全连接的层中,以生成最终的预测共享单车需求。

(27) 基于深度学习和多源大数据的浮动共享单车流量预测_第3张图片

 

堆叠的LSTM层和ConvLSTM层比较简单,对于特征融合部分,将提取出的天气、空气质量特征和共享单车需求特征串联成一个稠密向量。然后将连接的向量连接到几个完全连接的层,以生成最终预测的共享单车需求。

 

另外本文的目标函数使用了L2正则化,评估指标为MSE,MAE和MAPE。

6、实验部分

实验部分比较了早晚高峰和平峰的预测结果,五个基准模型也相对比较简单,

 

(27) 基于深度学习和多源大数据的浮动共享单车流量预测_第4张图片

 

(27) 基于深度学习和多源大数据的浮动共享单车流量预测_第5张图片

7、数据获取

公众号后台回复“摩拜”,获取上海摩拜共享单车2016年八月一个月的轨迹数据样例下载地址。 

(27) 基于深度学习和多源大数据的浮动共享单车流量预测_第6张图片

 

你可能感兴趣的:((27) 基于深度学习和多源大数据的浮动共享单车流量预测)