交通流预测爬坑记(一):交通流数据集,原始数据

目录

  • 主要数据类型
    • 个人出行数据,轨迹数据
    • 高速公路观察点数据集
    • 其他
  • 出行数据集
  • 高速公路数据集
  • 其他

赠人玫瑰
在这里插入图片描述

如今网上有非常多的数据集,在CSDN,知乎什么搜一下可以找到一大堆,在收集数据时,发现很多数据集整理的文章都是写的一些论文中以及经过预处理的数据,我感觉这样的数据在从新写论文时使用起来非常不方便,因为不知道很多细节,所以我想写一写我搜集数据时搜集到的数据。

主要数据类型

个人出行数据,轨迹数据

推荐使用纽约公开数据集

高速公路观察点数据集

推荐使用英国高速公路数据集

其他

卡口、地铁等等

出行数据集

  • 郑宇,北京出租车数据集,应用于ST-ResNet,原始数据shape=(5596,2,32,32),"2"代表出In/Out两种流量。
    北京出租车数据集

原地址

https://github.com/amirkhango/DeepST/blob/master/deepst/models/STConvolution.py
百度网盘分享
链接:https://pan.baidu.com/s/1LY7kg6EP_hkcdINrm_szHg
提取码:0zhl

  • 纽约公开数据集,数据非常全面,谁用谁知道
    纽约红绿出租车

https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page

  • 滴滴盖亚计划数据集,链接就不放了。一搜就有

  • GeoLife GPS Trajectories
    该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到2012年八月收集了182个用户的轨迹数据。这些数据包含了一系列以时间为序的点,每一个点包含经纬度、海拔等信息。包含了17621个轨迹,总距离120多万公里,总时间48000多小时。这些数据不仅仅记录了用户在家和在工作地点的位置轨迹,还记录了大范围的户外活动轨迹,比如购物、旅游、远足、骑自行车。

https://www.microsoft.com/en-us/download/details.aspx?id=52367

  • T-Drive Taxi Trajectories
    包含在2008年北京一万多俩出租车一周的轨迹数据。这个数据集包含了1500万个坐标点,轨迹的总距离达到900多万公里。

https://www.microsoft.com/en-us/research/publication/t-drive-trajectory-data-sample/

还有其他的数据集,大同小异,我感觉如何是分析出租车出行需求,使用上面这些,特别是纽约的就足够了,纽约数据集非常详细。
如果是要做这方面的,我有一些小小的思路
对数据进行处理方面

(方法一) 将数据根据经纬度与街道进行匹配,就像下面的图
交通流预测爬坑记(一):交通流数据集,原始数据_第1张图片
(方法二) 将地图网络分成若干个小区域,
交通流预测爬坑记(一):交通流数据集,原始数据_第2张图片

模型方法方面

方法一 CNN+LSTM CNN卷积图片,提取空间信息形成包含空间数据的时间序列,输入LSTM,预测

方法二 GCN 图卷积神经网络,这个还是比较新颖的,网上也有很多文章,就不展开说了(太菜)

高速公路数据集

  • 如果你能的话,可以尝试Pems{http://pems.dot.ca.gov/},在网页的左下角好像有个data点进去就可以,还需要注册账号。
  • 有一些开源的论文中使用了pems的数据,但是大部分都是经过预处理以后的数据,而且观察点需要自己再去找,我感觉比较麻烦,而且在做新研究时,预处理过的数据不是特别适宜。
    -下面就是一篇论文中提供的数据,我真的没办法用这样的数据去分析
    交通流预测爬坑记(一):交通流数据集,原始数据_第3张图片
    还是放两个吧
  • Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting (ASTGCN) 论文中使用的数据集以及代码。

https://codechina.csdn.net/mirrors/wanhuaiyu/ASTGCN?utm_source=csdn_github_accelerator

内容包括 交通流预测爬坑记(一):交通流数据集,原始数据_第4张图片

  • Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting(DCRNN)

https://codechina.csdn.net/mirrors/liyaguang/DCRNN?utm_source=csdn_github_accelerator

内容包括
Los Angeles (METR-LA) :207个检测器2012年四个月的数据
the Bay Area (PEMS-BAY):325个检测器2017年6个月的数据

  • github 上各个领域公开的数据集 {https://github.com/awesomedata/awesome-public-datasets#transportation}, 里面包含很多数据集的内容,需要你花点时间去找,不只有交通的,还有其他的数据集,不多说可以看一下。

  • 美国一个大学提供的双子城{https://www.d.umn.edu/tdrl/services.htm}, 附近道路数据,但是数据格式一直没搞懂,如果有弄明白的朋友可以讨论交流一下。

上面这些,我其实并不是特别满意,太麻烦了,而且还需要看全英文的论文网页什么的,于是,不断的找啊找,终于

找到了 英国高速公路数据集{http://tris.highwaysengland.co.uk/detail/trafficflowdata},数据集网站包含英国M、A级基本上所有高速公路,数据非常全面,而且国内下载不限速 ,缺点就是只是统计时间是15分钟一次。
但这个网站只有数据没有观测点的位置,于是又经过不断的找啊找,观测点地图{https://webtris.highwaysengland.co.uk/}, 也终于找到了,这两个一起,真就再也不用担心数据了,想要多少有多少

  • 文件内容:时间,流量,速度,占有率(需要自己算)

交通流预测爬坑记(一):交通流数据集,原始数据_第5张图片

2021.7.29更新 英国高速数据网站也需要,请大家继续寻找别的数据集。

提供一个我已经下载的7个站点2个月的数据,位置在M25高速希思罗机场附近

链接:https://pan.baidu.com/s/1ykUKfGcjIsfCMHJbmky6NQ
提取码:mq0v

这一方面也有一些的小思路,但不详细说了,因为现在就在写这方面的论文,等论文写差不多在写专门的方法实现文章吧,如果有人想一起讨论,可以私聊,欢迎欢迎。

cnn+lstm+注意力
增加特定条件(天气呀,重大事件呀巴拉巴拉)
针对特定场景,使用现有模型去套到新的应用方向上

其他

  • 微软的城市计算 {https://www.microsoft.com/en-us/research/project/%e5%9f%8e%e5%b8%82%e8%ae%a1%e7%ae%97/},里面包括一些与郑宇相关的论文,视频,数据等等
  • 深圳市政府数据开放平台 {https://opendata.sz.gov.cn/}, 停车场数据、卡口过车数据、车流量数据、公交站点路线数据、营运车辆GPS数据、刷卡数据、街道实时数据、路段属性数据等等。
  • 地铁数据

天池比赛
https://tianchi.aliyun.com/competition/entrance/231708/introduction?spm=5176.12281957.1004.5.38b04c2alLBS7L

数据链接:https://pan.baidu.com/s/1wb6cXjSzFh9sy6jGB8aShQ
提取码:7g44

江西的一个比赛,提供下载
https://data.jiangxi.gov.cn/jxoda/login/toPages?file=home/quesData

你可能感兴趣的:(交通流,数据挖掘,机器学习,深度学习,tensorflow)