科研笔记:可用数据集整理(ing)

1  时间序列数据集

1.1 交通数据集

数据集地址 介绍
Urban Traffic Speed Dataset of Guangzhou, China | Zenodo
  • 由两个月内(即 2016 年 8 月 1 日至 2016 年 9 月 30 日的 61 天)内的 214 个匿名路段(主要包括城市快速路和主干道)组成,间隔 10 分钟。
  • 速度观测是在中国广州收集的。
广州
T-GCN/data at master · lehaifeng/T-GCN · GitHub
  • 2015年1月1日至1月31日深圳出租车的运行轨迹。
  • 它包含罗湖区156条主要道路作为研究区域。
  • 每条道路上的交通速度每15分钟计算一次
深圳
JingqingZ/BaiduTraffic: This repo includes introduction, code and dataset of our paper Deep Sequence Learning with Auxiliary Information for Traffic Prediction (KDD 2018). (github.com) 由查询子数据集、交通速度子数据集和路网子数据集三部分组成。这些数据收集于2017年4月1日至2017年5月31日中国北京百度地图

查询子数据集

  • 2017/4/1~2017/5/31的数据
  • 1忆4千万条用户查询数据
  • 每一条query包括开始时间、开始坐标、结束坐标、估计时间(分钟)

科研笔记:可用数据集整理(ing)_第1张图片

交通速度子数据集
  • 和查询子数据集相同区域、相同时间的交通速度数据
  • 12073个路段,5856时间片(61*24*4)
  • 每一条的形式为:路段id、时间片、交通速度

科研笔记:可用数据集整理(ing)_第2张图片

 

路网子数据集
  • 由于交通数据的时空依赖性,道路网络的拓扑结构将有助于预测交通。 表 1 显示了路网子数据集的字段。
  • 科研笔记:可用数据集整理(ing)_第3张图片
  •  对于交通速度子数据集中的每个路段,路网子数据集提供了:
    • 路段的起始节点(snode)和结束节点(enode)
      • 在此基础上可以构建路网的拓扑结构。
    • 每个路段的各种地理属性,例如宽度、长度、限速和车道数。
    • 工作日、周末、公共假期、高峰时段和非高峰时段等社交属性。
transdim/datasets/Seattle-data-set at master · xinychen/transdim (github.com)

西雅图数据的缩小版,只有一个月的数据

load 方式:

科研笔记:可用数据集整理(ing)_第4张图片

西雅图
zhiyongc/Seattle-Loop-Data (github.com)

来自大西雅图地区4条连接的高速公路(I-5、I-405、I-90和SR- 520)上安装的环路检测器。

它包含了整个2015年323个传感器站的交通状态数据,每5分钟一次

Davidham3/STSGCN: AAAI 2020. Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for Spatial-Temporal Network Data Forecasting (github.com)

PeMSD3(处理过的版本)

包括358个传感器和2018年1月9日至2018年11月30日的流量信息

PEMS
ASTGCN/data/PEMS04 at master · Davidham3/ASTGCN (github.com)

PeMSD4(处理过的版本)

描述了旧金山湾区的交通数据。从2018年1月1日到2018年2月28日,共59天,在29条道路上安装了3848个传感器。

STGCN/datasets at master · Davidham3/STGCN (github.com)

PeMSD7(处理过的版本)

描述了加州第七区的交通数据,包含228个站点,时间范围为2012年5月和6月的工作日。

ASTGCN/data/PEMS08 at master · Davidham3/ASTGCN (github.com)

PeMSD8(处理过的版本)

描绘了圣贝纳迪诺地区的交通数据,包含了从2016年7月1日到2016年8月31日共62天的8条道路上的1979个传感器

UCI Machine Learning Repository: PEMS-SF Data Set

PeMSD-SF

描述了旧金山海湾地区高速公路不同车道的车辆占用率,在0到1之间。

这些测量的时间跨度从2008年1月1日到2009年3月30日,数据每10分钟采样一次。

liyaguang/DCRNN: Implementation of Diffusion Convolutional Recurrent Neural Network in Tensorflow (github.com)

PeMSD-BAY

包含从2017年1月1日到2017年6月30日6个月的交通速度统计数据,包括湾区的325个传感器

liyaguang/DCRNN: Implementation of Diffusion Convolutional Recurrent Neural Network in Tensorflow (github.com)

METR-LA

从2012年3月1日到2012年6月30日四个月的交通速度统计数据,包括洛杉矶县高速公路上的207个传感器

LA
T-GCN/data at master · lehaifeng/T-GCN (github.com)

由环路检测器在洛杉矶县的高速公路上实时收集。它包括207个传感器,其交通速度从2012年3月1日到2012年3月7日采集。

这些交通速度数据每5分钟汇总一次。

Divvy System Data | Divvy Bikes 2013年到2018年芝加哥共享单车的发展轨迹 芝加哥
System Data | Capital Bikeshare
  • 来自于华盛顿的自行车系统。
  • 数据集包括2011年、2012年、2014年和2016年4个时段472个站点的数据
华盛顿

1.2 空气质量数据

数据集地址 介绍
zxecho/FGAN_for_air_quality_data_imputation (github.com)

常州市空气质量数据集

科研笔记:可用数据集整理(ing)_第5张图片

UCI Machine Learning Repository: Air Quality Data Set

从 2004 年 3 月到 2005 年 2 月(一年)意大利某城市一年每小时的空气质量数据(-200表示缺失值)

科研笔记:可用数据集整理(ing)_第6张图片

UCI Machine Learning Repository: Beijing Multi-Site Air-Quality Data Data Set

北京气候数据集

科研笔记:可用数据集整理(ing)_第7张图片

你可能感兴趣的:(科研,深度学习,人工智能)