第一步、数据分析平台的搭建
第二步、数据预处理
1、把滴滴的出行数据铺到道路上,找到关键路段提取路段信息。以2min为一个时间片,计算出每条路每个时间片的的通行速度
工作量:路段的选取和如何截断、通行速度的求法(按照一辆或多辆的平均的通行速度)
第三步、数据分析
1、数据探索分析
分析数据的规律及异常值、缺失值
查找每个属性观测值的个数、最大值、最小值、
把一个月的工作日和休息日的通行速度做比较、把每天每个时间段通行速度可视化做比较
2、数据清洗
把缺失值补全
第四步、特征工程
人工特征提取:
一、道路信息:
1、长度
2、直接上游道路条数
3、直接下游道路条数
4、上游link=1
5、上游link=2
6、上游link=3
7、上游link=4
8、下游link=1
9、下游link=2
10、下游link=3
11、下游link=4
12、每段路的平均速度
二、当前时间片刻的静态信息
1、属于哪个小时的第几分钟
2、当天星期几
3、当天是否是节假日
4、当天是工作日
5、当天是周六日
6、是放假前的一天
7、是放假的最后一天
三、当前时间片的历史通行速度信息
1、对某条路的当前时间片做纵向的统计,比如某条路在8:00-8:02的平均travel_time,travel_time的标准差、最大值、最小值等等
四、前面时间片(一个时间片为2min)的信息
1、数据中含有要预测的那个小时的前两个小时的真实travel_time
2、对两个小时数据做各种统计量。
3、这两小时最后一个时间片的travel_time,比如要预测8:00到9:00的travel_time,就把7:58-8:00这个时间片的tra通行速度作为一个特征。
4、要预测的时间片距离前面两个小时的峰值的距离(谷值也类似)。比如6:00-8:00通行的最大值在7:30-7:32,要预测的时间片是8:10-8:12,那这个特征的值就是8:10-7:30=40分钟。
第五步、模型选择
1、机器学习
2、深度学习(尚需进一步理解原理)
Simple LSTM
Conv1D
Graph Convolution (Main model)
使用邻接矩阵抽特征(这个还不太明白),使得Simple LSTM/Conv1D也能同时建模时空相关性。
第六步、模型验证