基于滴滴开放数据建模思路

第一步、数据分析平台的搭建

第二步、数据预处理

1、把滴滴的出行数据铺到道路上,找到关键路段提取路段信息。以2min为一个时间片,计算出每条路每个时间片的的通行速度

工作量:路段的选取和如何截断、通行速度的求法(按照一辆或多辆的平均的通行速度)

第三步、数据分析

1、数据探索分析

    分析数据的规律及异常值、缺失值

    查找每个属性观测值的个数、最大值、最小值、

    把一个月的工作日和休息日的通行速度做比较、把每天每个时间段通行速度可视化做比较

2、数据清洗

     把缺失值补全

第四步、特征工程

人工特征提取:

一、道路信息:

1、长度

2、直接上游道路条数

3、直接下游道路条数

4、上游link=1

5、上游link=2

6、上游link=3

7、上游link=4

8、下游link=1

9、下游link=2

10、下游link=3

11、下游link=4

12、每段路的平均速度

二、当前时间片刻的静态信息

1、属于哪个小时的第几分钟

2、当天星期几

3、当天是否是节假日

4、当天是工作日

5、当天是周六日

6、是放假前的一天

7、是放假的最后一天

三、当前时间片的历史通行速度信息

1、对某条路的当前时间片做纵向的统计,比如某条路在8:00-8:02的平均travel_time,travel_time的标准差、最大值、最小值等等

四、前面时间片(一个时间片为2min)的信息

1、数据中含有要预测的那个小时的前两个小时的真实travel_time

2、对两个小时数据做各种统计量。

3、这两小时最后一个时间片的travel_time,比如要预测8:00到9:00的travel_time,就把7:58-8:00这个时间片的tra通行速度作为一个特征。

4、要预测的时间片距离前面两个小时的峰值的距离(谷值也类似)。比如6:00-8:00通行的最大值在7:30-7:32,要预测的时间片是8:10-8:12,那这个特征的值就是8:10-7:30=40分钟。

第五步、模型选择

1、机器学习

  • XGboost 算法
  • LightGBM建模

2、深度学习(尚需进一步理解原理)

  • 仅建模时间相关性

Simple LSTM

Conv1D

  • 时空相关性同时建模

Graph Convolution (Main model)

使用邻接矩阵抽特征(这个还不太明白),使得Simple LSTM/Conv1D也能同时建模时空相关性。

第六步、模型验证

 

你可能感兴趣的:(基于滴滴开放数据建模思路)