KDD CUP 2017 回顾总结

KDD CUP 2017 总结

@QQ:609659119
@https://blog.csdn.net/xiaopc3357/article/details/81062434

一. 任务:分为两个

任务1:估计从指定的十字路口到收费站的平均行驶时间,每20分钟(左闭右开)作为一个时间窗口,评估段为10月28日-24日,历史数据为7月19日到10月17日。

a.从交叉路口intersection A到收费站 tollgate 2 和收费站 tollgate 3 的路线;
b. 从交叉路口intersection B到收费站 tollgate 1 和收费站 tollgate 3 的路线;
c. 从交叉路口intersection C到收费站 tollgate 1 和收费站 tollgate 3 的路线。
KDD CUP 2017 回顾总结_第1张图片

提交文件格式:表1

KDD CUP 2017 回顾总结_第2张图片

任务2:预测每个收费站平均车流量,对于每20分钟的时间窗口,分别预测收费站tollgate 1 / 2 / 3 的车流量。其中收费站2只允许进入高速公路,而其他允许交通双向,因此任务为预测收费站1/3的进出和收费站2的进车量。评估段为10月28日-24日,历史数据为9月19日到10月17日

提交文件格式:表2
KDD CUP 2017 回顾总结_第3张图片
KDD CUP 2017 回顾总结_第4张图片

注意**

对于行驶时间预测,初始训练集包含从7月19日至10月17日收集的数据。 对于流量预测,初始训练集包含从9月19日到10月17日收集的数据。

二.评价指标

任务1:

KDD CUP 2017 回顾总结_第5张图片

任务2:

KDD CUP 2017 回顾总结_第6张图片

三.数据介绍

1. 目标区域网络拓扑图,图1

2. 道路连接属性,表3

KDD CUP 2017 回顾总结_第7张图片
KDD CUP 2017 回顾总结_第8张图片

3. 从十字路口到收费站的车辆路线,表4

KDD CUP 2017 回顾总结_第9张图片

4. 车辆沿着路线的轨迹,表5

KDD CUP 2017 回顾总结_第10张图片
KDD CUP 2017 回顾总结_第11张图片

5. 通过收费站的车流量历史数据,表6

KDD CUP 2017 回顾总结_第12张图片

6. 目标区域的天气数据(每3小时记录一次),表7

KDD CUP 2017 回顾总结_第13张图片

四.解题分析

用前两小时数据预测后两小时平均行驶时间和车流量,以20分钟做完一个窗口样本,上午6点-8点,预测8点到10点指定路线平均行驶时间和收费站车流量,下午15点-17点预测17点到19点指定路线平均行驶时间和收费站车流量。

1. 数据预处理

A.异常数据剔除,缺失数据如果较少采用平均值填充

由于训练集包括国庆7天车流量异常大,数据相对非节假日异常,故剔除;

针对任务1:训练数据为7月19日到9月17日,去除国庆7天;采用滑动窗构建训练集和验证集,其中7天为一个窗构建验证集;

A. 使用最后1-7天作为验证集,之前的作为训练集
B. 先前滑动一天,即2-8天作为验证集,之前的作为训练集
C. 以此类推,构建足够的验证集

针对任务2:训练数据为9月17-10月17,除开国庆一周共四周数据,采用4折交叉验证,每次取一周为验证集,其他是训练集。

2. 特征工程

A. 属性识别特征one-hot

道路ID,收费站ID,进出站ID,时间窗ID等等;

B.时间特征分为短期特征和长期特征,与统计特征连用

周几,是否为周末,时间点(小时、分钟),是否为高峰期等等;

C.天气特征离散化之后进行one-hot

风速,空气湿度,温度,风向,降水量,海水压力,天气是否异常等

D. 道路特征

道路长度,宽度,道路行车道数目,前后连接顺序,前后连接道路的宽度与长度

E.时间和车流量特征

预测时刻前2小时数据,20分钟窗内中平均行驶时间和车流量的统计特征,统计特征包括:最大值,最小值,平均值,中位数,标准差,偏度(三阶矩),峰度(四阶矩)等等,

F. 交叉特征

道路与车辆特征交叉,比如每条道路的车流量/道路容积;
窗统计量之间的交叉特征,比如不同窗特征的叠加,差分,比率,乘积等等加减乘数征;

*对于交叉特征,移除低方差特征,利用树模型提取特征的重要性,取top取重要性高的交叉特征。

五.总结

1. 关注数据分布,如数据的变化趋势和噪声数据
2. 建立科学的交叉验证集
3. 考虑偏差和方差均衡,偏差衡量模型准确性,方差衡量模型稳定性,偏差难以降低时可考虑降低方差
4. 合理理解评价指标,采集合理有效的损失函数

你可能感兴趣的:(数据挖掘竞赛)