2020中国高校计算机大赛·华为云大数据挑战赛热身赛 之「智慧交通预测挑战赛」藍鯨团队解决方案学习整理

2020中国高校计算机大赛·华为云大数据挑战赛热身赛 之「智慧交通预测挑战赛」藍鯨团队解决方案学习整理

(学习前先膜一波桑榆大佬%%%,然后开始吧!)

以铜为鉴,可以正衣冠; 以人为鉴,可以明得失; 以史为鉴,可以知兴替~
数据竞赛萌新JerryX愿与大家一同学习成长!!!
欢迎大家 点赞 评论 提出宝贵建议哦!

0.总体思路

主要采用时间序列加权回归模型(SJH) 来做出预测。预测一个时间片的平均通行时间,可以用来参考的当然包括历史每一天同一时段的平均通行时间,和当天早些时候的平均通行时间。所以解决方案可以分为两部分,历史预测近左预测

1.名词解释

时间片X:为便于叙述,后文用一个时间片的中点时间来称呼这一时间片。例如,用时间片8:01称呼时间片[8:00-8:02)。

近左时间:对于某一日,我们稍早于某一待测时间段且已知平均通行时间的时间称为近左时间。我们实际使用最近的半小时作为近左时间,即分别将7:30-8:00、14:30-15:00和17:30-18:00作为早高峰、日高峰、晚高峰的近左时间。

2.历史预测

一个路段在相近的时间的平均通行时间相差较小。例如,一个路段在某一天的8:13和8:15分的平均通行时间可能比较接近。因而对于某一路段某一日某一待测时间片,我们用来预测的样本包括历史各日的同一时间片和其附近的(前后三十个)时间片。例如,待测时间片为8:31,则样本为历史各日的8:01、8:03、…、9:01。
  样本的权重,显然应该和它与待测时间片的距离有关,距离越大的,权重应该越小,反之亦然,我们用距离的倒数作为权重;此外,平均通行时间受曜日的影响,因而权重还应该和曜日有关。与待测日同曜日的日子的权重最大,同为工作日或周末的日子的权重要小一些,其馀日子的权重最小,我们将这三种情况的权重分别设为1、0.5和0。 将上述两种权重相乘,即为最终采用的权重。用上述所选样本和所计算出的权重,利用SJH函式做出预测,即为历史预测。

3.近左预测

对于某一路段某一日某一待测时间片,取当日该路段的近左时间的时间片作为样本,取它们与待测时间起点的距离作为权重,利用SJH函式做出预测,即为近左预测

4.融合

简单的加权融合啦。将上面两种预测加权融合。每一个路段的权重不一样,有的路段近左预测的权重大一些,有的小一些。我也没找到什么规律,我也不知道这个跟道路的长度和宽度是不是有关系。
  于是我采用了比较粗暴的办法。我把测试集向前移了30天,然后对于每个路段,以0.05为步长,从0遍历到1,看看哪个权重在这30天表现最好,就对这个路段使用这个权重。就是这样。

5.思维导图总结

2020中国高校计算机大赛·华为云大数据挑战赛热身赛 之「智慧交通预测挑战赛」藍鯨团队解决方案学习整理_第1张图片

参考整理于:蓝鲸团队解决方案

你可能感兴趣的:(数据竞赛,人工智能,机器学习,算法,大数据,数据挖掘)