2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)

2020中国高校计算机大赛·华为云大数据挑战赛热身赛_交通流量预测赛题分析6.2更新版(完结撒花)

写在前面:大家好!我是练习时长半年的在读本科生数据小白JerryX,各位数据挖掘大佬有什么问题和建议多多指教!!欢迎大家多多点赞,多多评论,多多批评指正!!
【20200602更新】 华为云大数据挑战赛热身赛到此结束,完结撒花啦,我所在的队伍“无能的万金油”最后取得了7/1491 这个还算不错的成绩。感谢两位大佬队友的一路相伴!!
关于这个赛题,部分简单赛题分析在我的CSDN博客和队友的Blog上有所介绍。另外,我们队伍的代码也已经在github上开源啦,具体的细节欢迎大家去github 看看哈,如果觉得有点收获,也欢迎大家STAR一波哈!谢谢大家一路以来的支持!
在接下来更加激烈的 中国高校计算机大赛 正式赛 里,我们也会持续分享比赛的一些心得和思路的,欢迎大家持续关注!

在这里插入图片描述
更新的一张拓扑结构及地理位置示意图!!!
画图不易,猪猪叹气 ,觉得不错拿走不谢!欢迎点赞关注!)
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第1张图片

0. 赛题介绍

赛题背景
随着电子信息和移动通信技术高速发展和不断融合,人工智能在各个领域都相继取得了巨大的突破,城市智能体也应运而生,而城市交通又是城市智能体的核心。交通流量数据既是城市交通中的基础数据,又是反应交通状况的重要指标之一,准确预测交通流量对城市交通具有重大意义。本题以交通流量预测为目标,邀请各个队伍以历史交通流量数据建立对应的算法模型,预测目标流量数据,通过预测值和真实值之间的对比得到预测准确率,以此来评估各队伍所提交的预测算法。

大赛官网链接

赛题说明
本次比赛任务是利用历史数据结合地图信息,预测五和张衡交叉路口未来一周周一(2019年2月11日)和周四(2019年2月14日)两天的5:00-21:00通过wuhe_zhangheng路口4个方向的车流量总和
要求模型输出格式如下: {“data”:{“resp_data”:{“wuhe_zhangheng”:[1,4,5,6,4…]}}}从5:00开始每5min的预测数据,第一个数据为5:00-5:05的流量值,最后一个数据为20:55-21:00。两天的数据按时间先后放在一起,总共有384个数据。
小提示:如果不考虑天气周边活动节假日等因素,预测结果可能不准确哦。

数据说明
本次比赛提供4周(2019.1.12 – 2019.2.8)深圳龙岗区坂田街道交通流量历史数据。车流数据格式如下:
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第2张图片
其中,time为上述格式时间字符串,cross为路口名,direction为车流起始方向,leftFlow是左转车流,straightFlow是直行车流。
说明:
(1) 十字路口包含四个方向车流数据,此处未全部列出。
(2) 路口名称分别为:五和路、张衡路、稼先路、隆平路、冲之大道。可以通过但不限于百度地图等地图软件获取地图路网信息。
(3) 因为右转车流不受信号灯控制,因此未做统计。

!获取地图路网信息友情链接:五和大道张衡路路口百度地图

评分标准
第一部分(分类问题)
分类问题评价标准:
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第3张图片

预测的评价是通过每一个5min预测车流和真实通过车流对比,看看趋势是否一致(比如10月19日的5:00到5:05的真实车流是4,10月20日的5:00到5:05的真实车流为5,那么只要车流预测值大于4,就得100分,最后得分为所有得分求加权平均(权重为该时间段所在小时的车流量占16小时总车流的比重))。

第二部分(回归问题)
回归问题评价标准:
在这里插入图片描述

预测的评价还是通过每一个5min 预测车流和真实通过车流通过grade公式计算最后得分,加权细则与第一部分相同:其中wi为权重,xj为真实车流数据,xj拔为预测车流数据,ε为e-9。

最后将两部分分数做归一化处理,第一部分占比40%,第二部分占比60%。

============================ 我是分割线======================================
下面我们在赛题数据还没有出来之前,先从地图角度出发分析一下有什么地图信息可以挖掘一下吧!!

1. 预测目标地理位置可视化:五和张衡交叉路口

所谓“知己知彼,百战百胜”,我们先来看看我们的目标预测位置有什么地理特点吧!
先看看局部的地理位置:
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第4张图片
再来看看整体的地理位置:2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第5张图片
震惊!!原来是华为的老巢!!那么朝九晚五必然是我们要考虑到的一个重要的特征啦!

2. 流量与时间关系地理位置初步可视化分析

借助百度地图的流量预测功能,我们可以直观的看到一周7天不同时间段的基本的车流量情况。下面我们进一步初步分析,可以得到两个结论:
1.任老板的公司不仅朝九晚五,竟然还有 十点的狂欢(再一次震惊!)可见下面三张图:
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第6张图片

2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第7张图片

3.简单空间拓扑结构信息抽取思路介绍

看到地图,我们就能够想到要建图抽取特征啦!我们在这道题目里面可以把道路看成边,路口看成结点,组织成一个简单的图结构

2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第8张图片

通过百度地图好用的测距功能,我们就可以很方便地抽取出来空间结构信息,以便后续进一步挖掘不同路口结点之间的流量关系啦!

2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第9张图片
我们可以使用邻接矩阵抽特征的方式,将拓扑图结构的空间相关性在特征层建模出来,使得时序神经网络模型/传统机器学习方法也能够处理复杂图结构的空间相关性问题。

4. 训练集与测试集时间对应日历表分析

2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第10张图片
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第11张图片
我们的训练集对应时间是从1月12日到2月8日,其中通过观察训练集所给时间的日历信息,可知这一段时间涉及了2019年的春节假期。而测试集所需要预测的2月11日与2月14日是春节长假后的两日:其中11号是春节后的第一天的工作日,而14号情人节又是个节假日。以上几点或许会给我们对于车流量的预测会引入不同方面的影响,大家可以留意一下哦!

5. 竞赛相关准备信息

4.1 获取竞赛数据集方法
1.从OBS拷贝竞赛数据集,首先登录OBS管理控制台,在华北-北京四创建您的OBS桶
2.登录ModelArts管理控制台,在华北-北京四创建Notebook,将如下代码中my_bucket/my_folder替换成您自己的OBS桶
3. 最后运行代码,将竞赛数据集拷贝至您的OBS桶中。

import moxing as mox
mox.file.copy_parallel('s3://obs-bdc2020-bj4/traffic_flow_dataset','s3://my_bucket/my_folder')
print('Copy procedure is completed !')


4.2 模型规范

  1. 所提交的模型必须请满足赛题说明中的模型输出格式,且要符合ModelArts模型包规范。
  2. 评分系统使用ModelArts 批量服务加载参赛者所提交的模型,批量服务的输入目录中为一个batchin.csv 文件,文件内容为预测时间(2019-2-11,2019-2-14)。建议参赛者在提交模型之前,先通过ModelArts的“批量服务”验证模型的可用性和准确性
  3. ModelArts 模型管理中的模型创建后,不会自动更新,如果您有了更好的模型需要提交判分,要重新导入模型,然后再将重新导入的模型提交判分。

说明:详细操作请查看大赛官网交流论坛的相关文档。

4.3 提交说明
所有参赛者需使用华为云一站式AI开发平台ModelArts来开发模型,且将模型部署为在线服务或批量服务验证其正确性。确认模型输出无误后,在ModelArts平台上将开发好的模型提交判分,最后在竞赛平台上查看分数及排名。
提交方法:
(1) 在ModelArts左侧导航栏中选择“模型管理>模型”,单击模型名称左侧“∨”,然后单击页面右侧操作栏中的“发布>参赛发布”
在这里插入图片描述
(2) 在弹出的**“参赛模型提交”对话框中,选择比赛项目**、比赛阶段,然后单击确定。点击确定后,即成功提交模型判分。在如下界面中可点击“现在加入”,也可以点击“以后再说”或直接点击右上角关掉该对话框。
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第12张图片

说明:模型提交判分后,需等待一定时间判分系统进行判分需一定时间,运行时长与选手提交的模型有关),判分系统完成判分后,可在竞赛平台“提交作品”中查看得分,其中“提交作品”页面需报名比赛后才会显示。

评分说明
(1) 本次比赛榜提交时间段为:4月17日10:00 - 5月22日14:00。
(2) 每个团队每天有3次评测机会,所提交的模型得分可在大赛平台页面**“提交作品”中查询**。
(3) 排行榜每6个小时刷新一次。

5. 热身赛奖项(新)

大赛将提供100 元华为云资源代金券,成功报名的参赛者可点击页面上方“领
取”获得代金券(每位参赛者仅可领取一次)。另外,热身赛将设置以下奖项和奖品
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第13张图片
下面上热身赛奖品实物图!!!心动了吗?加油吧![手动狗头]
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第14张图片

6. 评价指标详解(新)

6. 1 分类指标详解
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第15张图片
6. 2 回归指标详解
2020中国高校计算机大赛·华为云大数据挑战赛热身赛——交通流量预测赛题分析(Rank7 完结撒花)_第16张图片6.3 总评价指标:
在这里插入图片描述

友情链接:
大赛官网交流论坛
ModelArts学习资料及案例
热身赛赛题Baseline
代金券及ModelArts体验规格使用【非常重要】

感谢大家的耐心阅读,有什么建议欢迎大家在评论里提出来哦~~
这篇文章会持续更新,记录自己的一点心得,分享一些好的paper~
也请大家多多指教!!希望能和大家一同学习进步!!

你可能感兴趣的:(数据竞赛)