7月20日,滴滴出行首届全球Di-Tech算法大赛正式落幕,由三名成员组成的中国团队“inferrrr”夺得冠军并收获10万美元奖金,该团队近日接受了CSDN记者的采访,介绍其大赛中使用的方法和比赛心得。
本次大赛赛题为“解决出行行业供需预测问题”:即对于特定城市的特定区域给定前三十分钟订单相关数据(包括数月的实时订单,区域POI, 交通信息,天气数据等),参赛团队通过算法来预测该地区未来十分钟的供需差值。所有参赛选手基于滴滴出行开放的真实出行数据进行算法PK,最终所预测结果与真实情况差距最小者获得本次大赛冠军。
截至目前,滴滴出行平台日均需处理1400万订单,需要分析的数据量达到70TB,路径规划超过90亿次。面对如此庞杂的数据,保证数据分析及相关应用的稳定,实现高频出行下的运力均衡,供需预测是其中的一个关键而复杂的问题。
inferrrr团队由南京理工大学李翔、叶启威、柯国霖三人组成,该团队在特征工程方面具有鲜明创新性,高阶特征较精细,他们对传统的GBDT算法做出改进,并结合业务和产品特性,通过与司机交流等多种方式完善方案。滴滴研究院副院长叶杰平认为,该团队对XGBOOST模型进行了一定的创新改造,在速度和MEMORY上体现出良好效果。
CSDN:在参加这次挑战之前你们都有什么专业背景?
答: 我们都是计算机专业,并从事机器学习/深度学习相关研究的学生。
CSDN:有没有什么领域知识助你们成功?
答: 主要是计算机、机器学习和统计学的知识帮助我们。
CSDN:是什么因素使得你们决定参加这次比赛?
答:一是奖金很吸引人,二是我们对模型有着新的理解,想尝试一下实际应用的效果。
CSDN:能否概括你们采用的方法,你们取胜的那个模型?
答: 我们尝试过传统的逻辑回归模型,最新的深度学习模型,以及最后使用的回归树模型。
“回归/决策树”模型是一个十分易于理解的模型,该模型根据不同的特征对数据进行分类(回归)。在训练过程中,尝试的找到每一次能够对数据进行分类(回归)的最好的特征。并在此基础上,反复迭代,构建多棵树用于最终结果的预测。
我们针对于这次的任务和数据,对于现有的方式有一些改进,使得能够得到更准确的结果。
CSDN:深度学习模型的实际效果如何?
答: 由于数据量还不是非常足够,同时深度学习对特征的对齐处理要求很高,所以在我们的实验中还未能超越决策/回归树模型。
CSDN:在数据方面你们遇到过哪些主要困难?
答: 部分维度的数据因为统计缺陷,使用起来效果不佳。另外数据量还可以进一步加大。
CSDN:在观察数据时你们最重要的发现是什么?
答: 绝大多数乘客的出行,都有固定的模式(时间、地点),同时工作日和周末的模式也有很明显的不同。
CSDN:有没有某一发现让你们感到很惊讶?
答: 比如说在数据分析的过程中有一些让我们感到很难理解的结果,
例如我们发现每天下午三点(不是早晚高峰)存在一个较大的供需差值。通过和司机的讨论,该差值来源于:
CSDN:你们对数据做了什么样的预处理?使用了什么工具?
答: 做了一些哈希的预处理从而提升后续特征的提取速度以及降低内存使用。我们全程使用我们团队为本次比赛开发的工具。
CSDN:进入数据科学领域,你们有什么心得?
答: 一切从数据本身,从业务逻辑出发去分析问题,寻找关联。模型、算法和经验都是工具。