从2017年起,申请方的数据科学Kaggle项目,在过往大约三年的项目经历中,我们陪伴了150多位同学。
申请方的数据科学Kaggle项目9月班,刚刚斩获了Kaggle比赛1金3银重磅奖牌!在参赛的3614支队伍分别位列top0.22%、top0.64%、top0.85%和top4.1%的好成绩!
我们快来看看同学们在项目中都收获了什么吧?
看看本期学员获奖感言
A同学反馈:
“如果我不参加的话,半年都学不到这些知识和技能,因为老师的课程内容比我自己学习更有针对性”。“感谢申请方提供这个机会,跟老师学了很多知识,包括构建基本模型,以及整个比赛的流程,怎么处理大规模数据,进行高性能计算各方面都有了一些经验。提升了编程和分析数据的能力。取得银牌,很感谢张老师,带队带得好,做了很多的工作。Kaggle要跑模型和算法要有高性能的服务器做支持,学会了怎么搭服务器。”
B同学反馈:
第一次参加Kaggle比赛是自己和同学组队,成绩只有60%多。这次在老师指导下拿到了金牌。
“老师强,给我们的起点很高”
“收获太多啦!之前我对数据处理还有机器学习都不是很理解,通过这次系统学习还有Kaggle实战演练,让我对机器学习和数据科学领域的理解都加深了好多,而且可以更敏锐地寻找数据之间的关系,更好地处理数据。
取得这么好的成绩最主要还是张老师指导得好,每一次都会非常认真地给我们讲解每一个code的用法和原理,还有老师对整个项目的把控也非常好,每个时间段该做什么也安排得非常完美。
家长好评反馈:
“非常感谢申请方给了孩子获奖的机会,非常感谢带队的老师以及Kaggle小组的成员给予孩子的帮助!”
往期学员在项目中收获到的长远影响:
参加一次申请方的数据科学Kaggle项目,能给你带来的助力,除了知识、技能和排名,还有更多惊喜收获,远比想象得多!
助力实习和学术:
学姐谈项目收获:
“Kaggle在industry和academia都非常受认可。首先在工业界,去年找实习时,面试官很详细地询问了我做过的两次Kaggle项目细节。
在暑期三个月的实习中,我感觉工业界做的事情和学术界相差很大,比如现在业界比较受欢迎的几个advanced model,学校都没听说过,但在实习期间manager直接让用;如果不是因为做过Kaggle,项目导师详细讲过并给过code,我的工作表现就不会这么高效和备受称赞。
从学术界来讲,我的几位统计系、商学院的老师对我参加过两次Kaggle比赛这件事情都非常感兴趣,有的想让我跟他们做research,研究Kaggle平台;有的想在学校开一个小组专门做Kaggle。他们很看重跟industry之间的合作,尤其是想要用他们研发的模型/algorithm用在real industry dataset上。”
助力名校offer:
“Kaggle项目的经历让我拿到了梦校offer,即使在入学很久之后,教授还反复提起过我参加Kaggle比赛的经历”
来自导师的干货分享
赛题介绍:Featured:Great Energy Predictor III (建筑物耗能的计量预测)
赛题背景:
在本竞赛中,您将在以下领域开发精确的建筑计量能源使用量模型:冷水表,电表,热水表和蒸汽表。数据来自三年时间内超过1,000座建筑物。通过对这些节能投资进行更好的估算,大型投资者和金融机构将更倾向于在这一领域进行投资,以提高建筑效率。
比赛过程:
第一部分 EDA:
根据数据分析和可视化来深层挖掘信息里的内容,比如发现数据来自不同国家不同城市,时间是世界时间而不是当地时间,重要的天气数据和居住楼层以及面积有很多缺失值,有的楼里存在很多异常值,比如0和太高数值,有的楼只有用电,有的楼有4种能源,这些都为我们后面feature engineering 提供了重要的信息
不同楼id (以100-109号楼为例子),能源使用量随着时间的变化
从图里面可以发现三点:
Meter reading is very low from Jan to April in general but for some building it is not true.
There is a sudden spike in May after which the meter reading goes again to very low.
From mid-June onwards, the meter_reading follows a noisy time series.
第二部分 feature engineering and remove outliner:
首先去掉了异常值,这些数据对model尤其boosting treemodels有很大的影响。其次根据天气信息跟从api下载的天气信息进行比对,对每个site具体的location找到了,这样可以对世界时间进行调整,根据时区和冬夏令时,同时可以生成holiday这个new feature,因为这是来自5个国家的数据。第三填补missing value,用的是每个城市每天的平均温度,如果这天都有缺失,用api下载的天气数据进行弥补。第四跟业内2个教授进行专业咨询,加入日出日落时间,体表温度,湿度,月,日,小时等new feature,对非normal distribution的feature进行box-cox transformation,减少feature schewness对model的影响,大大提高model预测的准确率。第四在model部分,根据加入的new feature是不是降低rmse为标准,对feature进行进一步的删减。最后确定了3套数据放入models里面。
第三部分model optimization:
选取了四个model包括lightgbm,xgboost,catboost,deep learning (keras),分别跑不同数据,以及bayesian调参,neural network architecture的调整,和不同split strategies,选取了最后validrmse最小的将近20model,为下一步ensemble做准备。
第四部分ensemble:
选取提交结果correlation最低的6个model进行average ensemble,weighted average ensemble, pos weight ensemble等4种ensemble方法,最后取average和pos weight作为最终提交。
为什么选择Kaggle ?
团队优势:
2009年由美国博士团队创业起家,依托申请方强大的高等教育咨询和研究团队、数据团队、技术团队开发数据库、测评等备受欢迎的留学产品,累计服务上百万用户,并为数以万计的有留学需求的学生提供了高质量的升学咨询服务,达成了高于预期的升学结果。这十年间持续保持着自己的特色和优势:科学性、资源、团队、数据。
项目优势:
申请方的数据科学Kaggle项目开始于2017年,根植于申请方独家的“定位、诊断+规划、评价+培养”的教育理念,项目导师团队均为藤校CS、DS专业Ph.D.毕业并在业界担任Data Scientists多年,具备丰富的科研和一线经验,项目团队辅导超过150名同学通过系统地提升Python、R和机器学习的技能后参加实战的Kaggle比赛,斩获过最佳Top3%的战绩以及众多的银牌、铜牌等等不低于Top15%的佳绩,并在项目后期有资深规划专家团队指导梦校名企的申请并最终收获无数令人艳羡的Offer。
课程体系化:
精心设计、每一期都在迭代的直播课程,在8周时间,由浅入深,带你从小白成长为数据科学小牛~
2月期Kaggle项目的schedule和课程大纲
成长过程化:
项目由多年带队经验的数据科学家全程悉心授课和指导实战比赛,同时还配备有助教及科研班主任实时给大家辅助和答疑。
项目为期大约4个月,分为三个帮助你个性化提升全方位数据科学能力的阶段:
• 第一个阶段是8周的线上直播课程
从R和Python讲起,逐步深入到不同的模型介绍与应用,比如tree model、卷积神经网络、深度学习等等。每周两次直播课程,课后会有回放链接,方便每个同学在任何时候回看学习;同时还有期中和期末作业,帮助大家更好地掌握知识和技能。
• 第二阶段是分组和比赛实战
直播课程结束后,在分组前,每位同学有机会与导师进行一对一meeting,做竞赛、申请和职业发展的规划。分组后,同学们与老师组队参加实战比赛,为期6周左右;每周都会和老师在线meeting,保障比赛中的清晰思路。老师会承担了大多数的code框架的建立,根据专业知识建立的feature engineering,指导远程server的建立有效提高了效率;参考组员不同水平来进行分配任务,有效管理时间和监督;老师丰富的kaggle经验,能有效解决Kaggle比赛中overfitting这个最常见以及最难解决的问题。同时,老师会投入大量时间和精力,协助学生解决各种问题,在最后选取最终提交上给予了关键性的指导。
• 第三个阶段是比赛结束后的Report撰写、修改与Native Speaker的润色提升。
导师会给每个小组线上授课讲解学术写作的思路和技巧,指导同学们通过小组协作共同完成比赛的Report,最后交由申请方资深的NativeSpeaker文书老师免费润色提升。
结果重量级
申请方独家的数据科学项目,依托于Kaggle比赛平台,由多年带队经验的藤校博士兼资深数据科学家全程悉心授课和指导实战比赛。
在过往三年的项目经历中,我们陪伴150多位同学一起走过了Python、R语言的基础学习,逐步深入到不同的模型介绍与应用(tree model、卷积神经网络、深度学习)等,一起小组协作完成当下数据科学、人工智能最前沿的课题研究报告和Kaggle比赛,并取得了众多的金牌、银牌、铜牌等等不低于Top20%的好成绩。
申请方小助手微信号:a2chloe