普通人使用AutoML可以做到什么程度

普通人使用AutoML可以做什么

可以在Kaggle排进top1%。

1天时间。

全文阅读大概需要5分钟。

—————————— 分割线 ————————————

你不需要是一名数据科学家或者资深算法工程师,就可以在kaggle比赛拿下top1%。之所以这么说是因为我做到了。我在探智立方实习接近半年,主要的工作是理解客户的业务,协助客户一同完成数据分析和模型训练。只使用过Excel、Tableau,Pandas等工具。

本以为清明节,只能宅家躲避疫情,刷老罗的直播有没有推新品护发素什么的 。没想到,使用AutoML第一次练习Kaggle比赛,居然只用一天跑到了top1%。

Kaggle初体验

我自愿师傅强迫 练手的Kaggle比赛是Predicting Red Hat Business Value(https://www.kaggle.com/c/predicting-red-hat-business-value/overview),一个结束的比赛,这样我师傅 可以马上知道最终排名。最后,模型得分0.99375,排在第9(一共2269只队伍)。在DarwinML2.0平台上,除了鼠标点点点之外,没有使用任何其他工具,更没有写任何一句代码。

这次练习的过程如下:

  • Step 1: 下载数据集(10分钟)

在Kaggle官网注册并下载数据集,包括已经被官方打好了标签的训练集和测试集。

(等时60分钟)

  • Step 2: 自动数据清洗 (5分钟)

在DarwinML2.0上上传数据集。在清洗界面,点击选择特征列和标签列。因为第一次不太了解数据,听从了推荐的清洗建议。

普通人使用AutoML可以做到什么程度_第1张图片
普通人使用AutoML可以做到什么程度_第2张图片
普通人使用AutoML可以做到什么程度_第3张图片
(等时40分钟)

  • Step 3:等待自动训练、评估模型(5分钟)

在DarwinML2.0上新建任务,除了选择刚才的清洗好的训练集外,一路使用默认推荐配置。点击开始任务。

自动设计过程中什么都不用干,等就行了。

晚上刷完一部剧 回来看结果,已经跑完了。
截取的完成界面

(等时7小时)

(注释师傅让我加的 :DarwinML2.0在自动生成模型期间,会先使用进化算法设计数百个候选网络;然后使用基于序列模型方式的优化算法进行超参数搜索;接着会对比较好的模型,使用10折(10个不同采样集合)训练集进行训练;最后,会使用测试集进行评估,生成报告)

  • Step 4: 测试模型,选择最佳模型(5分钟)

吃过晚饭发现跑完了,结果还比较满意,就直接用测试集开始评估模型了。评估结果显示98.26%的准确率,决定使用这个模型用于提交了。就是你了,比卡丘!

普通人使用AutoML可以做到什么程度_第4张图片

(等时13分钟)

  • Step 5: 预测并下载结果(2分钟)

使用Kaggle给的test跑预测,跑完点击预测结果下载。

(等时2分钟)

  • Step 6: 提交到Kaggle(10分钟)

学习了一下Kaggle怎么提交结果。

然后,噔 噔 蹬 蹬 !

top1%!0.99375分

普通人使用AutoML可以做到什么程度_第5张图片

普通人使用AutoML可以做到什么程度_第6张图片

(注:得分为Kaggle官方提供,排名为我们根据当前榜单计算,截止日期为2020年4月6日)

总结

我算是半个数据分析师吧,平时主要使用Excel、Pandas,Tableau等。正在学习一些机器学习的原理和代码,还不太熟练。预计自己手搭最佳的网络,包括训练和调参,可能要花费数周的时间。使用DarwinML,可以在几天的时间内,计算数百种可能的网络,并直接帮助挑选最好的网络用于部署。这样可以马上拿到Kaggle比赛上看结果(0.99375分,top1%),也帮助省下更多的时间,用于理解数据和业务。这对我是一次有意义的练习,让我更好的理解了客户面对ML所处的情况。今后,DarwinML还会持续不断的打磨升级,使它能适应更多的场景和需求,帮助业务人员节省从数据清洗、模型训练、评估到部署的时间;帮助像我一样的数据分析师,更好的理解数据。

广告

DarwinML2.0试用,请访问:
[email protected]

普通人使用AutoML可以做到什么程度_第7张图片

也欢迎小伙伴一同来实习

你可能感兴趣的:(普通人使用AutoML可以做到什么程度)