作者:东写西读
链接:https://www.zhihu.com/question/342295029/answer/846359794
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
也许你已经手撕了好几遍《数学统计方法》、《西瓜书》、《机器学习实战》等经典书籍,熟练掌握了各种常用的机器学习算法的原理和推导,却不知道怎么应用于实际场景中;也许你正在入门机器学习,但每次学不过三分钟就已经昏昏欲睡,从此你发现了一个极好的助眠方法。
无论你属于哪种情况,都仅仅可以定位为机器学习初学者。
因为学习大数据分析和学习程序开发不一样之处在于,如果你学习小程序开发,完全可以结合自己的实际做一个实用的小程序、如果你学后端开发,购买一个十元每个月的云服务器就可以搭建自己的专属服务器。
而大数据分析/机器学习本质上就是一门如何让数据发挥作用的学科,需要分析大量的数据来增加实践经验,否则就是空中楼阁。单纯的闭门造车并不能成为一个合格的大数据分析师/机器学习算法工程师。宝剑锋从磨砺出,你还需要在实践中打磨自己的技术,将理论与实践相结合。
日常生活中,个人很难产生大量数据用来练手,所幸的是,目前网上有好多数据挖掘竞赛平台,在这里,你可以免费获得大量的数据,如果能调教出一个排名靠前的模型,甚至可以拿到奖金并写在自己的简历上成为求职的砝码;在这里,你可以与全国乃至全球的算法高手比拼、交流。宝剑锋从磨砺出,多在这些平台上和高手切磋,才是精进自己武艺的绝妙之选。
下面,就介绍几个机器学习领域最有名的平台及其各自的特点:
链接:天池大数据众智平台-阿里云天池
阿里天池是我最推荐的一个平台,首先,作为国内互联网梯队的老大哥,阿里的算法实力和业内影响力当然也是国内首屈一指的。其次,依托于阿里云创新中心,在这里进行中的比赛可能是国内最多的。
天池大数据竞赛平台已经成为国内算法大佬聚集场所,但是大多数比赛与实际业务场景结合非常紧密,再加上高手云集,所以想在比赛中获得好的成绩难度还是比较大的。
除了参加进行中的比赛,你也可以使用一些阿里提供的免费计算资源来实现自己的想法。
错过了自己想参加的比赛?不用急,在“技术圈”这个栏目里,有很多历届比赛中积累下的丰富资料和经验供你学习。不过很遗憾的是,很多已经结束的比赛下载不了数据集来自己来实践一下(我观察到包括kaggle等平台也是这个规定)。
在“AI学习”一览里,还有很多免费的公开课,包括一些大赛优秀团队分享、比赛决赛答辩会的现场录像以及一些比较系统的课程。
点击页面底部的合作方机构,也可以直接跳转到对应的合作方在天池平台上发布的免费课程。
值得一提的是,在天池课堂里,还有一些比较系统的入门课程。
如果你最近在研究《机器学习实战》这本书,课堂里的《机器学习实战》导读系列可以帮助你更好的理解这本书。
链接:Kaggle大赛
之前写过一篇入门进阶文章,详情参见: 本科生晋升GM记录: Kaggle比赛进阶技巧分享
Kaggle大赛的名气自不必说,Kaggle 比赛的奖金非常丰厚,都是用dollar来计量的,一般前三名均可以获得奖金。重金之下必有勇父,所以竞争还是很激烈的,随之而来的,里边积淀的历届比赛精华也很多。
而且比赛按照难易分为以下几个档次:
◆ Featured:商业或科研难题,奖金一般较为丰厚;
◆ Recruitment:比赛的奖励为面试机会;
◆ Research:科研和学术性较强的比赛,也会有一定的奖金,一般需要较强的领域和专业知识;
◆ Playground:提供一些公开的数据集用于尝试模型和算法;
◆ Getting Started:提供一些简单的任务用于熟悉平台和比赛;
◆ In Class:用于课堂项目作业或者考试。
你可以根据自己的状况选择,比如说著名的“泰坦尼克号生存预测”就是kaggle上比较经典的入门赛。
但kaggle平台虽说内容丰富,但毕竟是国外的网站,网页加载速度比较慢,而且没有中文页面,对于英语基础比较差的童鞋来说极其不友好。
另外,在使用kaggle的过程中,一定不能错过kaggle官方的交流社区,一些比赛的冠军团队一般会把思路和代码分享在这里。他们两的作用,就像咖啡和咖啡伴侣、课本和练习册,一个提供问题,一个提供参考答案与赛题交流。kaggle官方交流社区blog.kaggle.com
链接:KDD 2019 | KDD Cup 2019
KDD-cup是目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛,被外界誉为大数据领域的奥运会。
KDD本来就是一个数据挖掘相关的会议,成绩优秀还可以顺带产出论文,所以很多高校和企业的实验室会参加。xgb的发明者陈天奇博士就是KDDCup12的冠军。所以说这个比赛是真正的全球诸神打架,难度可想而知,不太适合初学者参加。
同Kaggle一样,KDD也存在着语言障碍和加载速度慢等问题。
链接:DC竞赛-大数据竞赛平台
可以看到这些比赛奖金也是挺诱人的。
当然,在“文献资料”区也提供了一些往届比赛又有团队的分享资料,更重要的是,如果你将要面临找工作的头疼问题,这个平台还提供了一些面试题。这些面试题都是由DataCastle从百度、腾讯等企业的网络公开招聘题中精选出来的,而且附上了详细解析和解题思路,非常适合数据分析岗位面试前的准备。
另外,DataCastle旗下还有一个DC学院,提供一些付费的课程以及少量免费课程。至于付费课程的价格嘛,emmm……,我是觉得有点感人,有需求的土豪请随意。
链接:和鲸社区 - Kesci.com
提供了一个在线计算平台K-Lab,
这个平台的特点就是整体比赛难度较低,相应地奖金较少(咱也不是冲着拿奖去的是吧),很多比赛都是由高校组织,参与者大多都是在校学生。这是我当时参加的一个计算机视觉类的比赛,因为当时放假,归心似箭就回家去了。通过远程控制实验室的服务器进行远程调试,还经常断线,所以随便做了三五天熟悉了一下流程,简单地提交了几次就放弃了,达成了我们的队名“骚一波就走”的既定方针。就这样也差点闯入复赛,可见比赛难度不高,所以非常推荐新手来这里练手。
如果你没有那么多精力,或者官网暂时没有你擅长领域的比赛,也可以点击“数据集”,下载公开的数据集来练手。
但是这些数据集没有好的项目实践
如果你创意能力强,对大数据的应用有足够的想法,还可以参加赛题征集任务。
当然,如果你是一个初学者,只是想看看数据分析的流程,这里这里也有一些教程和项目,都是基于jupyter的,可以一边学习一边实践。整体看了一下,教程偏入门,对于初学者比较友好。
数据挖掘比赛其实是一个非常耗费精力的比赛,在实践过程中,选择以上提到的一个到两个平台重点研究就足够了,下面再附上几个其他平台作为补充,供大家参考。
CCF指定专业大数据及人工智能竞赛平台-DataFountain
主要用来参加CCF大赛。CCF是由中国计算机学会主办,高校共同发起的计算机高水平大学生竞赛。主要面向大学生群体。里边好多人工智能大赛主要也是由计算机学会发起。
腾讯广告算法大赛
每年上半年举办,好处是非参赛时间也可以看看往届的赛题和数据集来研究研究。
京东旗下的大数据竞赛平台,上边公布的比赛较少。但是在该平台上整理了优秀团队的分享公开课,很好地做到了大赛的知识积淀,有空可以去学习一下。
链接:JDATA智汇平台
最后,做一个各平台链接汇总:
另外,针对机器学习入门学习者,我还写了一篇利用scikit-learn预置数据集来入门机器学习的文章。感兴趣的可以看看。
点墨留香:机器学习超详细实践攻略(1):细说scikit-learn里那些有趣又有用的彩蛋级入门数据集
补充: 谷歌最近出了一个数据集搜索引擎,绝对是人工智能学习者寻找数据集的强大工具,对本篇回答里所有的寻找数据集的方法绝对是降维打击,详情请看:
东写西读:谷歌强势出手,人工智能学习者有福了,从此数据资产跨入搜索时代!
以后也会持续补充更新,欢迎点赞转发收藏三连走起~
推荐文章
[1] 逻辑回归(Logistic Regression)原理详解及Python实现
[2] 机器学习算法之——卷积神经网络(CNN)原理讲解
[3] 卷积神经网络中十大拍案叫绝的操作
[4] 表情识别FER | 基于深度学习的人脸表情识别系统(Keras)
[5] 表情识别FER | 基于CNN分类的表情识别研究
[6] 机器学习算法之——决策树模型(Decision Tree Model)算法讲解及Python实现
[7] 机器学习算法之——K最近邻(k-Nearest Neighbor,KNN)分类算法原理讲解
[8] 机器学习算法之——K最近邻(k-Nearest Neighbor,KNN)算法Python实现
[9] 隐马尔可夫模型(HMM)原理详解及Python实现
传送门
关注微信公众号:迈微电子研发社,回复 “深度学习实用教程” 获取Github开源项目,回复“手写字识别”获取本文的完整代码。
知识星球:社群旨在分享AI算法岗的秋招/春招准备攻略(含刷题)、面经和内推机会、学习路线、知识题库等。