机器学习需要的大量数据集从哪里找?

作者:东写西读
链接:https://www.zhihu.com/question/342295029/answer/846359794
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

机器学习需要的大量数据集从哪里找?

  • 一、阿里天池
  • 二、kaggle
  • 三、KDD-cup
  • 四、DataCastle
  • 五、科赛(Kesci)
    • 1. 比赛项目
    • 2. 数据集
    • 3. 任务
    • 4. 教程
  • 六、其他
    • 1. DataFountain
    • 2. 腾讯广告算法大赛
    • 3. JDATA智汇平台

也许你已经手撕了好几遍《数学统计方法》、《西瓜书》、《机器学习实战》等经典书籍,熟练掌握了各种常用的机器学习算法的原理和推导,却不知道怎么应用于实际场景中;也许你正在入门机器学习,但每次学不过三分钟就已经昏昏欲睡,从此你发现了一个极好的助眠方法。

无论你属于哪种情况,都仅仅可以定位为机器学习初学者。

因为学习大数据分析和学习程序开发不一样之处在于,如果你学习小程序开发,完全可以结合自己的实际做一个实用的小程序、如果你学后端开发,购买一个十元每个月的云服务器就可以搭建自己的专属服务器。

而大数据分析/机器学习本质上就是一门如何让数据发挥作用的学科,需要分析大量的数据来增加实践经验,否则就是空中楼阁。单纯的闭门造车并不能成为一个合格的大数据分析师/机器学习算法工程师。宝剑锋从磨砺出,你还需要在实践中打磨自己的技术,将理论与实践相结合。

日常生活中,个人很难产生大量数据用来练手,所幸的是,目前网上有好多数据挖掘竞赛平台,在这里,你可以免费获得大量的数据,如果能调教出一个排名靠前的模型,甚至可以拿到奖金并写在自己的简历上成为求职的砝码;在这里,你可以与全国乃至全球的算法高手比拼、交流。宝剑锋从磨砺出,多在这些平台上和高手切磋,才是精进自己武艺的绝妙之选。

下面,就介绍几个机器学习领域最有名的平台及其各自的特点:

一、阿里天池

链接:天池大数据众智平台-阿里云天池

阿里天池是我最推荐的一个平台,首先,作为国内互联网梯队的老大哥,阿里的算法实力和业内影响力当然也是国内首屈一指的。其次,依托于阿里云创新中心,在这里进行中的比赛可能是国内最多的。

机器学习需要的大量数据集从哪里找?_第1张图片

天池大数据竞赛平台已经成为国内算法大佬聚集场所,但是大多数比赛与实际业务场景结合非常紧密,再加上高手云集,所以想在比赛中获得好的成绩难度还是比较大的。

机器学习需要的大量数据集从哪里找?_第2张图片
比赛分类,看看这霸气的分类:诸神之战

除了参加进行中的比赛,你也可以使用一些阿里提供的免费计算资源来实现自己的想法。

错过了自己想参加的比赛?不用急,在“技术圈”这个栏目里,有很多历届比赛中积累下的丰富资料和经验供你学习。不过很遗憾的是,很多已经结束的比赛下载不了数据集来自己来实践一下(我观察到包括kaggle等平台也是这个规定)。

机器学习需要的大量数据集从哪里找?_第3张图片

在“AI学习”一览里,还有很多免费的公开课,包括一些大赛优秀团队分享、比赛决赛答辩会的现场录像以及一些比较系统的课程。

机器学习需要的大量数据集从哪里找?_第4张图片
知识树
机器学习需要的大量数据集从哪里找?_第5张图片

点击页面底部的合作方机构,也可以直接跳转到对应的合作方在天池平台上发布的免费课程。

机器学习需要的大量数据集从哪里找?_第6张图片

值得一提的是,在天池课堂里,还有一些比较系统的入门课程。

如果你最近在研究《机器学习实战》这本书,课堂里的《机器学习实战》导读系列可以帮助你更好的理解这本书。

二、kaggle

链接:Kaggle大赛​

之前写过一篇入门进阶文章,详情参见: 本科生晋升GM记录: Kaggle比赛进阶技巧分享

Kaggle大赛的名气自不必说,Kaggle 比赛的奖金非常丰厚,都是用dollar来计量的,一般前三名均可以获得奖金。重金之下必有勇父,所以竞争还是很激烈的,随之而来的,里边积淀的历届比赛精华也很多。

而且比赛按照难易分为以下几个档次:

◆ Featured:商业或科研难题,奖金一般较为丰厚;
◆ Recruitment:比赛的奖励为面试机会;
◆ Research:科研和学术性较强的比赛,也会有一定的奖金,一般需要较强的领域和专业知识;
◆ Playground:提供一些公开的数据集用于尝试模型和算法;
◆ Getting Started:提供一些简单的任务用于熟悉平台和比赛;
◆ In Class:用于课堂项目作业或者考试。

你可以根据自己的状况选择,比如说著名的“泰坦尼克号生存预测”就是kaggle上比较经典的入门赛。

但kaggle平台虽说内容丰富,但毕竟是国外的网站,网页加载速度比较慢,而且没有中文页面,对于英语基础比较差的童鞋来说极其不友好。

另外,在使用kaggle的过程中,一定不能错过kaggle官方的交流社区,一些比赛的冠军团队一般会把思路和代码分享在这里。他们两的作用,就像咖啡和咖啡伴侣、课本和练习册,一个提供问题,一个提供参考答案与赛题交流。kaggle官方交流社区​blog.kaggle.com

三、KDD-cup

链接:KDD 2019 | KDD Cup 2019​

KDD-cup是目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛,被外界誉为大数据领域的奥运会。

KDD本来就是一个数据挖掘相关的会议,成绩优秀还可以顺带产出论文,所以很多高校和企业的实验室会参加。xgb的发明者陈天奇博士就是KDDCup12的冠军。所以说这个比赛是真正的全球诸神打架,难度可想而知,不太适合初学者参加。

同Kaggle一样,KDD也存在着语言障碍和加载速度慢等问题。

四、DataCastle

链接:DC竞赛-大数据竞赛平台​

可以看到这些比赛奖金也是挺诱人的。

机器学习需要的大量数据集从哪里找?_第7张图片

当然,在“文献资料”区也提供了一些往届比赛又有团队的分享资料,更重要的是,如果你将要面临找工作的头疼问题,这个平台还提供了一些面试题。这些面试题都是由DataCastle从百度、腾讯等企业的网络公开招聘题中精选出来的,而且附上了详细解析和解题思路,非常适合数据分析岗位面试前的准备。

机器学习需要的大量数据集从哪里找?_第8张图片

另外,DataCastle旗下还有一个DC学院,提供一些付费的课程以及少量免费课程。至于付费课程的价格嘛,emmm……,我是觉得有点感人,有需求的土豪请随意。

机器学习需要的大量数据集从哪里找?_第9张图片

五、科赛(Kesci)

链接:和鲸社区 - Kesci.com

提供了一个在线计算平台K-Lab,

1. 比赛项目

机器学习需要的大量数据集从哪里找?_第10张图片

这个平台的特点就是整体比赛难度较低,相应地奖金较少(咱也不是冲着拿奖去的是吧),很多比赛都是由高校组织,参与者大多都是在校学生。这是我当时参加的一个计算机视觉类的比赛,因为当时放假,归心似箭就回家去了。通过远程控制实验室的服务器进行远程调试,还经常断线,所以随便做了三五天熟悉了一下流程,简单地提交了几次就放弃了,达成了我们的队名“骚一波就走”的既定方针。就这样也差点闯入复赛,可见比赛难度不高,所以非常推荐新手来这里练手。

机器学习需要的大量数据集从哪里找?_第11张图片

2. 数据集

如果你没有那么多精力,或者官网暂时没有你擅长领域的比赛,也可以点击“数据集”,下载公开的数据集来练手。

机器学习需要的大量数据集从哪里找?_第12张图片

但是这些数据集没有好的项目实践

3. 任务

如果你创意能力强,对大数据的应用有足够的想法,还可以参加赛题征集任务。

机器学习需要的大量数据集从哪里找?_第13张图片

4. 教程

当然,如果你是一个初学者,只是想看看数据分析的流程,这里这里也有一些教程和项目,都是基于jupyter的,可以一边学习一边实践。整体看了一下,教程偏入门,对于初学者比较友好。

机器学习需要的大量数据集从哪里找?_第14张图片

项目一览

机器学习需要的大量数据集从哪里找?_第15张图片

专栏一览

六、其他

数据挖掘比赛其实是一个非常耗费精力的比赛,在实践过程中,选择以上提到的一个到两个平台重点研究就足够了,下面再附上几个其他平台作为补充,供大家参考。

1. DataFountain

CCF指定专业大数据及人工智能竞赛平台-DataFountain

主要用来参加CCF大赛。CCF是由中国计算机学会主办,高校共同发起的计算机高水平大学生竞赛。主要面向大学生群体。里边好多人工智能大赛主要也是由计算机学会发起。

2. 腾讯广告算法大赛

腾讯广告算法大赛​

每年上半年举办,好处是非参赛时间也可以看看往届的赛题和数据集来研究研究。

机器学习需要的大量数据集从哪里找?_第16张图片

3. JDATA智汇平台

京东旗下的大数据竞赛平台,上边公布的比赛较少。但是在该平台上整理了优秀团队的分享公开课,很好地做到了大赛的知识积淀,有空可以去学习一下。

链接:JDATA智汇平台​

机器学习需要的大量数据集从哪里找?_第17张图片

最后,做一个各平台链接汇总:

  1. 阿里天池:天池大数据众智平台-阿里云天池
  2. kaggle:Your Home for Data Science
  3. KDD-CUP:KDD 2019 | KDD Cup 2019
  4. DC竞赛:DC竞赛-大数据竞赛平台
  5. Kesci:和鲸社区 - Kesci.com
  6. Datafountain:CCF指定专业大数据及人工智能竞赛平台-DataFountain
  7. 腾讯广告算法大赛:腾讯广告算法大赛
  8. JDATA智汇平台:JDATA智汇平台

另外,针对机器学习入门学习者,我还写了一篇利用scikit-learn预置数据集来入门机器学习的文章。感兴趣的可以看看。

点墨留香:机器学习超详细实践攻略(1):细说scikit-learn里那些有趣又有用的彩蛋级入门数据集

补充: 谷歌最近出了一个数据集搜索引擎,绝对是人工智能学习者寻找数据集的强大工具,对本篇回答里所有的寻找数据集的方法绝对是降维打击,详情请看:

东写西读:谷歌强势出手,人工智能学习者有福了,从此数据资产跨入搜索时代!

以后也会持续补充更新,欢迎点赞转发收藏三连走起~


推荐文章

[1] 逻辑回归(Logistic Regression)原理详解及Python实现
[2] 机器学习算法之——卷积神经网络(CNN)原理讲解
[3] 卷积神经网络中十大拍案叫绝的操作
[4] 表情识别FER | 基于深度学习的人脸表情识别系统(Keras)
[5] 表情识别FER | 基于CNN分类的表情识别研究
[6] 机器学习算法之——决策树模型(Decision Tree Model)算法讲解及Python实现
[7] 机器学习算法之——K最近邻(k-Nearest Neighbor,KNN)分类算法原理讲解
[8] 机器学习算法之——K最近邻(k-Nearest Neighbor,KNN)算法Python实现
[9] 隐马尔可夫模型(HMM)原理详解及Python实现

传送门
在这里插入图片描述

关注微信公众号:迈微电子研发社,回复 “深度学习实用教程” 获取Github开源项目,回复“手写字识别”获取本文的完整代码。

机器学习需要的大量数据集从哪里找?_第18张图片

△微信扫一扫关注「迈微电子研发社」公众号

知识星球:社群旨在分享AI算法岗的秋招/春招准备攻略(含刷题)、面经和内推机会、学习路线、知识题库等。

机器学习需要的大量数据集从哪里找?_第19张图片

△扫码加入「迈微电子研发社」学习辅导群

在这里插入图片描述

你可能感兴趣的:(人工智能,数据挖掘,编程语言,机器学习,大数据)