2019Kaggle最新DS&ML报告:你大爷还是你大爷!

标星★置顶公众号     爱你们   

编译:1+1=6

来自:Kaggle

近期原创文章:

♥ 5种机器学习算法在预测股价的应用(代码+数据)

♥ Two Sigma用新闻来预测股价走势,带你吊打Kaggle

 2万字干货:利用深度学习最新前沿预测股价走势

♥ 机器学习在量化金融领域的误用!

♥ 基于RNN和LSTM的股市预测方法

♥ 如何鉴别那些用深度学习预测股价的花哨模型?

♥ 优化强化学习Q-learning算法进行股市

♥ WorldQuant 101 Alpha、国泰君安 191 Alpha

♥ 基于回声状态网络预测股票价格(附代码)

♥ 计量经济学应用投资失败的7个原因

♥ 配对交易千千万,强化学习最NB!(文档+代码)

♥ 关于高盛在Github开源背后的真相!

♥ 新一代量化带货王诞生!Oh My God!

♥ 独家!关于定量/交易求职分享(附真实试题)

♥ Quant们的身份危机!

♥ AQR最新研究 | 机器能“学习”金融吗

前言

近日,Kaggle发布了名为《2019Kaggle数据科学和机器学习概要》的报告。此报告为Kaggle对其社区的第三次年度调查,调查内容来自19717个Kaggle成员的反馈。里面有很多有意思的内容,快让我们一睹为快吧!注:报告中所有的货币金额都是美元。

先总结,再分析

1、数据科学大部分是男性,这种不平衡与前几年没有变化。

2、超过一半的数据科学家年龄不到30岁。

3、不出所料,数据科学家都受过高等教育,超过一半的人获得了高等学位。

4、超过一半的受访者拥有少于五年的编程经验,甚至一些机器学习经验。

5、美国数据科学家的薪水远远超过其他国家。

6、大多数数据科学家在小型或大型公司中工作。超过一半的公司是机器学习新手。

7、本地开发环境是数据科学家执行其工作最常见的方式。

8、近四分之一的专业数据科学家还没有采用云计算。

9、TensorFlow和Keras仍然是占主导地位的深度学习框架。

10、美国在机器学习和云计算产品上的投入远远超过世界其他国家。

11、常规的算法,如线性回归和决策树,虽然不如RNN、CNN等复杂和强大,但它们仍然占主导地位。

12、与去年相比,谷歌Cloud AutoML的使用量几乎翻了一番。

1、数据科学家简介

▍性别

数据科学家的性别差异仍然很大,84%的用户是男性。美国的性别差距略小,为79%,而日本略高,为90%。无论在哪个地区,结果都是相对一致的。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第1张图片

▍年龄

千禧一代主导着数据科学,25-29岁是最常见的年龄段。在印度,这个数字甚至更年轻,41%的人是19-24岁。然而,各个年龄段的成年人都在探索数据科学,所有受访者中有18%的人年龄在40岁或40岁以上。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第2张图片

▍国家

来自美国和印度的受访者数量最多。其次是巴西和俄罗斯。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第3张图片

教育

▍高等教育

仅就在职数据科学家而言,超过70%的受访者拥有学士以上学位,其中大多数(约52%)拥有硕士学位。虽然19%的受访者拥有博士学位,但这一比例因国家而异。德国拥有博士学位的受访者比例最高,为38%,而印度的比例最低,不到5%。

超过99.5%的数据科学家在高中毕业后继续深造。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第4张图片

▍终身学习

超过70%的数据科学家说他们通过阅读博客来学习。使用Kaggle论坛在Kaggle用户中也很受欢迎,超过65%的用户使用该论坛。还有许多其他的回答,但有一件事是肯定的:绝大多数数据科学家仍在学习;只有约2%的受访者表示他们不使用任何媒体来提高他们的数据科学技能。

学无止境,不断充电!

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第5张图片

数据科学和机器学习经验

全球数据科学家由同等数量的新手和经验丰富的老手组成。最常见的(33%)是有3-5年的工作经验。大约三分之一的人工作经验少于3年,另外三分之一的人工作经验超过5年。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第6张图片

花在学习代码上的时间

机器学习的正态分布较少。虽然大多数人有超过一年的经验,但35%的人仍处于使用机器学习的头两年。大约6%的人有超过10年的机器学习经验。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第7张图片

花在学习机器学习上的时间

就业

▍Pay

我们询问了数据科学家关于他们的工资、雇主类型以及他们如何度过这段时光的。结果因国家而异,特别是在Pay方面。

美国数据科学家的平均工资高于其他国家,其次是德国和日本。另一方面,印度的工资较低,近20%的印度受访者年收入不到1000美元。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第8张图片

那些在美国被雇佣为数据科学家的人属于我们调查中使用的最高等级的范围。大多数人的收入在10万到20万美元之间。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第9张图片

时间

▍时间花费

作为一名数据科学家,其最常见的职责是什么? 与复杂的机器学习相比,超过75%的人建议理解和分析数据是最常见的。也许这就解释了为什么Kagglers能够在每次新比赛的第一个小时内创造出如此多的EDA内核!超过一半的受访者提到了原型设计和机器学习实验。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第10张图片

▍使用数据科学的公司

我们向数据科学家询问了他们工作过公司的更多信息:员工人数、团队规模,以及这些公司是如何采用机器学习实践的。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第11张图片

公司规模(员工人数)

▍数据科学团队

数据科学团队的规模各不相同,但有25%的团队成员在20人以上。结合较低的范围,我们看到超过40%的人在少于5人的团队中工作。

在目前被雇佣为数据科学家的用户中,4%的人表示他们的团队规模为零。这些受访者要么没有把自己算在内,要么数据科学只是他们职责的一部分。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第12张图片

数据科学团队(员工人数)

▍企业机器学习的应用

结合其他问题,机器学习正变得越来越流行。超过30%的用户说他们公司最近开始使用机器学习方法,17%的用户说他们正在探索机器学习方法。自2018年以来,在拥有完善机器学习方法的公司工作的数据科学家比例增加了11%。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第13张图片

▍支出

从全球来看,多数受访者(23%)根本没有把钱花在机器学习和云计算产品上。

在美国,情况就不同了,多数人(24%)在过去五年里在产品上花费了超过10万美元。只有34%的人表示自己的消费低于1000美元,而全球这一比例接近43%。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第14张图片

过去5年企业支出

技术

▍开发环境

最常见的分析工具是本地开发环境。其中Jupyter- Lab和它的offshoots是最常见的,83%的数据科学家经常使用它。这也在情理之中哈!

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第15张图片

▍方法和算法

受访者觉得算法越简单越好!

天猫双十一的销售额一个三次多项式就解决了

多么返璞归真!

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第16张图片

天猫双十一销售额三次多项式拟合

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第17张图片

常规的算法,如线性回归和决策树,虽然不如RNN、CNN等复杂和强大,但它们仍然占主导地位,因为它们更容易理解!

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第18张图片

至于使用的机器学习框架,数据科学家使用多种工具。超过80% 的人使用Scikit-learn,这是一个包含流行数据科学算法的Python包。TensorFlow和Keras经常结合使用,二者仍然是主流的深度学习框架。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第19张图片

▍企业工具

大多数专业数据科学家都在使用云计算,尽管仍有超过24%的人没有使用。AWS、谷歌云平台和Microsoft Azure是目前数据科学家使用云工具的三大首选。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第20张图片

▍Automated机器学习

尤其值得注意的是自去年调查以来Google Cloud AutoML的增长。 总体而言,使用这个机器学习平台的受访者数量几乎翻了一番,美国数据科学家的增长速度与此类似。

2019Kaggle最新DS&ML报告:你大爷还是你大爷!_第21张图片

来自:https://www.kaggle.com/

—End—

量化投资与机器学习微信公众号,是业内垂直于QuantMFECST、AI等专业的流量化自媒体。公众号拥有来自公募、私募、券商、银行、海外等众多圈内18W+关注者。每日发布行业前沿研究成果和最新量化资讯。

你点的每个“在看”,都是对我们最大的鼓励

你可能感兴趣的:(2019Kaggle最新DS&ML报告:你大爷还是你大爷!)