近日,数据科学网站KDnuggets发布 2018年数据科学和机器学习工具调查结果。下面一起来看看调查结果
最受青睐的分析、数据科学、机器学习工具
图1:2018年的最受青睐的工具及其在2016 - 2017年调查中的份额
*为了更有效的比较,KDnuggets重新计算了2016年,2017年问卷调查结果,排除了受访者“单一”的选项。
下表是前11名的工具排行,其中每个工具至少有20%的份额:
表1:KDnuggets2018年顶级分析/数据科学/ ML软件调查
在这里,“2018%share”是指使用该工具的受访者百分比,“%change 2018 VS 2017”是表示2017年调查的变化 ,用绿色表示增长幅度达到10%以上,红色表示下降幅度达到10%以上。
今年,每名受访者的平均使用工具数量为7个,略高于2017年投票中的6.75(不包括单一工具回复)。
与2017年软件投票相比,今年前11名中,出现了一个新面孔Keras,Keras取代了去年Knime的位置。下面是针对以上数据的一些观察发现:
Python消灭了R
到2017年,Python已经拥有超过50%的份额,如今已经将其份额提高到66%,而在我们此次的调查中,R份额首次出现下降,而且是一下子降到50%以下。
RapidMiner激增
在过去的几次调查中,RapidMiner一直是最大的数据科学平台之一,它的份额从2017年的33%大幅增加到50%左右。
这样的增长速度是否是因为厂商的推广带来的呢?RapidMiner创始人兼总裁Ingo Mierswa的表示:
与许多供应商一样,RapidMiner通过多种渠道向用户推广KDnuggets问卷调查,之前我们也做过同样的推广,但与之前不同的是,首先今年得到了更好的回应,超过400位用户亲自回复了邮件,更重要的是,最近一年里,RapidMiner的月活跃用户增长了300% ,因此可以向更多的用户发送了关于KDnuggets问卷调查的邮件。
SQL是稳定的
SQL(包括Spark SQL和SQL to Hadoop工具在内)在最近的3次调查中仍然占有约40%的份额。所以,如果你是一位有抱负的数据科学家,学习SQL吧,它可能会对你很有用!
趋势
在调查中,使用率超过2%的新工具是Spark SQL,拥有11.7%的份额。
下表列出了2018年份额增长20%以上的工具,并在2018年达到至少3%的份额。
表 2:使用率增幅最大的主要分析/数据科学/机器学习工具
整合
值得一提的是,在2017年拥有2%以上份额的56个工具中,有19个(仅约三分之一)工具在2018年份额有所增加,而有37个的份额下降。结合Datawatch收购Angoss,Minitab收购Salford等近期的收购案可以表明,数据科学平台的整合即将展开。
2018年拥有3%以上份额,却在2018年份额下降25%以上的工具见下表:
表 3:使用率跌幅最大的主要分析/数据科学工具
深度学习工具
使用深度学习工具的受访者比例保持稳定,2018年有33%的受访者表示使用深度学习工具,2017年为32%,2016年为18%。 谷歌Tensorflow依然是最主要的平台。
顶级深度学习工具排名如下:
● Tensorflow, 29.9%
● Keras, 22.2%
● PyTorch, 6.4%
● Theano, 4.9%
● Other Deep Learning Tools, 4.9%
● DeepLearning4J, 3.4%
● Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%
● Apache MXnet, 1.5%
● Caffe, 1.5%
● Caffe2, 1.2%
● TFLearn, 1.1%
● Torch, 1.0%
● Lasagne, 0.3%
大数据工具:Hadoop被抛弃
2018年,约33%的开发者使用Hadoop或Spark等大数据工具 - 与2017年大致相同,但Hadoop使用率显著下降,下降幅度高达35%,以下是详细信息:
编程语言
Python似乎不仅超过了R,还包括大多数其他语言,目前Python和SQL,Java和C / C ++几乎保持在相同水平。自从KDnuggets 进行这项调查以来,R第一次出现了下降。其他语言同样也有所下降。
以下是按热门度排序的主要编程语言:
● Python, 65.6% (was 59.0% in 2017), 11% up
● R, 48.5% (was 56.6%), 14% down
● SQL, 39.6% (was 39.2%), 1% up
● Java, 15.1% (was 15.5%), 3% down
● Unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down
● Other programming and data languages, 6.9%, (was 7.6%), -9% down
● C/C++, 6.8%, (was 7.1%), 3% down
● Scala, 5.9%, (was 8.3%), 29% down
● Perl, 1.0% (was 1.9%), 46% down
● Julia, 0.7% (was 1.2%), 45% down
● Lisp, 0.3% (was 0.4%), -25% down
● Clojure, 0.2% (was 0.3%), -38% down
● F, # 0.1% (was 0.5%), -73% down
完整结果和 3 年来的趋势
以下表格展示了调查结果的细节(此处仅列出排名前 20 的工具):
关注公众账号
【飞马会】
▼
飞马会AI人工智能/大数据/技术管理等人员学习交流园地往期福利关注飞马会公众号,回复对应关键词打包下载学习资料;回复“入群”,加入飞马网AI、大数据、项目经理学习群,和优秀的人一起成长!
回复数字“1”下载从入门到研究,人工智能领域最值得一读的10本资料(附下载)
回复数字“2”机器学习 & 数据科学必读的经典书籍,内附资料包!
回复数字“3”走进AI & ML:从基本的统计学到机器学习书单(附PDF下载)
回复数字“4”了解人工智能,30份书单不容错过(附电子版PDF下载)
回复数字“5”大数据学习资料下载,新手攻略,数据分析工具、软件使用教程
回复数字“6”AI人工智能:54份行业重磅报告汇总(附下载)
回复数字“7”TensorFlow介绍、安装教程、图像识别应用(附安装包/指南)
回复数字“8”大数据资料全解析(352个案例+大数据交易白皮书+国内外政策汇篇)
回复数字“9”干货 | 荐读10本大数据书籍(初级/中级/高级)成为大数据专家!
回复数字“10”麦肯锡160页报告:2030年全球将可能8亿人要被机器抢饭碗
回复数字“11”50本书籍大礼包:AI人工智能/大数据/Database/Linear Algebra/Python/机器学习/Hadoop
回复数字“12”小白| Python+Matlab+机器学习+深度神经网络+理论+实践+视频+课件+源码,附下载!
回复数字“13”大数据技术教程+书籍+Hadoop视频+大数据研报+科普类书籍
回复数字“14”小白| 机器学习和深度学习必读书籍+机器学习实战视频/PPT+大数据分析书籍推荐!
回复数字“15”大数据hadoop技术电子书+技术理论+实战+源代码分析+专家分享PPT
回复数字“16”100G Python从入门到精通!自学必备全套视频教程+python经典书籍!
回复数字“17”【干货】31篇关于深度学习必读论文汇总(附论文下载地址)
回复数字“18”526份行业报告+白皮书:AI人工智能、机器人、智能出行、智能家居、物联网、VR/AR、 区块链等(附下载)
回复数字“19”800G人工智能学习资料:AI电子书+Python语言入门+教程+机器学习等限时免费领取!
回复数字“20”17张思维导图,一网打尽机器学习统计基础(附下载)
回复数字“22”吴恩达新书,教你构建机器学习项目:《Machine Learning Yearning》
回复数字“23”机器学习:怎样才能做到从入门到不放弃?(内含福利)
回复数字“24”限时下载 | 132G编程资料:Python、JAVA、C,C++、机器人编程、PLC,入门到精通~
回复人工智能下载《FMI人工智能与大数据峰会嘉宾演讲PPT》
回复AI 江湖下载《十大AI江湖领域》
回复ML实践下载《机器学习实践经验指导(英文版)》
回复DL论文下载《深度学习100篇以上论文资料》
回复算法 下载《数据挖掘十大经典算法》
回复6.10 下载《6.10饿了么&飞马网项目管理实践PPT》