[原]深入对比数据科学工具箱:Python3 和 R 之争[2020版]

[原]深入对比数据科学工具箱:Python3 和 R 之争[2020版]_第1张图片

概述

R 和 Python2/Python3 在过去十年(Pandas问世后)的数据科学领域持续着激烈的竞争,随着时间的推移竞争格局也从混沌走向清晰。

R 从诞生开始就继承了 S 语言的统计特性,经历了野蛮生长,2009 年 ggplot2 和 data.table 的横空出世大幅提升数据可视分析的效率,极大冲击了数据科学早期市场,要知道当时数据科学还主要被商业软件 Excel、SAS 和 Matlab 所垄断。R语言作为数据科学开源软件的先驱,多个商业应用领域不断进化,贝叶斯、空间分析、网络分析、时序分析、生存分析等在代码库 CRAN 和 GitHub 上开始快速增长,直到 2015年 Revolution R 被 Microsoft 公司收购达到顶峰。

Python 原本是一种胶水语言,在Web开发、嵌入式开发、运维测试等领域使用较为广泛,在数据科学领域运用并不广泛。然而,自 2015年大数据和深度学习的人工智能革命起,Python 中的两大开源框架 PySpark 和 Tensorflow 开始大放异彩,全民学习 Python 的热情也随水涨船高,Python 成功实现了数据科学领域的逆袭。

随着2020年起,Python2 的正式停止维护,Python。

Python Version

[原]深入对比数据科学工具箱:Python3 和 R 之争[2020版]_第2张图片

生态对比

Domain Python3 R
基础数据处理 Pandas/Dplython Tidyverse/Dplyr
并行计算(数据密集) Koalas/PySpark Sparklyr/SparkR
并行计算(计算密集) Dask/Modin Disk.frame
网络挖掘 Networkx/Graph-tool Tidygraph
地理挖掘 Geopandas/Rasterio Sf/Raster
时序挖掘 Prophet/Backtrader Fable/Quantstrat
图像处理 OpenCV magick
文本处理 Gensim/NLTK tidytext
基础统计工具 Statsmodels tidymodel
贝叶斯统计 PyMC3/PyStan Brms/Rstanarm
机器学习 Sklearn Mlr
深度学习 Tensorflow/Mxnet Tensorflow/Mxnet
强化学习 RLlib/Gym ReinforcementLearning
仿真建模 Simpy Simmer
优化建模 Cvxplayers/Ortools/Scipy CVXR/ompr
原型开发 Dash Shiny
数据探索 Plotly/Matplotlib/Plotnine Plotly/Ggplot2/Esquisse

1. 数据流操作对比

[原]深入对比数据科学工具箱:Python3 和 R 之争[2020版]_第3张图片

基础数据处理:Pandas/Dplython vs Tidyverse/Dplyr

分布式数据处理:Koalas/PySpark vs Sparklyr/SparkR

分布式数据处理:Dask/Modin vs Disk.frame

2. 领域建模

网络挖掘: NetworkX/Graph-tool vs Tidygraph

地理挖掘:Geopandas vs Sf

3. 统计建模

基础统计工具 Statsmodels vs tidymodel

贝叶斯统计 PyMC3/PyStan vs RStan

机器学习 Sklearn vs Mlr

4. 可视化

总结

  • R 社区活跃度有所下降
  • Python2 逐渐放弃维护
  • Python3 取代 Python2 和 R 成为新一代人工智能主流编程语言。

参考资料

你可能感兴趣的:(python,r,人工智能)