Awesome Data Science in Python | 一文整理Python常用数据科学第三方模块

1. 机器学习

EDA

  • lantern

特征工程

  • yellowbrick
  • Featuretools

模型解释

  • SHAP
  • Lime

通用

  • Scikit-learn

自动化机器学习

  • mljar-supervised

2. 统计方法

通用

  • StatsModels:通用概率派
  • Scipy:含常见分布、统计量计算
  • pyro:基于pyTorch的通用统计模型库
  • Edward:基于tensorflow的通用统计模型库

贝叶斯

  • PyStan:贝叶斯模型(stan实现)
  • pymc3/pymc4(还在pre-release版本):贝叶斯模型(theano/tensorflow实现)

3. 特殊算法集

时间序列

  • pyflux:实现常用时间序列模型
  • Prophet:基于强解释的GAM(线性可加模型)

生存模型

  • Lifetimes

聚类

  • hdbscan

网络

  • networkX

GBM

  • CatBoost:对类别变量比较友好
  • xgboost
  • LightGBM

4. 可视化

  • plotnine
  • Seaborn
  • plotly
  • altair

5. NLP

通用

  • spaCy
  • nltk

主题模型

  • gensim

常用Embedded集

  • fastText

6. ETL

  • bubbles

7. 因果推理

  • DoWhy

8. 符号运算

  • SymPy

你可能感兴趣的:(python,机器学习,数据科学,统计学)