Python中数据挖掘常用模块

基本模块: NumPy,Pandas ,SciPy ,scikit-learn。

其他常用模块:

Theano:Python库,用来定义、优化和模拟数学表达式计算,用于高效地解决多维数组的计算问题以及深度学、框架。

Keras:基于Theano的深度学习库,主要用于搭建人工神经网络、自编码器、卷积神经网络等深度学习模型。

Gensim:Python自然语言处理模块,包括自然语言主题模型,用于文本的主题挖掘。

StatsModels:注重数据统计建模分析的数据处理模块,与Pandas结合,强大的数据挖掘组合。

NLTK:(natural language toolkit)Python自然语言处理模块,包括一系列的字符处理和语言统计模型。常用于学术研究和教学,应用领域有语言学、认知科学、人工智能、信息检索、机器学习等。

Mlpy:基于NumPy和SciPy的机器学习模块,CPython的拓展应用。

PyBrain:Python机器学习模块,用于处理神经网络、强化学习、无监督学习、进化算法。

Milk:Python机器学习工具箱,重点提高监督分类法与几种有效的分类分析:SVMs,kNN,随机森林和决策树等。

Pattern: Python的web挖掘模块,绑定了Google、Twitter、Wikipedia API,提供网络爬虫、HTML解析功能,文本分析包括浅层规则解析、WordNet接口、句法与语义分析、TF-IDF、LSA等,还提供聚类、分类和图网络可视化的功能。

Orange:基于组件的数据挖掘和机器学习软件套装,它功能友好强大,拥有快速而多功能的可视化编程前端,以便浏览数据分析和可视化,且绑定了Python已进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据账目、过渡、建模、模式评估和勘探的功能。

MXNet:深度学习最新框架,性能和速度超越Theano。

XGBoost:是一个速度快、效果好的boosting模型,被封装成了Python模块。该模块能够自动利用CPU的多线程进行并行,同时提高了算法的精度。

你可能感兴趣的:(Python中数据挖掘常用模块)