读书笔记-《Python数据分析与数据挖掘实战》

  • 第二章 Python数据分析简介
    • Python数据挖掘相关扩展库
      • Scikit-Learn
      • Keras

第二章 Python数据分析简介

Python数据挖掘相关扩展库

扩展库 简介
Numpy 提供数组支持
Scipy 提供矩阵支持,以及矩阵相关的数值计算模块
Matplotlib 强大的数据可视化工具、作图库
Pandas 强大、灵活的数据分析和探索工具
StatsModels 统计建模和计量经济学,包括描述统计、统计模型估计和推断
Scikit-Learn 支持回归、分类、聚类等的强大机器学习库
Keras 深度学习库,用于建立神经网络以及深度学习模型
Gensim 用来做文本主题模型的库,文本挖掘可能用到
Pillow 涉及图片处理
OpenCV 涉及视频处理
GMPY2 涉及高精度运算

Scikit-Learn

  1. 所有模型提供的接口有:
    • model.fit():训练模型,对于监督模型来说是fit(X,y),对于非监督模型是fit(X)。
  2. 监督模型提供的接口有:
    • model.predict(X_new): 预测新样本
    • model.predict_proba(X_new): 预测概率,仅对某些监督模型有用(比如LR)
    • model.score(): 得分越高,fit越好
  3. 非监督模型提供的接口有:
    • model.transform(): 从数据中学到新的“基空间”。
    • model.fit_transform(): 从数据中学到新的基并将这个数据按照这组“基”进行转换。

例子:


# -*- coding: utf-8 -*-
""" Created on Thu Apr 07 10:28:35 2016 @author: Michael """

from sklearn import datasets
iris = datasets.load_iris()
print(iris.data.shape)

from sklearn import svm
clf = svm.LinearSVC()
clf.fit(iris.data,iris.target)
clf.score(iris.data,iris.target)
clf.predict([[5.0,3.6,1.3,0.25]])

结果:

clf.score(iris.data,iris.target)
Out[12]: 0.96666666666666667

Keras

虽然scikit-learn足够强大,但是它并没有包含一种强大的模型——人工神经网络。在语言处理、图像识别等领域有着重要的作用。

值得一提的是Windows下Keras的速度会大打折扣,因此,想要研究神经网络和深度学习方面的读者,需要在Linux下搭建环境。

你可能感兴趣的:(python)