程序员的机器学习入门笔记(二):Python常用库的介绍,及安装(Centos 6.5)

在Python的世界中为数据挖掘产生了很多实用的库,本文主要列出一些常见库的说明,安装,以及使用的小例子,文中的安装以及演示环境都是基于Centos 6.5 的Desktop Mini版进行演示

  1. Numpy
    1. 介绍
      NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。
    2. 安装
      1. yum install gcc
      2. yum install gcc-c++
      3. yum install python-devel
      4. pip install numpy
    3. 详细说明可以参考:http://old.sebug.net/paper/books/scipydoc/numpy_intro.html

  2. Scipy
    1. 介绍
      SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等
    2. 安装
      1. 需要先安装好Numpy
      2. yum install lapack lapack-devel blas blas-devel
      3. pip install scipy
    3. 详细说明可以参考:http://old.sebug.net/paper/books/scipydoc/scipy_intro.html
  3. Matplotlib
    1. 介绍

      matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。

      它的文档相当完备,并且 Gallery页面 中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定

    2. 安装
      1. yum -y install freetype-devel
      2. yum -y install libpng-devel
      3. pip install Matplotlib
    3. 详细说明可以参考:http://old.sebug.net/paper/books/scipydoc/matplotlib_intro.html#
  4. Pandas
    1. 介绍

      pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包

      类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构


    2. 安装
      1. 依赖numpy
      2. pip install pandas
      3. 如果需要处理Excel文件,需要执行 pip install xlrd
    3. 演示代码
      # -*- coding: utf-8 -*-
      from pandas import Series,DataFrame
      import pandas as pd

      s=Series([1,2,3],index=['a','b','c'])
      d=DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'])

      #head() method will return top 5 records
      print s.head()
      print s.describe()
      print d.head()
      print d.describe()

      #read data from xml file
      excel_data=pd.read_excel("./server.xlsx")
      print excel_data.head
  5. StatsModels
    1. 介绍

      Statismodels是一个Python包,提供一些互补scipy统计计算的功能,包括描述性统计和统计模型估计和推断。
      主要功能

      • 线性回归模型:广义最小二乘法(Generalized least squares),普通最小二乘法(ordinary least squares)
      • glm
      • discrete:离散变量的回归,基于最大似然估计
      • rlm
      • tsa:时间序列分析模型
      • nonparametric
      • datasets
      • stats:常用统计检验
      • iolib:读Stata的.dta格式,输出ascii、latex和html
    2. 安装
      1. 依赖numpy,scipy,Matplotlib
      2. pip install StatsModels
  6. Scikit-Learn
    1. 介绍
      scikit-learn是一个和机器学习相关的库,如果不是最流行的,那么也算得上是所有语言中流行的机器学习库之一。它拥有大量的数据挖掘和数据分析功能,使其成为研究人员和开发者的首选库。
    2. 安装
      1. 依赖numpy,scipy,Matplotlib
      2. pip install Scikit-Learn
  7. Keras
    1. 介绍
      Keras是基于Theano的一个深度学习框架,它的设计参考了Torch,用Python语言编写,是一个高度模块化的神经网络库,支持GPU和CPU
    2. 安装
      1. 依赖numpy,scipy,theano
      2. pip install keras
  8. Gensim
    1. 介绍
       Gensim是一个相当专业的主题模型Python工具包在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和特性,角度更客观。那么Python 里面有计算文本相似度的程序包吗,恭喜你,不仅有,而且很好很强大,那就是gensim。
    2. 安装
      1. pip install gensim

你可能感兴趣的:(数据挖掘,python,centos)