数据挖掘学习-准备篇-环境搭建

1.python安装

2.python下numpy安装

  下载地址http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/ ,选择win32,python2.7下载exe后双击即可

 验证是否安装成功:在python的命令行下,import numpy如不报错则无问题

3.python下scipy安装

下载地址 https://sourceforge.net/projects/scipy/files/scipy/0.16.1/ ,选择win32 python2.7下载exe双击安装

4.python下sklearn安装

sklearn安装之前必须安装numpy和scipy

下载地址:https://github.com/scikit-learn/scikit-learn的zip包,解该压缩包压缩。使用CMD进入sklearn文件夹,执行

python setup.py install 

报错:ImportError: ('No module named Cython', 'Please install cython with a version >= 0.23 in order to build a scikit-learn development version.')需要安装cython 下载cython地址http://www.lfd.uci.edu/~gohlke/pythonlibs/#cython,下载完的是.whl文件 所以先要 cmd中pip install wheel 然后在.whl文件路径下输入pip install XXX.whl

又遇到问题:pip 版本太低需要升级,则使用升级命令python -m pip install --upgrade pip

又遇到的问题:Cython-0.25.1-cp36-cp36m-win32.whl在该平台下不支持

解决方案是将 上面的换成Cython-0.25.1-cp27-cp27m-win32.whl(博主使用的是python2.7)ok解决


接着在回去装sklearn

又遇到问题“error: Unable to find vcvarsall.bat”

:执行过程可能遇到问题:Windows下pip安装包报错:Microsoft Visual C++ 9.0 is required Unable to find vcvarsall.bat

解决方案:使用easy_install scikit-learn来安装




(1)Python标准库。这里主要是体现了Python处理字符串的优势,由于Python多功能的属性和对于正则表达式的良好支持,用于处理text是在合适不过的了。
(2)Numpy与Scipy。这两个包是Python之所以能在数据分析占有一席之地的重要原因。其中Numpy封装了基础的矩阵和向量的操作,而Scipy则在Numpy的基础上提供了更丰富的功能,比如各种统计常用的分布和算法都能迅速的在Scipy中找到。
(3)Matplotlib。这个Package主要是用来提供数据可视化的,其功能强大,生成的图标可以达到印刷品质,在各种学术会议里面出镜率不低。依托于Python,可定制性相对于其他的图形库更高。还有一个优点是提供互动化的数据分析,可以动态的缩放图表,用做adhoc analysis非常合适。
(4)Scikit Learn。非常好用的Machine Learning库,适合于用于快速定制原型。封装几乎所有的经典算法(神经网络可能是唯一的例外,不过这个有Pylearn2来补充),易用性极高。

python下各个库

(1)NumPy几乎是一个无法回避的科学计算工具包,最常用的也许是它的N维数组对象,其他还包括一些成熟的函数库,用于整合C/C++和Fortran代码的工具包,线性代数、傅里叶变换和随机数生成函数等。NumPy提供了两种基本的对象:ndarray(N-dimensional array object)和 ufunc(universal function object)。ndarray是存储单一数据类型的多维数组,而ufunc则是能够对数组进行处理的函数。

官方主页:http://www.numpy.org/

(2)“SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。其功能与软件MATLAB、Scilab和GNU Octave类似。 Numpy和Scipy常常结合着使用,Python大多数机器学习库都依赖于这两个模块。”—-引用自“Python机器学习库

官方主页:http://www.scipy.org/

(3)matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。Matplotlib可以配合ipython shell使用,提供不亚于Matlab的绘图体验,总之用过了都说好。

官方主页:http://matplotlib.org/

(4)scikit-learn是一个基于NumPy, SciPy, Matplotlib的开源机器学习工具包,主要涵盖分类,回归和聚类算法,例如SVM, 逻辑回归,朴素贝叶斯,随机森林,k-means等算法,代码和文档都非常不错,在许多Python项目中都有应用。例如在我们熟悉的NLTK中,分类器方面就有专门针对scikit-learn的接口,可以调用scikit-learn的分类算法以及训练数据来训练分类器模型。这里推荐一个视频推荐一个Python机器学习工具包Scikit-learn以及相关视频–Tutorial: scikit-learn – Machine Learning in Python

官方主页:http://scikit-learn.org/

推荐一个scikit-learn中文学习文档 http://www.studyai.cn/ml/index.html








你可能感兴趣的:(Python,数据挖掘)