python 下数据挖掘包sklearn

来源:http://tieba.baidu.com/f?kz=3226108693&pid=55515628022

还有:http://my.oschina.net/u/175377/blog/84420和http://blog.csdn.net/CRISPY_RICE/article/details/26490385

1. 闲话篇

机器学习(ML),自然语言处理(NLP),神马的,最近太火了。。。不知道再过几年,大家都玩儿ML,还会不会继续火下去。。。需要有人继续再添点柴火才行。本人仅仅是一个迷途小书童,知识有限,还望各位ML大神多多指点:)。 

最近想系统地收拾一下ML的现有工具,发现比较好的应该是这个 http://scikit-learn.org/stable/index.html
对于初学和进阶阶段的ML研究者们是个不错的选择。不过美中不足的是少了Large-scale ML的一些,毕竟这是单机的。后面琢磨琢磨,写个ADMM(今年ICML剧多相关的论文)的吧,这个之前在MSRA的Learning Group做过一个Turtorial.
尤其是他的参考手册,更是没有太多废话,都能一针见血地讲明重点: http://scikit-learn.org/stable/user_guide.html
其实不要指望这个工具包能有啥新的东西,不过就是这些经典的东西,要是你真掌握了,也基本God Like!了。:),特别是你用ML创业的时候,可能真能用上一两个思路,也就是被训练出来的思想估计是大学能留下来的,剩下的都在狗肚子里。
我们来大致浏览一下这个系统的ML工具的功能,整体内容较多,我们逐步更新,想具体了解哪个部分的童鞋可以留言,我一下子还真很难都详细介绍(我会基本上保证一周更新一个小章节,逐步学习。首先弄懂模型原理,讲出来,然后使用对应数据实战一下,贴出代码,作图,最后利用测试结果适当比较一下模型之间的差异),所有的代码,我都会后续贴到CSDN或者Github上面。


---------------------------------------------------华丽丽的分割线---------------------------------------------------------


2. 配置篇
推荐学习配置:python 2.7, pycharm IDE (这个Python的IDE不错,推荐大家用下,如果用过Eclipse写Java,这个上手会很快), numpy, scipy。其他还有一些需要下载的包,大家可以边配置边有问题留言,建议在windows下面弄弄就行,我基本不用Linux。
有些小伙伴建议我也详细讲讲在windows下的配置。的确,这一系列的配置还真心没有那么简单,我特地找了一台windows7 Ultimiate SP1 x64 的裸机来重现一下整体配置过程。
首先是Python 2.7 (切记Python 3.x 和2.x的版本完全不是一路货,不存在3.x向下兼容的问题,所以,如果哪位小伙伴为了追求软件版本高而不小心安装了python 3.x,我只能说。。好吧。。你被坑了。最简单的理解,你可以认为这两个Python版本压根就不是一门相同的编程语言,就连print的语法都不同)
1. Python 2.7.x 在 x64 windows平台下的解释器。具体下载地址: https://www.python.org/download/releases/2.7.8/  注意64位的是这个 Windows X86-64 MSI Installer (2.7.8)
测试这个Python是否在你的环境里配置好,你可以在命令行里直接输入python,如果报错,那么你需要手动配置一下环境,这个大家上网搜就可以解决(简单说,在环境变量PATH里把你的Python的安装文件夹路径写进去)。
2. 然后安装Pycharm,这个是我在Hulu实习的时候用到过的IDE,还是涛哥推荐的,还不错。因为有正版收费的问题,推荐大家下载它的(community)版  http://www.jetbrains.com/pycharm/download/ 。安装好后,它应该会让你选择刚才安装好的Python的解释器,这样你就可以做一些简单的python编程了,用过eclipse的人,这个上手非常快。
3. 接着就需要配置跟sklearn有关的一系列Python的扩展包了。这个美国加州一个学校的一个非官方网站张贴了所有windows直接安装的版本  http://www.lfd.uci.edu/~gohlke/pythonlibs/ ,特别实用,大家到里面去下载跟python 2.7 amd64有关的安装包。然后直接下载运行即可。需要下载的一系列扩展包的列表(按照依赖顺序):Numpy-MKL, SciPy, Scikit-learn。有了这些就可以学习Scikit-learn这个工具包了。
4. 此外,如果想像我一样,同时可以画图,那么就需要matplotlib,这个也有一个网站手册  http://matplotlib.org/contents.html ,同样也需要一系列扩展包的支持。使用matplotlib 需要如下必备的库,numpy, dateutil, pytz, pyparsing, six。都能从刚才我推荐的下载网站上获取到。
上面的一系列都搞定了,大家可以使用我第一个线性回归的代码(加粗的代码)测试一下,直接输出图像,最后还能保存成为png格式的图片。


------------------------------华丽丽的分割线------------------------------------------


3. 数据篇
用工具之前先介绍几个我会用到的数据
这里大部分的数据都是从这个经典的机器学习网站提供的:
https://archive.ics.uci.edu/ml/
sklearn.datasets里面集成了这个网站里的部分数据(刚接触Python的童鞋,需要一点点Python的知识,和Java类似,使用现成工具模块的时候,需要import一下,我们这个基于Python的机器学习工具包的全名是sklearn,这里介绍数据,所以下一个目录是datasets)。具体的Python代码:
import sklearn.datasets


数据一:波士顿房价(适合做回归),以后直接用boston标记 
这行代码就读进来了
boston = sklearn.datasets.load_boston()
查询具体数据说明,用这个代码:
print boston.DESCR
输出如下:
Data Set Characteristics: 

:Number of Instances: 506 

:Number of Attributes: 13 numeric/categorical predictive 

:Median Value (attribute 14) is usually the target 

:Attribute Information (in order): 
- CRIM per capita crime rate by town 
- ZN proportion of residential land zoned for lots over 25,000 sq.ft. 
- INDUS proportion of non-retail business acres per town 
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) 
- NOX nitric oxides concentration (parts per 10 million) 
- RM average number of rooms per dwelling 
- AGE proportion of owner-occupied units built prior to 1940 
- DIS weighted distances to five Boston employment centres 
- RAD index of accessibility to radial highways 
- TAX full-value property-tax rate per $10,000 
- PTRATIO pupil-teacher ratio by town 
- B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town 
- LSTAT % lower status of the population 
- MEDV Median value of owner-occupied homes in $1000*s
一共506组数据,13维特征,
比如第一个维度的特征是犯罪率,第六个是每个房子平均多少房间等等。
boston.data 获取这506 * 13的特征数据
boston.target 获取对应的506 * 1的对应价格


数据二:牵牛花(适合做简单分类),标记为Iris
import sklearn.datasets
iris = sklearn.datasets.load_iris()
iris.data 获取特征
iris.target 获取对应的类别
Data Set Characteristics:
:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
- class:
- Iris-Setosa
- Iris-Versicolour
- Iris-Virginica
这个数据基本是个ML的入门选手都知道,一共三类牵牛花,获取特征和对应的类别标签也是同上
一共150样本,3类,特征维度为4


数据三: 糖尿病(回归问题),diabetes
这个数据包很奇怪,没有描述。我也到原本的UCI的网站上查了一下,也是没有太好的描述。
import sklearn.datasets
diabetes = sklearn.datasets.load_diabetes()
print diabetes.keys()
这样的输出只有data, targets。
我也观察了一下数据,感觉是经过额外的归一化处理的,原始的数据样貌已经看不出来了。。
下面这个图是我从网站上Copy下来的有限的描述,样本量为442,特征维度为10,每个特征元素的值都是连续的实数,在正负0.2之间。。目标这个整数值有可能是血糖。
Samples total 442 
Dimensionality 10 
Features real, -.2 < x < .2 
Targets integer 25 - 346 



数据四:手写数字识别(多类分类,10个类别,从0-9)digits
import sklearn.datasets
digits = sklearn.datasets.load_digits()
总体样本量:1797,每个类别大约180个样本,每个手写数字是一个8*8的图片,每个像素是0-16的整数值。


综上,大家可以加载相应的数据来玩,这几个数据算是比较有代表性的。后面会介绍如何利用SKLEARN工具下载更大规模的数据,比如MINIST的大规模的手写数字识别库等等。
总之,如果你想获取特征,就在*.data里,对应的类别或者回归值在*.target里面
光说不练不行,我对每个介绍的方法都会选用上面的Dataset实际测试一下,并且会酌情给出结果和图像。

你可能感兴趣的:(python 下数据挖掘包sklearn)