sklearn决策树使用(1)

简介

自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。
  sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上。利用这几大模块的优势,可以大大提高机器学习的效率。
  sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎。sklearn已经封装了大量的机器学习算法,包括LIBSVM和LIBINEAR。同时sklearn内置了大量数据集,节省了获取和整理数据集的时间。

sklearn安装

  • python
  • Numpy
  • scipy
    由于我是运行在window,直接pip不能安装scipy,所以得先把之前安装的numpy卸了,在网上下载一个 numpy+mkl的whl包以及scipy的whl包,然后
    pip install  numpy-1.12.0+mkl-cp35-cp35m-win_amd64.whl

    pip install scipy-0.18.1-cp35-cp35m-win_amd64.whl

    pip install sklearn

决策树训练

    import pandas as pd
    from sklearn.tree import DecisionTreeClassifier  

    m1 = DecisionTreeClassifier(min_samples_leaf=10,max_depth=10)   # 实例化决策树分类器,并设置最小叶子树10,最大深度为10

    m1.fit(x1,y1)   #训练分类器,x1:参数集,y1,结果集

    y_ = m1.predict(x_test)   #测试

   score = pd.crosstab(y,y_,margins=True).apply(lambda x : x/x[-1],axis=1)

   score = (100 * score .astype(np.float)).round(decimals=2)
   
   score  = applymap(lambda x : str(x)+'%')

   print (score)
    
    """
      final      坏人      好人     All
      用户标签                         
      坏人     66.63%      33.37%   100.0%
      好人     42.59%      57.41%   100.0%
      All      46.87%      53.13%   100.0%
    """

生成决策树图

先利用 export_graphviz 把决策树导出为DOT格式。

from sklearn.tree import export_graphviz
  
export_graphviz(m1
                ,'./tree1.dot'
                ,filled=True
                ,leaves_parallel=True
                ,class_names=m1.classes_)
                ,feature_names=x1.columns)

该函数生成决策树的GraphViz表示,然后将其写入out_file。导出后,可以使用例如以下方式生成图形渲染:

$ dot -Tps tree1.dot -o tree.ps(PostScript格式)
$ dot -Tpng tree1.dot -o tree.png(PNG格式)
$ dot -Tpdf tree1.dot -o tree.pdf(PDF格式)

如果生成的图中文乱码的话,需要修改一下dot文件,用记事本打开dot文件,加上fontname;

edge [fontname="SimHei"];
node [shape=box, style="filled", color="black",fontname="SimHei"] ;

最后晒一下图的其中一部分:

sklearn决策树使用(1)_第1张图片
决策树图

你可能感兴趣的:(sklearn决策树使用(1))