python机器学习库sklearn——决策树

全栈工程师开发手册 (作者:栾鹏)

python数据挖掘系列教程

决策树的相关的知识内容可以参考
http://blog.csdn.net/luanpeng825485697/article/details/78795504

本文只讲述sklearn中如何使用决策树。

其中需要安装numpy 、pandas 、matplotlib、sklearn 、pydotplus库,以及安装Graphviz

点击下载Graphviz

安装好Graphviz软件后,需要进入系统环境变量设置。在系统变量的Path变量中,添加Graphviz的环境变量,比如Graphviz安装在了D盘的根目录,则添加:D:\Graphviz\bin;
设置完环境变量,记得要重启IDE

sklearn使用DecisionTreeClassifier构建决策树,这个函数,一共有12个参数:

参数说明如下:

criterion:特征选择标准,可选参数,默认是gini,可以设置为entropy。gini是基尼不纯度,是将来自集合的某种结果随机应用于某一数据项的预期误差率,是一种基于统计的思想。entropy是香农熵,也就是上篇文章讲过的内容,是一种基于信息论的思想。Sklearn把gini设为默认参数,应该也是做了相应的斟酌的,精度也许更高些?ID3算法使用的是en

你可能感兴趣的:(机器学习系列课程,快速学习实战应用,python系列课程,快速学习实战应用,python,机器学习,数据挖掘,sklearn,决策树)