python决策树sklearn_[python机器学习及实践(4)]Sklearn实现决策树并用Graphviz可视化决策树...

1.决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。通过学习样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。

决策树的学习过程

1)特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。

2)决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止声场。

3)剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)。

2.例子:

数据集:泰坦尼克号乘客数据:一共有1313条乘客信息,这个例子中取pclass,sex,age

1208874-20180718164917877-532065140.png

代码:

#coding=utf-8

importpandas as pdfrom sklearn.model_selection importtrain_test_splitfrom sklearn.feature_extraction import DictVectorizer #特征转换器

from sklearn.tree importDecisionTreeClassifierfrom sklearn.metrics importclassification_reportfrom sklearn importtree#1.数据获取

titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')#print titanic.head()#print titanic.info()

X = titanic[['pclass','age','sex']] #提取要分类的特征。一般可以通过最大熵原理进行特征选择

y = titanic['survived']print X.shape #(1313, 3)#print X.head()#print X['age']

#2.数据预处理:训练集测试集分割,数据标准化

X['age'].fillna(X['age'].mean(),inplace=True) #age只有633个,需补充,使用平均数或者中位数都是对模型偏离造成最小的策略

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33) #将数据进行分割

vec= DictVectorizer(sparse=False)

X_train= vec.fit_transform(X_train.to_dict(orient='record')) #对训练数据的特征进行提取

X_test = vec.transform(X_test.to_dict(orient='record')) #对测试数据的特征进行提取#转换特征后,凡是类别型型的特征都单独独成剥离出来,独成一列特征,数值型的则不变

print vec.feature_names_ #['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']

#3.使用决策树对测试数据进行类别预测

dtc =DecisionTreeClassifier()

dtc.fit(X_train,y_train)

y_predict=dtc.predict(X_test)#4.获取结果报告

print 'Accracy:',dtc.score(X_test,y_test)print classification_report(y_predict,y_test,target_names=['died','servived'])#5.将生成的决策树保存

with open("jueceshu.dot", 'w') as f:

f= tree.export_graphviz(dtc, out_file = f)

运行结果:

1208874-20180718165305214-1398439204.png

结果评价:

决策树在模型描述上有着巨大的优势。决策树的推断逻辑非常直观,具有清晰的可解释性,也方便了模型的可视化。一般无需考虑对数据的量化甚至标准化。

3.决策树模型的可视化

1)以上的代码将生成文件jueceshu.dot,需要通过Graphviz(http://www.graphviz.org/)将python生成的决策树dot文件转化成pdf文件。

2)安装Graphviz后,需要设置环境变量:

添加系统环境变量 :建立变量名GRAPHVIZ_DOT ;值为安装的路径C:\Program Files (x86)\Graphviz2.34\bin\dot.exe

设置环境变量 在用户环境变量添加以下一个变量;建立变量名GRAPHVIZ_INSTALL_DIR, 值为如C:\Program Files (x86)\Graphviz2.34

在系统环境变量建立变量名PATH中添加Graphviz的bin目录路径,如C:\Program Files (x86)\Graphviz2.34\bin

测试是否安装成功:在cmd中输入dot -version检验是否安装成功

3)通过cd指令切换到该目录下。

输入以下的指令:

dot -Tpdf jueceshu.dot -o output.pdf

生成的决策树:

1208874-20180824172457423-830464792.png

你可能感兴趣的:(python决策树sklearn_[python机器学习及实践(4)]Sklearn实现决策树并用Graphviz可视化决策树...)