1.决策树
决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。通过学习样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。
决策树的学习过程
1)特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。
2)决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止声场。
3)剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)。
2.例子:
数据集:泰坦尼克号乘客数据:一共有1313条乘客信息,这个例子中取pclass,sex,age
代码:
#coding=utf-8 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer #特征转换器 from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import classification_report from sklearn import tree #1.数据获取 titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt') #print titanic.head() #print titanic.info() X = titanic[['pclass','age','sex']] #提取要分类的特征。一般可以通过最大熵原理进行特征选择 y = titanic['survived'] print X.shape #(1313, 3) #print X.head() #print X['age'] #2.数据预处理:训练集测试集分割,数据标准化 X['age'].fillna(X['age'].mean(),inplace=True) #age只有633个,需补充,使用平均数或者中位数都是对模型偏离造成最小的策略 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33) # 将数据进行分割 vec = DictVectorizer(sparse=False) X_train = vec.fit_transform(X_train.to_dict(orient='record')) #对训练数据的特征进行提取 X_test = vec.transform(X_test.to_dict(orient='record')) #对测试数据的特征进行提取 #转换特征后,凡是类别型型的特征都单独独成剥离出来,独成一列特征,数值型的则不变 print vec.feature_names_ #['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male'] #3.使用决策树对测试数据进行类别预测 dtc = DecisionTreeClassifier() dtc.fit(X_train,y_train) y_predict = dtc.predict(X_test) #4.获取结果报告 print 'Accracy:',dtc.score(X_test,y_test) print classification_report(y_predict,y_test,target_names=['died','servived']) #5.将生成的决策树保存 with open("jueceshu.dot", 'w') as f: f = tree.export_graphviz(dtc, out_file = f)
运行结果:
结果评价:
决策树在模型描述上有着巨大的优势。决策树的推断逻辑非常直观,具有清晰的可解释性,也方便了模型的可视化。一般无需考虑对数据的量化甚至标准化。
3.决策树模型的可视化
1)以上的代码将生成文件jueceshu.dot,需要通过Graphviz(http://www.graphviz.org/)将python生成的决策树dot文件转化成pdf文件。
2)安装Graphviz后,需要设置环境变量:
添加系统环境变量 :建立变量名GRAPHVIZ_DOT ;值为安装的路径C:\Program Files (x86)\Graphviz2.34\bin\dot.exe
设置环境变量 在用户环境变量添加以下一个变量;建立变量名 GRAPHVIZ_INSTALL_DIR, 值为如C:\Program Files (x86)\Graphviz2.34
在系统环境变量 建立变量名PATH中添加Graphviz的bin目录路径,如C:\Program Files (x86)\Graphviz2.34\bin
测试是否安装成功:在cmd中输入dot -version检验是否安装成功
3)通过cd指令切换到该目录下。
输入以下的指令:
dot -Tpdf jueceshu.dot -o output.pdf
生成的决策树: