分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。
决策树(Decision Tree),又称判定树,是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。
分类树—对离散变量做决策树
回归树—对连续变量做决策树
优点:
(1) 速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,沿途的分裂条件就能够唯一确定一条分类的谓词。
(2) 准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要,即可以生成可以理解的规则。
(3)可以处理连续和种类字段
缺点:
(1) 对于各类别样本数量不一致的数据,信息增益偏向于哪些具有更多数值的特征
(2) 易于过拟合
(3) 对连续的字段比较难预测
(4) 不是全局最优
1.信息论
若一事假有k种结果,对应的概率为P_i,则此事件发生后所得到的信息量I为:
2.熵
给定包含关于某个目标概念的正反样例的样例集S,那么S相对这个布尔型分类的熵为:
其中P+代表正样例,p-代表反样例
3.条件熵
假设随机变量(X,Y),其联合分布概率为P(X=xi,Y=yi)=Pij,i=1,2,⋯,n;j=1,2,⋯,m
则条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性,其定义为X在给定条件下Y的条件概率分布的熵对X的数学期望
在Hunt算法中,通过递归的方式建立决策树。
1)如果数据集D中所有的数据都属于一个类,那么将该节点标记为为节点。
2)如果数据集D中包含属于多个类的训练数据,那么选择一个属性将训练数据划分为较小的子集,对于测试条件的每个输出,创建一个子女节点,并根据测试结果将D中的记录分布到子女节点中,然后对每一个子女节点重复1,2过程,对子女的子女依然是递归的调用该算法,直至最后停止。
分类系统中的条件熵指的是当样本的某一特征X固定时的信息熵
因此样本特征X取值为xi的概率是Pi,该特征被固定为值xi时的条件信息熵就是H(C|X=xi),那么H(C|X)就是分类系统中特征X被固定时的条件熵(X=(x1,x2,……,xn)):
使用信息增益,选择最高信息增益的属性作为当前节点的测试属性
1) 使用ID3算法构建决策树时,若出现各属性值取值数分布偏差大的情况,分类精度会大打折扣
2) ID3算法本身并未给出处理连续数据的方法
3) ID3算法不能处理带有缺失值的数据集,故在算法挖掘之前需要对数据集中的缺失值进行预处理
4) ID3算法只有树的生成,所以该算法生成的树容易产生过拟合
C4.5算法用信息增益率来选择属性,即选用信息增益比选择最佳特征
信息增益比率度量是用ID3算法中的增益度量Gain(D,X)和分裂信息度量SplitInformation(D,X)来共同定义的。分裂信息度量SplitInformation(D,X)就相当于特征X(取值为x1,x2,……,xn,各自的概率为P1,P2,…,Pn,Pk就是样本空间中特征X取值为Xk的数量除上该样本空间总数)的熵。
SplitInformation(D,X) = -P1 log2(P1)-P2 log2(P)-,…,-Pn log2(Pn)
GainRatio(D,X) = Gain(D,X)/SplitInformation(D,X)
C4.5先把连续属性转换为离散属性再进行处理。如果有N条样本,那么我们有N-1种离散化的方法:<=vj的分到左子树,>vj的分到右子树。计算这N-1种情况下最大的信息增益率。
1)对特征的取值进行升序排序
2)两个特征取值之间的中点作为可能的分裂点,将数据集分成两部分,计算每个可能的分裂点的信息增益(InforGain)。优化算法就是只计算分类属性发生改变的那些特征取值。
3)选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点
4)计算最佳分裂点的信息增益率(Gain Ratio)作为特征的Gain Ratio。
1) 使用信息增益比例而非信息增益作为分裂标准
2) 处理含有带缺失值的样本方法为将这些值并入最常见的某一类中或以最常用的值代替
3) 处理连续值属性
4)规则的产生:规则集存储于一个二维数组中,每一行代表决策树的一个规则
5) 交互验证:训练开始之前,预留一部分数据,训练之后,使用这部分数据对学习的结果进行验证
解决决策树对训练样本的过拟合问题
预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)
预剪枝是根据一些原则及早的停止树增长,如树的深度达到用户所要的深度、节点中样本个数少于用户指定个数、不纯度指标下降的最大幅度小于用户指定的幅度等。
通过在完全生长的树上剪去分枝实现的,通过删除节点的分支来剪去树节点,可以使用的后剪枝方法有多种,比如:代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等
修剪方式有:
1)用叶子节点来替换子树,叶节点的类别由子树下面的多类决定
2)用子树最常用的分支来替代子树
class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2,min_samples_leaf=1, max_features=None, random_state=None, min_density=None, compute_importances=None,max_leaf_nodes=None)
比较重要的参数:
模块中一些重要的属性方法:
使用建议
测试数据data.txt
1.5 50 thin
1.5 60 fat
1.6 40 thin
1.6 60 fat
1.7 60 thin
1.7 80 fat
1.8 60 thin
1.8 90 fat
1.9 70 thin
1.9 80 fat
Python实战代码
# -*- coding: utf-8 -*-
import numpy as np
from sklearn import tree
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import classification_report
from sklearn.cross_validation import train_test_split
#数据读入
data=[]
labels=[]
with open('C:\Users\Allen\Desktop\data.txt') as ifile:
for line in ifile:
tokens=line.strip().split(' ')
data.append([float(tk) for tk in tokens[:-1]])
labels.append(tokens[-1])
x=np.array(data)
labels=np.array(labels)
y=np.zeros(labels.shape)
#标签转化为0,1
y[labels=='fat']=1
#拆分训练数据和测试数据
x_train,x_test,y_train,y_test=train_test_split(x, y, test_size = 0.2)
#使用信息熵作为划分标准,对决策树进行训练
clf=tree.DecisionTreeClassifier(criterion='entropy')
print clf
#DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
#max_features=None, max_leaf_nodes=None, min_samples_leaf=1,
#min_samples_split=2, min_weight_fraction_leaf=0.0,
#presort=False, random_state=None, splitter='best')
clf.fit(x_train,y_train)
#把决策树写入文件
with open("tree.dot", 'w') as f:
f = tree.export_graphviz(clf, out_file=f)
# digraph Tree {
# node [shape=box] ;
# 0 [label="X[1] <= 75.0\nentropy = 0.9544\nsamples = 8\nvalue = [3, 5]"] ;
# 1 [label="X[0] <= 1.65\nentropy = 0.971\nsamples = 5\nvalue = [3, 2]"] ;
# 0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
# 2 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 2]"] ;
# 1 -> 2 ;
# 3 [label="entropy = 0.0\nsamples = 3\nvalue = [3, 0]"] ;
# 1 -> 3 ;
# 4 [label="entropy = 0.0\nsamples = 3\nvalue = [0, 3]"] ;
# 0 -> 4 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
# }
#系数反映每个特征的影响力。越大表示该特征在分类中起到的作用越大
print(clf.feature_importances_)
#测试结果的打印
answer=clf.predict(x_train)
print(x_train)
print(answer)
print(y_train)
print(np.mean(answer==y_train))
#准确率与召回率
#准确率:某个类别在测试结果中被正确测试的比率
#召回率:某个类别在真实结果中被正确预测的比率
#测试结果:array([ 0., 1., 0., 1., 0., 1., 0., 1., 0., 0.])
#真实结果:array([ 0., 1., 0., 1., 0., 1., 0., 1., 0., 1.])
#分为thin的准确率为0.83。是因为分类器分出了6个thin,其中正确的有5个,因此分为thin的准确率为5/6=0.83。
#分为thin的召回率为1.00。是因为数据集中共有5个thin,而分类器把他们都分对了(虽然把一个fat分成了thin!),召回率5/5=1。
#分为fat的准确率为1.00。不再赘述。
#分为fat的召回率为0.80。是因为数据集中共有5个fat,而分类器只分出了4个(把一个fat分成了thin!),召回率4/5=0.80。
#本例中,目标是尽可能保证找出来的胖子是真胖子(准确率),还是保证尽可能找到更多的胖子(召回率)。
precision, recall, thresholds = precision_recall_curve(y_train, clf.predict(x_train))
answer = clf.predict_proba(x)[:,1]
print(classification_report(y, answer, target_names = ['thin', 'fat']))