策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。(概念摘自百度百科)
在这里先引入信息熵和信息增益的定义
在信息论与概率论中,熵(entropy)用于表示随机变量不确定性的度量,越不确定的事物,它的熵就越大。因此信息熵是度量样本集合纯度最常用的一种指标。
假定当前集合 D D 中第k类样本所占的比例为 pi(i=1,2,3,...) p i ( i = 1 , 2 , 3 , . . . ) ,则D的信息熵定义为
条件熵类似于条件概率,在一个条件下,度量随机变量的不确定性。
信息增益 = 熵 - 条件熵
表示在一个条件下,信息不确定性减少的程度。
用信息增益作为标准容易偏向于取值较多的特征,也就是分类较多的特征,C4.5算法选择使用增益率来选择最优划分属性,增益率是信息增益和特征熵的比值
决策树的基本思想,实际上就是寻找纯度的划分方法。根据不纯度的不同选取方法,形成了不同的决策树算法
ID3算法的核心是在决策树的各个结点上应用信息增益准则进行特征选择。具体做法是:
(1)从根节点开始,对结点计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征,并由该特征的不同取值构建子节点;
(2) 对子节点重复以上方法,构建决策树;
(3)直到所有特征的信息增益均很小或者没有特征可选时为止。
步骤与ID3算法类似,只是用的是增益率做不纯度
剪枝是决策树算法中对付过拟合的方法,主要分为预剪枝和后剪枝
(1)每一个结点所包含的最小样本数目,当该结点总样本数小于最小样本属时,则不再分;
(2)指定树的高度或者深度;
(3)指定结点的熵小于某个值,不再划分。
总体思想:先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶节点.
后剪枝泛化能力强,但耗时远远多于预剪枝