一般的,一棵决策树包括包含一个根结点,若干个内部结点和若干个叶结点。
包括样本全集
从根结点到每个叶子结点的路径对应一个判定测试序列。
一个测试属性
决策结果
产生一棵泛化能力强的,处理未预见示例能力强的决策树,基本流程遵循简单且直观“分而治之”( divide-and-conquer )
1:当前结点包含的样本全属于同一类别,无需再划分
2:当前属性集为空,或是所有样本在所有属性取值相同,无法划分。(此时:把当前结点标记为叶子节点,将其类别设定为该结点所含样本最多的类别,利用当前结点后验分布)
3:当前结点包含样本集合为空,不能划分(此时:同样把当前结点标记为叶子结点,但是其类别是父结点所含样本最多的类别,把父结点的样本分布作为当前结点的先验分布)
作用:度量样本集合纯度的最常用的一种指标
假定当前样本集合 D 中第 k 类样本所占的比例为 pk(k=1,2,…,|Y|) ,则 D 的信息熵定义为
假定离散属性 a 有 V 个可能的取值 {a1,a2,…,aV} ,如果使用 a 来对样本集 D 进行划分,则会产生 V 个分支结点,其中第 v 个分支结点包含了 D 中所有在属性 a 上取值为 av 的样本,记为 Dv 。
计算 Dv 的信息熵,考虑到不同结点的样本数不同,给分支结点赋予权重 |Dv||D| 即样本数越多的分支结点的影响越大。
定义信息增益:
一般而言,信息增益越大,则意味着使用属性 a 来划分所得到的”纯度提升”越大。
从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。