决策树建构

1、首先引入一个概念:基尼指数,它是衡量分类好坏程度的一个量,值越大说明分类越混乱,选择的根节点极大可能不优。

 当引入某个分类的变量时候,基尼指数公式发生细微的变化

 2、信息熵与条件熵

与基尼指数一样可以用于系统混乱的评价,熵越大,说明越混乱,在此种情况下的分类是不好的,考虑进一步改进。计算公式如下,X是随机变量,代表分类的类别,比如二分类或者多分类。

同样的,引入分类的变量时,信息熵计算发生细微变化(可以认为就是条件熵)

为了比较选择不同变量进行分类后的效果好坏,这里引入另一个概念:信息增益,计算公式如下: 

这里的理解很简单,就是用分类前的信息熵(大些,混乱些)减去按照某个变量进行分类后的信息熵(一般小些)的差值来衡量,那么可以看到x信息增益最大(差值最大),说明条件熵越小,此种情况下的变量分类是最优的。 

可以看到基尼指数和信息熵绝大部分衡量的效果是一致的,但由于基尼指数的计算更简便,因此常常用于决策树的建构中。

那么提如下问题:

1、两者的优缺点是什么?有使用限制吗?

2、把两者结合起来,加权构建一个新的评估算法,有没有必要性?如果有,怎                               样进行更为合理的加权呢?

 

你可能感兴趣的:(决策树)