信息论(熵&信息增益&增益率&gini指数)

1、信息熵(Ent(D))

    用来度量一组样本集合的纯度(信息熵越小,纯度越高)。
假设在集合D中第k类的占比为,则D的信息熵为:

2、信息增益(Gain(D,a))

    用来表示当利用某属性(特征)对样本进行划分后,其纯度提升(一般信息增益越大,则属性划分后所获得的纯度提升越大)。

上式表示对样本集合D利用属性a进行划分后的信息增益(属性a的取值有),其中表示D中所有在属性a上取值为的样本集合。
注:决策树ID3就是利用信息增益选择划分特征的。
缺点:这样选择的特征偏好取值类别较多(v较大)的特征(例如某个特征的取值类别数等于样本数,则根据此特征划分之后,样本的纯度都已经达到了最大)。

3、增益率((D,a))

    为了解决信息增益的在选择特征上的偏好,故提出增益率。


其中:

(上式称为a的固有属性,随着v增大而增大)

注:决策树C4.5就是利用增益率选择划分特征的。
缺点:这样选择的特征偏好取值类别较少(v较小)的特征。
所以选择特征时:先利用信息增益选出高于平均水平的特征,然后再从这些特征中选择增益率最高的特征。

4、基尼指数(Gini(D))


通过上式可以看出,基尼指数反映的是两个样本标记不一致的概率,所以基尼指数越小,则纯度越高。

对于特征a,其基尼指数为:

注:CART决策树就是利用基尼指数选择划分特征的。

你可能感兴趣的:(信息论(熵&信息增益&增益率&gini指数))