信息熵 GINI系数

熵(entropy)在统计学中是一个很重要的概念,用于特征的选择,衡量结果的不确定性, 信息熵越小, 结果越简单。

信息熵的计算公式:

信息熵

条件熵:
当一个特征固定以后, 结果的不确定性即为条件熵:

信息熵 GINI系数_第1张图片
条件熵

信息增益:
原熵-条件熵, 即为这个已确定变量给系统带来的稳定性增益:

信息熵 GINI系数_第2张图片
信息增益

H(c) 是分类结果的gain

当然特征带来的稳定性增益越大越好。但是有个问题, 如果一个特征有非常多的value, 那么我们一个节点的分支也会对应很多,很容易造成过拟合

信息增益比:
信息增益的一个大问题就是偏向选择分支多的属性导致overfitting,信息增益比公式对value值多的情况进行的惩罚处理(尽管如此,还是要剪枝)

Infomation Gain Ratio

H(c) 是分类类别的熵, 类别越多,熵倾向于越大;同理, H(X)是变量X的Gain, 变量X的取值越多,H(X)的值也会越大, 惩罚除数越大:

H(X)

在决策树算法中,ID3使用信息增益,c4.5使用信息增益比。

Gini系数:
CART中采用了Gini系数来构造二叉决策树, 二分类问题中,近似于熵之半,但计算要简单一些:

Gini系数

D表示全样本, pi表示每种类别出现的概率, 极端情况p = 1 则Gini = 0 , 不纯度最低,最稳定。
类似的, Gini增益:

屏幕快照 2017-07-13 21.35.14.png

参考:http://blog.csdn.net/bitcarmanlee/article/details/51488204

你可能感兴趣的:(信息熵 GINI系数)