信息熵

http://www.sohu.com/a/72642268_224832

若一个随机变量X可能的取值有M个,则它的信息熵H(X)的取值在[0,logM]之间。当X取某个确定值的时候,H(X)最小为0;当X服从均匀分布时,H(X)最大为logM;即熵越大,表示随机变量X不确定性越大。(决策树中对应的,熵越大,叶子节点的不纯度越高)

注意:由于概率<=1,log(p)<=0,所以信息熵前面是有个负号的哟(因为熵代表的是用来表示这个变量的最小比特数,所以应该是个整数哒)

H(X) =

GINI指数:

https://blog.csdn.net/YE1215172385/article/details/79470926

由上面的链接可以看到,Gini指数可以看做信息熵在P=1处的一阶泰勒展开,所以GINI指数也可以用来衡量叶子节点的不纯度,与信息熵的大体趋势是一致的,并且避开了log计算,所以CART使用的GINI指数。

你可能感兴趣的:(信息熵)