9-信息熵与基尼系数

一、基尼系数是什么?

1)定义

    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。

9-信息熵与基尼系数_第1张图片

2)基尼系数有什么意义?
    我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04
类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0.04
类别三 0 0 0.3 0.2 p3^2 0 0 0.09 0.04
类别四 0 0 0 0.2 p4^2 0 0 0 0.04
类别五 0 0 0 0.2 p5^2 0 0 0 0.04
基尼系数 0.18 0.5 0.66 0.8 总和 0.82 0.5 0.34 0.2
总和 1 1 1 1 基尼系数 0.18 0.5 0.66 0.8
9-信息熵与基尼系数_第2张图片

    由上图我们可以观察到,类别的个数是 方案一(2个) < 方案三(3个) < 方案四(4个) ,基尼系数为 方案一 < 方案三 < 方案四;而方案一和方案二类别个数相同,但方案一的类别集中度比方案二要高,而基尼系数为  方案一  <  方案二

    基尼系数的特质是:
1) 类别个数越少,基尼系数越低;    
2)类别个数相同时,类别集中度越高,基尼系数越低。
当类别越少,类别集中度越高的时候,基尼系数越低;当类别越多,类别集中度越低的时候,基尼系数越高。
【类别集中度是指类别的概率差距,0.9+0.1的概率组合,比起0.5+0.5的概率组合集中度更高】
二、熵
1)熵是什么?
下面是摘自李航《统计学习方法》中熵的定义。

9-信息熵与基尼系数_第3张图片

2)怎样理解熵的意义?
我们可以先来看一组数据

X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四
类别一 0.9 0.5 0.4 0.2 p1*(-lnp1) 0.09 0.35 0.37 0.32
类别二 0.1 0.5 0.3 0.2 p2*(-lnp2) 0.23 0.35 0.36 0.32
类别三 0 0 0.3 0.2 p3*(-lnp3) 0.00 0.00 0.36 0.32
类别四 0 0 0 0.2 p4*(-lnp4) 0.00 0.00 0.00 0.32
类别五 0 0 0 0.2 p5*(-lnp5) 0.00 0.00 0.00 0.32
0.82 0.50 0.34 0.20 0.82 0.50 0.34 0.20 
9-信息熵与基尼系数_第4张图片

 可以看到,这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质,它们都可以用来衡量信息的不确定性。

你可能感兴趣的:(机器学习)