什么是熵,如何计算?

1.什么是熵

熵(Entropy)原本是一个热力学概念,用来描述物质的混乱程度。熵越大,物质越混乱。

香浓借鉴了热力学中的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。

通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。不确定性函数f是概率P的减函数;两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P1,P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数,即


若信源符号有n种取值:U1,…Ui,…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵,即:

式中对数一般取2为底。对于二元信源(即只有0和1),其各自出现概率为P和Q=1-P,则改信源的熵为如下所示:
什么是熵,如何计算?_第1张图片
二元信源

由图可见,二元信源的熵有如下性质:
①非负性:即收到一个信源符号所获得的信息量应为正值,H(U)≥0
②对称性:即对称于P=0.5
③确定性:H(1,0)=0,即P=0或P=1已是确定状态,所得信息量为零
④极值性:因H(U)是P的上凸函数,且一阶导数在P=0.5时等于0,所以当P=0.5时,H(U)最大。

当0和1各占50%时,发射的信号0和1各占50%,此时信号最为混乱;当0或1出现概率为100%时,信号中只有一个值,此时所包含的信息非常“整洁”,所以信息熵时0。

2.熵如何计算

已知男女所占比率各为50%,所有人群中抽烟占40%,不抽烟占60%,而在抽烟人群中95%都是男性,不抽烟人群中80%是女性。如果我们已知一个人抽烟,那么我们可以很有信心的说该烟民为男性,但是我们如何去度量这种信心呢?因此,我们引入了熵,熵是用来度量该系统的不确定性,我们有多大的把握说出该烟民为男性。试想一下,当烟民中男女比例各占50%的时候,这是最不容易确定该烟民性别的情况,所以这个时候熵很高(信息很混乱)。
当男女烟民各占50%时,熵的计算过程为(以2为底):

我们令事件X不抽烟为a,抽烟为b,则X:{a=No-smoking, b=smoking}。
则不抽烟的人的熵为:
抽烟的人的熵为为:
可以看到烟民中性别分布要比非烟民更加不均衡,在这种情况下如果我们知道ta抽烟,则我们对ta的性别的判断更加准确。
抽烟事件整体的熵为:
我们在知道了烟民和非烟民中男女比例后要比瞎猜要准确多少如何度量呢,这时候引入新的概念,信息增益:

参考:
1.百度百科-信息熵

你可能感兴趣的:(什么是熵,如何计算?)