信息量理解、信息熵公式的推导

1, 了解信息熵先弄明白信息量的概念

信息量是指信息多少的量度。

信息量有两个重要的特点:
(1)一个事件的信息量与这个事件发生的概率是呈负相关的。这个很好理解,就拿生活中的例子来说,越大概率事件所涵盖的信息量越小,如:晴天的早上太阳从东边升起,这可以说是一个必然事件,给我们带来的信息几乎为零。如:国足踢进了世界杯,对于这种几乎不可能的小概率事件,人们估计都会想把它搞清楚,想把他们搞清楚需要的信息很多,比如谁踢进的球,他们赛场上表现如何,犯规了吗等等…变量的不确定性越大,把它搞清楚所需要的信息量也就越大,这很容易理解。
(2)如果两个事件X、Y的发生没有相互影响的关系(两事件不相关),则信息量满足可加性:I(X,Y) = I(X)+ I(Y)

我们知道两个不相关事件X、Y发生的概率满足公式:P(X,Y)= P(X)* P(Y)。
由此我们想找到描述信息量与概率关系的函数公式,很显然log对数函数满足我们的需要,所以我们想出了信息量与概率的函数雏形:I(X) = log(P(X))。
此时我们需要思考一下,我们前面讲到信息量的性质(1)“一个事件的信息量与其发生的概率是呈负相关的”,由于log对数函数在定义域内是单调递增的,很显然我们的公式雏形不满足一点。这好办,前面加个符号就行了呗~ 即:I(X) = -log(P(X))。这下满足了吧!
由此我们得出了信息量与概率的函数:I(X) = -log(P(X))。我们可以简化一下:I = -logP

2,了解了信息量的含义之后,我们来看一下何为信息熵

信息熵可以理解为平均信息量。

假设有一个事件D有n种可能情况记为:信息量理解、信息熵公式的推导_第1张图片
发生的概率分别记为:信息量理解、信息熵公式的推导_第2张图片
D事件的信息熵,我们用Info(D)来表示,因为信息熵是描述平均信息量的,所以很容易得出计算公式为:在这里插入图片描述又因为在这里插入图片描述
( 注意:这里log对数函数底数取2,是因为信息用二进位编码
代入得信息熵公式为:在这里插入图片描述

你可能感兴趣的:(决策树)