信息熵定义与理解

一、熵的定义与含义

信息熵
初步引申以下熵的由来

1、热力学中的热熵是表示分子状态混乱程度的物理量,而香农用信息熵的概念来描述信源的不确定度。在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。
2、 定义如下
对于独立事件,它的概率为p时,利用公式(1)来衡量它的不确定性:
公式(1): f ( p ) = l o g n 1 b = − l o g n b f(p)=log_{n}\frac{1}{b} =-log_{n}b f(p)=lognb1=lognb
而信源的平均不确定性,称为信息熵,用下面的公式(2)表示:
公式(2): H ( U ) = E [ − l o g n p i ] = − ∑ i = 1 n p i l o g n p i H\left ( U \right )=E\left [ -log_{n}p_{i} \right ]=-\sum_{i=1}^{n}p_{i}log_{n}p_{i} H(U)=E[lognpi]=i=1npilognpi
参考相关资料说:
a. 当式中的对数的底为2时,信息熵的单位为比特。它底数为其它时,它对应的单位也不一样。
b. 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。

二、我对熵公式由来的理解

我们将公式(2)改写为常规思考形式如公式(3)所示,其中 p ( x i ) p(x_{i}) p(xi)代表随机事件X为 x i x_{i} xi 的概率:

公式(3): H ( X ) = − ∑ i = 1 n p ( x i ) l o g p ( x i ) H\left ( X \right )=-\sum_{i=1}^{n}p(x_{i})logp(x_{i}) H(X)=i=1np(xi)logp(xi)

  • 通过我们常规思考来分析,我们可以理解为信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如某某城市发生了10级的地震了;越大概率的事情发生了产生的信息量越小,如水在零下时会结冰(肯定发生嘛,没什么信息量)。
  • 总结相关规律得出一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负,还发现如果我们有俩个不相关的事件x和y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和。

由生活规律的总结利用数学形式来描述这种信息量规律。要满足以下几种性质:
(1)信息量: h ( x , y ) = h ( x ) + h ( y ) , 且 h ( x , y ) ≥ 0 h(x,y) = h(x) + h(y),且h(x,y)\geq0 h(x,y)=h(x)+h(y)h(x,y)0
(2)发生概率: p ( x , y ) = p ( x ) ∗ p ( y ) , 且 p ( x , y ) ≥ 0 p(x,y) = p(x)*p(y),且p(x,y) \geq0 p(x,y)=p(x)p(y)p(x,y)0

  • 根据上面推导,我们很容易看出h(x)一定与p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式,可以试试)。

因此我们有信息量公式如下:
h ( x ) = − l o g n p ( x ) h(x)=-log_{n}p(x) h(x)=lognp(x)
说明:
1.负号是为了确保信息一定是正数或者是0,使其不能为负数
2.(n我理解不到位,大家有谁理解了请留言回复)

相关资料说当n=2时,这是因为,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底!

  • 接下来引出信息熵
    信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望,考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。则会有以下形式。

H ( X ) = E [ − l o g n p ( x i ) ] = − s u m ( p ( x i ) l o g n p ( x i ) = − ∑ i = 1 n p ( x i ) l o g p ( x i ) H\left ( X \right )=E\left [ -log_{n}p(x_{i}) \right ]=-sum(p(x_{i})log_{n}p(x_{i})= -\sum_{i=1}^{n}p(x_{i})logp(x_{i}) H(X)=E[lognp(xi)]=sum(p(xi)lognp(xi)=i=1np(xi)logp(xi)

这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。


参考文献

  1. https://www.cnblogs.com/yinheyi/p/6843009.html
  2. https://www.cnblogs.com/shixisheng/p/7147956.html

你可能感兴趣的:(图像处理,算法学习)