香农熵

介绍

Shannon熵是Claude E.Shannon在1948年的论文《通信的数学理论》中提出的。一般来说,熵指的是无序或不确定性。
在信息论中,系统是由发射机、信道和接收机来组成的。发射器产生发送的信息。通道以某种方式修改消息。接收方试图推断发送了哪条消息。

在这种情况下,熵(更具体地说,香农熵)是每个信息中包含的信息的期望值(平均值)。

在更规范的意义上来讲,将信息定义为可能事件或消息的概率分布对数的负值。每个事件的信息量构成一个随机变量,其期望值或平均值为香农熵。熵的单位是shannon、nat或hartley,这取决于用来定义它的对数的底,一般情况shannon通常被称为位。
**熵是对状态的不可预测性的一种度量,或者等价地说,它的平均信息量。当信息的概率分布已知时,香农熵精确地量化了所有这些考虑因素。**在熵的定义中,观察到的事件的意义(消息的含义)并不重要。熵只考虑观察到特定事件的概率,因此它所包含的信息是关于潜在概率分布的信息,而不是事件本身的意义。

定义:

香农将离散随机变量X的熵Η(定义为可能值{x1,…,xn}和概率质量函数(概率分布列或分布函数)P(X)为:
在这里插入图片描述
这里E是期望值运算符,I是X的信息量。(X)本身就是一个随机变量。
熵可以明确地写为
在这里插入图片描述
其中b是所用对数的底。b的公共值是2、欧拉数e和10,熵的单位是香农(shannon),b=2的是nat,b=10的是hartley。当b=2时,熵的单位通常也被称为比特。
也可以定义两个事件x和y的条件熵,分别取值Xi和Yi。
在这里插入图片描述
其中p(Xi,yJ)是x=Xi和y=Yi的概率。这个量应该理解为给定事件Y的随机变量X中的随机性量。

例子:

考虑用已知的(不一定公平的)正面或反面出现的概率投掷硬币;这可以模拟为伯努利过程。
如果硬币是公平的(也就是说,如果正面和反面的概率都是相等的1/2),那么下一次掷硬币的未知结果的熵将最大化。这是最不确定的情况,因为很难预测下一次掷硬币的结果;每次掷硬币的结果都会传递一整块信息。这是因为
在这里插入图片描述
然而,如果我们知道硬币是不公平的,但是出现正面或反面的概率p和q,其中p≠q,那么不确定性就少了。每一次投掷,一方比另一方更有可能出现。减少的不确定性以较低的熵量化:平均而言,每次掷硬币传递的信息不到一个完整的位。例如,如果p=0.7,则
在这里插入图片描述
最极端的情况是双头硬币永远不会出现反面,或者双头硬币永远不会产生正面。那么就没有不确定性了。熵为零:每次掷硬币都不会传递新信息,因为每次掷硬币的结果总是确定的。
熵可以用信息长度除以它来规范化(标准化,归一化)。这个比率被称为度量熵,是信息随机性的度量。

你可能感兴趣的:(数学知识)