信息熵的基本了解

熵的概念是由德国物理学家克劳修斯于1865年所提出。化学及热力学中所指的熵,是一种测量在动力学方面不能做功的能量总数。熵亦被用于计算一个系统中的失序现象。熵是一个描述系统状态的函数,但是经常用熵的参考值和变化量进行分析比较。

  • 1:物理学上指热能除以温度所得的商,标志热量转化为功的程度。
  • 2:科学技术上用来描述、表征系统不确定程度的函数。亦被社会科学用以借喻人类社会某些状态的程度。
  • 3:传播学中表示一种情境的不确定性和无组织性。

应用范围
(1)热力学
熵在热力学中是表征物质状态的参量之一,通常用符号S表示。在经典热力学中,可用增量定义为dS=(dQ/T),式中T为物质的热力学温度;dQ为熵增过程中加入物质的热量。下标“可逆”表示加热过程所引起的变化过程是可逆的。若过程是不可逆的,则dS>(dQ/T)不可逆。从微观上说,熵是组成系统的大量微观粒子无序度的量度,系统越无序、越混乱,熵就越大。热力学过程不可逆性的微观本质和统计意义就是系统从有序趋于无序,从概率较小的状态趋于概率较大的状态。
(2)科学哲学
科学技术上泛指某些物质系统状态的一种量(liàng)度,某些物质系统状态可能出现的程度。亦被社会科学用以借喻人类社会某些状态的程度。
熵的增加就意味着有效能量的减少。每当自然界发生任何事情,一定的能量就被转化成了不能再做功的无效能量。被转化成了无效状态的能量构成了我们所说的污染。许多人以为污染是生产的副产品,但实际上它只是世界上转化成无效能量的全部有效能量的总和。耗散了的能量就是污染。既然根据热力学第一定律,能量既不能被产生又不能被消灭,而根据热力学第二定律,能量只能沿着一个方向——即耗散的方向——转化,那么污染就是熵的同义词。它是某一系统中存在的一定单位的无效能量。
(3)信息论
在信息论中,熵表示的是不确定性的量度。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。
熵在信息论中的定义如下:
如果有一个系统S内存在多个事件S = {E1,…,En}, 每个事件的机率分布 P = {p1, …, pn},则每个事件本身的讯息为
Ie = − log2pi
(对数以2为底,单位是位元(bit))
Ie = − lnpi
(对数以e为底,单位是纳特/nats)
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为
I_e = -\log_2 {1\over 26} = 4.7;
而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为
I_e = -\log_2 {1\over 2500} = 11.3
整个系统的平均消息量为
H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i
这个平均消息量就是消息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。
(4)生命科学
生命体是一个开放的系统,时刻与外界进行着物质、能量、信息的交换,符合“耗散结构”,可以用熵来分析一个生命体从生长、衰老、病死的全过程,用“生命熵”来独立定义。
生命熵的内容包含生命现象的时间序、空间结构序与功能序,生命熵变就直接反应这三个序的程度变化之和。

信息熵

信息熵及其相关概念
信息熵到底是什么
详解机器学习中的熵、条件熵、相对熵和交叉熵
在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中熵的概念),来解决信息的度量问题。也就是量化信息(信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。)。
一个事件或一个系统,准确的说是一个随机变量,它有着一定的不确定性。要消除这个不确定性,就需要引入很多的信息,这些很多信息的度量就用“信息熵”表达。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。

根据香农(Shannon)给出的信息熵公式,对于任意一个随机变量X,它的信息熵定义如下,单位为比特(bit):
在这里插入图片描述
并且规定0 log(0) =0。
那么多个随机变量的信息量是:H=-(p1·logp1+p2·logp2+…pn·logpn)
可以得到:系统中各种随机性的概率越均等,信息熵越大,反之越小。
在这里插入图片描述
Xi 表示信源符号的第 i 种取值,P(Xi)表示信源符号第 i 种取值出现的概率。
H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望
从公式可得,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大,且 0≤H(X)≤logn。

信息熵的三个性质

信息论之父克劳德·香农给出的信息熵的三个性质:

  1. 单调性,发生概率越高的事件,其携带的信息量越低;
  2. 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
  3. 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。

香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式
在这里插入图片描述
其中的C为常数,我们将其归一化为C=1即得到了信息熵公式。

对信息熵三条性质的理解

单调性说的是,事件发生的概率越低,其发生时所能给出的信息量越大。举一个极端的例子,“太阳从西边升起”所携带的信息量就远大于“太阳从东边升起”,因为后者是一个万年不变的事实,不用特意述说大家都知道;而前者是一个相当不可能发生的事情,如果发生了,那代表了太多的可能性,可能太阳系有重大变故,可能物理法则发生了变化,等等。从某种角度来考虑,单调性也暗含了一种对信息含量的先验假设,即默认某些事实是不含信息量的(默认事实其实也是一种信息,我理解的默认事实应该指的是概率分布),这其实是把默认情况的信息量定标为0了。

对累加性的解释,考虑到信息熵的定义涉及到了事件发生的概率,我们可以假设信息熵是事件发生概率的函数:
在这里插入图片描述

对于两个相互独立的事件 X=A,Y=B 来说,其同时发生的概率:
在这里插入图片描述
其同时发生的信息熵,根据累加性可知:
在这里插入图片描述
一种函数形式,满足两个变量乘积函数值等于两个变量函数值的和,那么这种函数形式应该是对数函数。再考虑到概率都是小于等于1的,取对数之后小于0,考虑到信息熵的第二条性质,所以需要在前边加上负号。

再看信息熵的公式,其中对概率取负对数表示了一种可能事件发生时候携带出的信息量。把各种可能表示出的信息量乘以其发生的概率之后求和,就表示了整个系统所有信息量的一种期望值。从这个角度来说信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。

计算例子

信息熵的计算
计算香农熵
各种信息熵(Information entropy)的计算方法
信息熵计算权重
(十一)通俗易懂理解——信息熵
信息熵和条件熵的计算
Python计算信息熵、条件熵、信息增益例子
机器学习(二):决策树原理及代码实现

条件熵H(Y|X)(Conditional entropy)与联合熵H(X,Y)

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望:
信息熵的基本了解_第1张图片
条件熵 H(Y|X) 相当于联合熵 H(X,Y) 减去单独的熵 H(X),即
H(Y|X)=H(X,Y)−H(X),证明如下:
信息熵的基本了解_第2张图片
联合熵的物理意义就是,观察一个多个随机变量的随机系统获得的信息量。
对于式子H(X,Y)=H(Y|X)+H(X)所表达的物理含义是,对一个两个随机变量的随机系统,我们可以先观察一个随机变量获取信息量,观察完后,我们可以在拥有这个信息量的基础上观察第二个随机变量的信息量

举个例子,比如环境温度是低还是高,和我穿短袖还是外套这两个事件可以组成联合概率分布 H(X,Y),因为两个事件加起来的信息量肯定是大于单一事件的信息量的。假设 H(X) 对应着今天环境温度的信息量,由于今天环境温度和今天我穿什么衣服这两个事件并不是独立分布的,所以在已知今天环境温度的情况下,我穿什么衣服的信息量或者说不确定性是被减少了。当已知 H(X) 这个信息量的时候,H(X,Y) 剩下的信息量就是条件熵:
H(Y|X)=H(X,Y)−H(X)
因此,可以这样理解,描述 X 和 Y 所需的信息是描述 X 自己所需的信息,加上给定 X 的条件下具体化 Y 所需的额外信息。

条件熵与联合熵的例子

条件熵的物理意义是在已知某一信息X前提下,能够获取另外信息Y的信息量,如果两个变量相关联的程度高,那么在知道X的情况下能推断出Y的信息量越多,条件熵就越低(熵是不确定,越确定,熵自然就低)。
通俗理解条件熵

熵权法——信息熵计算权重

信息熵计算权重
熵权法
指标权重确定方法之熵权法

你可能感兴趣的:(算法,概率论,线性代数,机器学习)