信息量是对信息的度量,就跟时间的度量是秒一样
,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?
多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。
信息的大小跟随机事件的概率有关
。越小概率的事情发生了产生的信息量越大
,如某地产生的地震了;越大概率的事情发生了产生的信息量越小
,如太阳从东边升起来了(肯定发生嘛,没什么信息量),信息量的大小跟事情不确定性的变化有关
。
那么,不确定性的变化跟什么有关呢?
1,跟事情的可能结果的数量有关
;2,跟概率有关
。
先说1。
再说2,单看可能结果数量不够,还要看初始的概率分布。
将衡量不确定性的变化的大小叫做信息量
信息量起码该满足些什么特点呢?
起码不能为负
。并且信息量和信息量之间可以相加吧!
信息量是连续依赖于概率的吧!
因此一个具体事件的信息量应该是随着其发生概率而递减的
但是这个表示信息量函数的形式怎么找呢?
随着概率增大而减少的函数形式太多了
!还有下面这条性质
如果我们有俩个不相关的事件
x x x和 y y y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和
,即
: h ( x , y ) = h ( x ) + h ( y ) h(x,y)=h(x)+h(y) h(x,y)=h(x)+h(y)
由于 x , y x,y x,y是两个独立的事件,那么满足 p ( x , y ) = p ( x ) ∗ p ( y ) p(x,y) = p(x)*p(y) p(x,y)=p(x)∗p(y)。
根据上面推导,我们很容易看出
h ( x ) h(x) h(x)一定与
p ( x ) p(x) p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式,也就是乘法加对数后变加法)
。因此我们有信息量公式如下: − log 2 P ( x i ) -\log_2P(x_i) −log2P(xi)
下面解决两个疑问?
负号是为了确保信息一定是正数或者是0
( P ( x ) P(x) P(x)只能是0-1),总不能为负数吧
!信息量取概率的负对数,其实是因为信息量的定义是概率的倒数的对数
( 1 P ( x i ) \frac{1}{P(x_i)} P(xi)1,这里概率不可能为0)。而用概率的倒数,是为了使概率越大,信息量越小,同时因为概率的倒数大于1,其对数自然大于0了
。这是因为,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底!
一个事件的信息量就是这个事件发生的概率的负对数
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望(平均值)——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。
信 息 量 的 期 望 : E = h ( x 1 ) p ( x 1 ) + h ( x 1 ) p ( x 1 ) + h ( x 2 ) p ( x 2 ) + h ( x 3 ) p ( x 3 ) + … + h ( x n ) p ( x n ) 信息量的期望: E = h(x_1)p(x_1) + h(x_1)p(x_1) + h(x_2)p(x_2) + h(x_3)p(x_3) + …+ h(x_n)p(x_n) 信息量的期望:E=h(x1)p(x1)+h(x1)p(x1)+h(x2)p(x2)+h(x3)p(x3)+…+h(xn)p(xn)即 H ( X ) = − ∑ i = 1 n P ( x i ) log 2 P ( x i ) H(X) = -\sum_{i = 1}^nP(x_i)\log_2P(x_i) H(X)=−i=1∑nP(xi)log2P(xi)
信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。
如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。
要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-Leibler Divergence) -> 交叉熵这个顺序入手
不严谨的概念:
一句话总结的话:KL散度可以被用于计算代价,而在特定情况下最小化KL散度等价于最小化交叉熵。而交叉熵的运算更简单,所以用交叉熵来当做代价。
对于一个随机变量x的事件A的自信息量,如果我们有另一个独立的随机变量x相关的事件B,该怎么计算它们之间的区别?
默认的计算方法:KL散度,有时候也叫KL距离,一般被用于计算两个分布之间的不同
。看名字似乎跟计算两个点之间的距离也很像,但实则不然,因为KL散度不具备有对称性
。在距离上的对称性指的是A到B的距离等于B到A的距离。
举例
选取的参照物不同,那么得到的结果也不同
。更严谨的说,应该是说我们对于张三和李四买土鸡蛋的期望不同,可能张三天天买2个土鸡蛋,而李四可能因为孩子满月昨天才买了6个土鸡蛋,而平时从来不买。KL散度的数学定义:
换句话说,KL散度由A自己的熵与B在A上的期望共同决定。当使用KL散度来衡量两个事件(连续或离散),上面的公式意义就是求 A与B之间的对数差 在 A上的期望值。
就是说KL散度和交叉熵在特定条件下等价
。最小化KL散度等价于最小化交叉熵
(看上面的公式)。作者:运筹之学
作者:忆臻
作者:微调