学习观:信息与熵的关系

姓名:刘敏提     学号:20021110076    学院:电子工程学院

转载自:微信公众号学习观

【嵌牛导读】牵扯到 热力学熵的一种应用,然而不管考虑的是不是热力学熵,这种描述都是非常具有误导性的。因为热力学熵就是信息熵的特例,如果不能想明白二者的关系,意味着还没搞明白。接下来的视频会详细解释。题外话,很多人会觉得这个概念非常难的原因是因为它们反常识,违背你日常生活经验所构建出的模型。多数人都会根据自己已有的经验进行判断,从而产生抵触。但是不要认为自己很笨,因为信息和热力学熵的关系困扰科学家们都足足一百年之久

【嵌牛鼻子】热力学熵、信息熵、知识、信息

【嵌牛提问】问题1:信息与熵的关系是什么?

【嵌牛正文】


信息为什么还有单位,熵为什么用 log 来计算

如何定性的判断什么是熵和信息,其中有个例子:

当小明不知道选择题是 ABCD 哪个选项时:

小红告小明 “D 选项是错的”,提供了 0.415 bits 的信息

再告诉小明 “A选项是错的”,提供了 0.585 bits 的信息

再告诉小明 “B选项是错的”,提供了 1 bit 的信息

可明明每次都是告诉他一个错误选项,为什么三次提供给小明的信息量却都不相同? 信息量到底是怎么计算的?信息为什么还有单位?

一、“以此类推”

回想一下,什么东西有单位?质量,温度等物理量。

没错,信息也是一个物理量。 要测量这个物理量,不妨回想一下我们是怎么测量质量的,“千克”最初又是怎么被定义出来的?

其实最初我们并不知道千克的质量,而是选择了一个参照物,把这个物体的质量就称为千克。当想要测量其他物体的质量时,就看这个物体的质量相当于多少个参照物体的质量。这里的”多少个“便是千克。如果换另一个参照物体,那么单位就会变化,比如斤。 

测量信息是也是一样,既然信息消除的是不确定性,那么就选择另一个事件的不确定性作为参照事件。 当想要测量其他事件的信息时,就看看待测事件的不确定性相当于 多少个 参照事件的不确定性。这里的”多少个“便是信息量。

当选择的参照事物是像抛硬币这样,只有 2 种等概率情况的事件时,测得的信息量的单位就被称为比特。

有 e (自然底数) 种等概率情况的事件时,测得的信息量的单位就被称为 nat。

有 10 种等概率情况的事件时,测得的信息量的单位就被称为 ban。

二、“哪里不对”

然而测量质量时,我们是用 待测物体的质量 除以 参照物体的质量。 因为 待测物体的质量 m 等于 参照物体的质量 K 和 乘以 参照物体个数 n ,所以当知道 m 要求 n 时,我们用乘法的反函数,即除法来计算。 

可是测量信息时,却不能用除法,因为 抛掷 3 个硬币能够产生的等可能结果并非 3*2=6,而是 2^3=8 种。也就是说 待测不确定情况的个数 m 是由 参照不确定情况的个数 K 的参照物个数 n 是指数关系进行累积的。

所以当知道可能情况的个数 m,想求这些情况相当于多少个 n 参照事件所产生的时,我们用指数运算的反函数,即对数运算来计算。

这样 8 个不确定情况就相当于 3 个硬币抛 出的结果, 4 个不确定情况就相当于 抛 2 个硬币得出的,故小明对答案是ABCD里哪一选项的不确定性: log_2 4 = 2 bits。

三、“更普遍性”

但这里有个前提,那就是被测事件的所有可能情况都必须是等概率才行,因为参照事件本身的两种情况就是等概率。 

可是当不知道答案的小明被告知 “有一半可能性是 C 选项” 时,各个情况的概率就不一样了,这时该如何计算熵呢?

答案是分别测量待测事件每种可能情况的信息量后,乘以它们各自的发生概率再相加即可。

不过,怎么测量每种情况的信息量呢? 怎么知道概率为 1/6 的情况的不确定性相当于抛掷多少次硬币所产生的不确定性呢? 

我们确实没法再用 log m 这个公式了,但我们知道 1% 会发生的情况,相当于从100个等概率情况中确定实际情况, 概率的倒数等于等概率情况的个数,m = 1/p。 

用 1/p 替换 m 后,我们就可以计算每种情况的信息量了, 再用每个情况的信息量乘以对应发生的概率,再相加后,就能算总信息量了。 

i: 用于指定第几个具体情况

p_i:第 i 个具体情况的概率

Σ:表示 i 个情况计算出的 p log p 累加起来

之所以前面有负号是因为 

log 1/p = log p^-1 = -log p

概率的倒数变成了负号被拿到前面了

回到例子中,不知道任何答案的小明对 答案的不确定性是:

log_2 1/p = log_2 1/4 = 2

当被告知 C 有 50%概率是正确答案时,小明对答案的不确定性是:

1/6 * log_2 6/1 + 

1/6 * log_2 6/1 + 

1/2 * log_2 2/1 + 

1/6 * log_2 1/6= 1.79

2-1.79=0.21 bits, 也就是小红告诉小明”C 的概率是 50%“时提供的信息。

可以思考一下:

为什么三次提供给小明的信息量却都不相同?

再次描述一遍信息与熵的关系:

某人对某物的熵(不确定性)相当于水杯,信息相当于水,新填充的水(新信息)要看杯子原来有多少水(已有信息),但水无法溢过杯子(能接收到的最大信息就是该人目前的剩余不确定性)。

伟大的数学家:克劳德·香农(Claude Elwood Shannon),信息公式的发明者。

你可能感兴趣的:(学习观:信息与熵的关系)