简单理解信息熵,交叉熵,相对熵的概念(未完待续...)

参考资料:
机器之心:如何理解KL散度的不对称性?
知友CyberRep:如何通俗的解释交叉熵与相对熵?
Youtube Aurélien Géron: A Short Introduction to Entropy, Cross-Entropy and KL-Divergence


首先,我们先拿Aurélien Géron的视频来讲,直观理解一下信息传递的一些基本概念。

信息论的鼻祖克劳德•香农在1948年的论文中提出了用bits来传递信息。一个bit可以是0或1,但是问题是传递一条信息用的bits并不是所有的都有可用的---有一些是冗余的,有一些是错误的。所以我们的目的是尽可能多地传递有用的信息。香农理论指出,每传递1个bit,接收端的不确定性就会减少1倍。这个在等概率传递情况下很好理解,在非等概情况下,视频作者举了一个例子:

非等概情况

本来你不确定明天有雨,即下雨概率是0.25,现在气象站告诉你明天肯定下雨,这时候你这里接收到下雨的概率为1,不确定性瞬间减少了4倍(减少的倍数就是概率的倒数)!这条信息包含的信息量就是-log24=2 bits。而对于晴天来说,晴天概率为0.75,如果气象站告诉你明天是晴天,这时接收到晴天的概率为1,不确定性减少了4/3。这里可能会有同学有疑问,如果接收到明天有雨,那晴天的概率就是0,那不确定性难道减少了0倍吗??!哈哈,关于这个问题,视频下有高赞评论讨论了

读者Jenny Read
I do have one suggestion. I think some people might struggle a little bit around 2m22s where you introduce the idea that if P(sun)=0.75 and P(rain)=0.25, then a forecast of rain reduces your uncertainty by a factor of 4. I think it's a little hard to see why at first. Sure, initially P(rain)=0.25 while after the forecast P(rain)=1, so it sounds reasonable that that would be a factor of 4. But your viewers might wonder why you can’t equally compute this as, initially P(sun)=0.75 while after the forecast P(sun)=0. That would give a factor of 0!
You could talk people through this a little more, e.g. say imagine the day is divided into 4 equally likely outcomes, 3 sunny and 1 rainy. Before, you were uncertain about which of the 4 options would happen but after a forecast of rain you know for sure it is the 1 rainy option – that’s a reduction by a factor of 4. However after a forecast of sun, you only know it is one of the 3 sunny options, so your uncertainty has gone down from 4 options to 3 – that’s a reduction by 4/3.

那么,你从气象站接受到的平均信息量是多少呢?应该是75% * 0.41 + 25% * 2 = 0.81bit,这里呢就引出了的概念,同时我们介绍一下自信息的概念:

自信息:符合分布 P 的某一事件 x 出现,传达这条信息所需的最少信息长度为自信息,表达为

自信息

:从分布 P 中随机抽选一个事件,传达这条信息所需的最优平均信息长度为香农熵,表达为
信息熵

因为一般情况下我们使用二进制传递信息,所以上面公式中的log底数通常为2。针对这里的例子来讲,信息熵的物理意义是:它衡量你每天了解天气时获得的平均信息量,或者更一般地说,你从给定概率分布中抽取的一个样本获得的平均信息量。他可以告诉你概率分布的结果的不可预测的程度。如果你长年居住在沙漠,因为几乎每天都是晴天,你就不会从气象站得到很多信息,信息熵几乎是0;相反,如果你居住在一个天气变化莫测的地方,你每天就能从气象站接收到更多的信息。(这里提一下,信息熵最大的情况是各个事件等概率的情况,这个后面会说到)

你可能感兴趣的:(简单理解信息熵,交叉熵,相对熵的概念(未完待续...))