通俗理解信息熵、交叉熵和相对熵

通俗理解信息熵、交叉熵和相对熵
(一)觉得这两篇博客讲的还不错,本文只进行了简单的总结。https://blog.csdn.net/saltriver/article/details/53056816
https://www.cnblogs.com/liaohuiqiang/p/7673681.html

1. “信息是用来消除随机不确定性的东西”
所以信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。

2. 信息熵其实是一个随机变量信息量的数学期望。
我们可以用log ( 1/P )来衡量不确定性。P是一件事情发生的概率,概率越大,不确定性越小【P越大,log ( 1/P )越小。还有log的底默认为2,实际上底是多少都可以,但是在信息论中我们经常讨论的是二进制和比特,所以用2。】。
可以看到下面信息熵的公式,其实就是log ( 1/P )的期望【log ( 1/P )期望公式就是这样】,就是不确定性的期望,它代表了一个系统的不确定性,信息熵越大,不确定性越大。
在这里插入图片描述

3. 信息熵在联合概率分布的自然推广,就得到了联合熵。
通俗理解信息熵、交叉熵和相对熵_第1张图片
当X, Y相互独立时,H(X, Y) = H(X) + H(Y)
当X和Y不独立时,可以用 I(X, Y) = H(X) + H(Y) - H(X, Y) 衡量两个分布的相关性,这个定义比较少用到。

4. 交叉熵和KL散度
这里可以引申出交叉熵的理解,现在有两个分布,真实分布p和非真实分布q,我们的样本来自真实分布p。
按照真实分布p来编码样本所需的编码长度的期望为在这里插入图片描述,这就是上面说的信息熵H( p )。

按照不真实分布q来编码样本所需的编码长度的期望为在这里插入图片描述,这就是所谓的交叉熵H( p,q )
这里引申出KL散度D(p||q) = H(p,q) - H§ = 在这里插入图片描述,也叫做相对熵,它表示两个分布的差异,差异越大,相对熵越大。
机器学习中,我们用非真实分布q去预测真实分布p,因为真实分布p是固定的,D(p||q) = H(p,q) - H§ 中 H§ 固定,也就是说交叉熵H(p,q)越大,相对熵D(p||q)越大,两个分布的差异越大。
所以交叉熵用来做损失函数就是这个道理,它衡量了真实分布和预测分布的差异性。

你可能感兴趣的:(基础知识)