香农信息熵、交叉熵和相对熵

一条信息的不确定性由它出现概率的负对数函数来表示。一方面负对数函数在数值上概率输入的单调递减函数,比如输入为1时值为0,输入为0时值为无穷大。另一方面,独立分布的概率的不确定性应等于各自的不确定性之和,f(x1, x2) = f(x1) + f(x2),负对数函数满足这条性质。

香农信息熵衡量了多条信息源的平均不确定性,定义为总体信息的不确定性的期望值。

交叉熵是指当我们手上有信息的真实分布p(x)和非真实分布q(x),我们以非真实分布来计算信息的不确定性,然后以真实分布来计算信息的香农信息熵,那么我们有H(p,q)=

上式衡量了非真实分布和真实分布的交叉熵H(p,q)。

根据Gibbs' inequality(https://en.wikipedia.org/wiki/Gibbs%27_inequality),H(p, q)不小于H(p),当且仅当q等于p时,两者相等。

相对熵为H(p, q) - H(p),又叫做KL散度,表示了p和q两个概率分布的差异性。p和q差异越大,KL散度越大,p和q越接近,KL散度越小。

我们在机器学习算法当中使用交叉熵作为loss,最小化交叉熵作为目标。也就说明了我们的优化目标,H(p,
q)最小化,是使得我们得到的非真实分布越来越接近真实分布。

以上参考
https://www.zhihu.com/question/41252833
https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5/7302318?fr=aladdin

你可能感兴趣的:(香农信息熵、交叉熵和相对熵)