机器学习基础·常用信息论基本概念

摘要

熵、KL散度、互信息

正文

  1. 熵认为小概率事件信息量大,一个分布的熵为信息量的期望

    离散形式:
    连续形式:
  • 离散形式下最大熵为均匀分布;连续形式下,确定时,最大熵为高斯分布
    另外有:

  1. 交叉熵、相对熵、互信息
    交叉熵:使用分布表示,
    相对熵:也称KL散度,使用分布表示后的分布差异:
    互信息:衡量随机变量之间的独立性,

  2. 关于KL散度的不对称性
    KL散度不是对称的,选择KL散度的哪个方向,取决于问题。一些应用需要这个近似分布q在真实分布p放置高概率的所有地方都放置高概率,而一些应用需要q在p低概率的地方都少放置高概率;前者选择p||q,后者q||p。

参考资料

[1] Bishop M. Pattern Recognition and Machine Learning[M].Springer,2006.
[2] Goodfellow.深度学习[M].人民邮电出版社,2017.

你可能感兴趣的:(机器学习基础·常用信息论基本概念)