熵之道

熵的定义如下:



条件熵的定义如下:


条件熵,H(D|A=ai)就是在知道A的确切条件之后计算的熵

H(D)和H(D|A)若从训练集得到,则分别称之为经验熵经验条件熵

互信息 = H(D) - H(D|A)

信息增益 = 经验熵 - 经验条件熵;

互信息信息增益理论上是等价的,只不过信息增益是从训练集中计算得到,是一种经验值,互信息是一种理想值。信息增益和信息增益比可以用于决策树选择特征。其思想都是希望被选择的特征能使得之前“混乱”的分类能变得更“确定 ”一些。而我们知道,信息越混乱,其熵就越大,如果选择了特征(即有了条件)之后,信息能变得更“有序”些,那未分类前的熵减去这个条件熵就能体现这个特征提升的“秩序”度。因此,信息增益越大,或者信息比越大,这个特征对分类可能越有利。

交叉熵 与 相对熵/KL散度(摘自github imhuay)

  • 定义 P 对 QKL 散度(Kullback-Leibler divergence):


KL 散度在信息论中度量的是哪个直观量?

  • 在离散型变量的情况下, KL 散度衡量的是:当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。

KL散度的性质

  • 非负;KL 散度为 0 当且仅当P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的
  • 不对称;D_p(q) != D_q(p)

交叉熵(cross-entropy):

信息量,信息熵,交叉熵,KL散度和互信息(信息增益) - CSDN博客
交叉熵 与 KL 散度的关系

  • 针对 Q 最小化交叉熵等价于最小化 P 对 Q 的 KL 散度,因为 Q 并不参与被省略的那一项。
  • 最大似然估计中,最小化 KL 散度其实就是在最小化分布之间的交叉熵。

    《深度学习》 ch5.5 - 最大似然估计

你可能感兴趣的:(熵之道)