信息熵、相对熵、交叉熵总结

1、什么是信息熵
信息熵是由热力学的中的熵引出的概念,在热力学中,熵通常表示事物的混沌程度,事物越混沌,其熵越大。相应的信息熵表示的是随机变量的不确定性,某个事件发生的概率越小,其信息熵越大。具体公式为:
H ( P ) = − ∑ P ( X ) l o g P ( X ) H(P) = -\sum P(X) logP(X) H(P)=P(X)logP(X)
2. 什么是相对熵
相对熵也称为KL散度,描述的是随机变量的真实分布和假设分布的拟合程度,拟合程度越高,相对熵越小。若真实分布与假设分布完全一致,则相对熵为0。相对熵通常用于统计学中,当我们无法得知一个随机变量的真实分布,我们需要提出一个假设分布,并通过对相对熵进行优化得出最优的假设分布。具体公式为:
D ( P ∣ ∣ Q ) = ∑ P ( X ) l o g P ( X ) Q ( X ) D(P||Q) = \sum P(X) log \frac {P(X)} {Q(X)} D(PQ)=P(X)logQ(X)P(X)
3. 什么是交叉熵
知道了信息熵和相对熵自然就得出了交叉熵,将相对熵进行变换,即可得到:
D ( P ∣ ∣ Q ) = ∑ P ( X ) l o g P ( X ) Q ( X ) = − ∑ P ( X ) l o g Q ( X ) − [ − ∑ P ( X ) l o g P ( X ) ] H ( P , Q ) = − ∑ P ( X ) l o g Q ( X ) D(P||Q) = \sum P(X) log \frac {P(X)} {Q(X)} = -\sum P(X) log {Q(X)} -[- \sum P(X) log {P(X)}] \\ \quad \\ H(P,Q) = -\sum P(X) log {Q(X)} D(PQ)=P(X)logQ(X)P(X)=P(X)logQ(X)[P(X)logP(X)]H(P,Q)=P(X)logQ(X)
H(P,Q)即为交叉熵。在分类问题中,我们通常使用交叉熵评价一个模型的性能,即分类能力的强弱。为什么可以这样做呢?
这里的关键是信息熵是一个固定值,自然而然,但交叉熵越小,相对熵就越小,而相对熵就是对真实值与预测值分布的拟合程度的一个表示,相对熵越小,则代表了拟合程度越高。模型性能越好。

最后提一下最为常见的二分类交叉熵:
H ( P , Q ) = − ∑ y i l o g h ( x i ) + ( 1 − y i ) l o g ( 1 − h ( x i ) ) H(P,Q) = -\sum y_i log h(x_i) + (1 - y_i)log(1- h(x_i)) H(P,Q)=yilogh(xi)+(1yi)log(1h(xi))

你可能感兴趣的:(机器学习)