K-L散度(相对熵)的理解

信息量 I I I
消息中有意义的内容成为信息。信息量函数: I = − l n p i I=-lnp_i I=lnpi其中, p i p_i pi是事件 x i x_i xi的发生概率。

信息熵 H H H
它是用来对信息度量,描述信息的多于少的问题。公式为 H = − ∑ i = 1 N p ( x i ) ⋅ l o g   p ( x i ) H=-\sum_{i=1}^{N}p(x_i)\cdot log\ p(x_i) H=i=1Np(xi)log p(xi)log对数的底数没有明确,可以是2、e、或10,一般为2。如果我们使用以2为底的对数计算H值的话,可以把这个值看作是编码信息所需要的最少二进制位个数bits。注意:这个公式和上面信息量的公式,再和求期望的公式联系起来。这个信息熵的公式实质就是信息量的期望。
通过计算信息熵可以判断数据编码方式的优劣。

K-L散度
K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息。

K-L散度的公式是通过修改熵 H H H所得到的。
设p为观察得到的概率分布,q为另一分布来近似p,则p、q的K-L散度为: D K L ( p ∣ ∣ q ) = ∑ i = 1 N p ( x i ) ⋅ ( l o g   p ( x i ) − l o g   q ( x i ) ) D_{KL}(p||q)=\sum_{i=1}^{N}p(x_i)\cdot(log\ p(x_i)-log\ q(x_i)) DKL(pq)=i=1Np(xi)(log p(xi)log q(xi))从上面公式可以知道,K-L散度其实是数据的原始分布p和近似分布q之间的对数差值的期望。

这样我们就可以将K-L散度作为

你可能感兴趣的:(算法)