信息量、熵、KL散度和交叉熵

信息量:

X是一个离散型随机变量,概率分布函数p(x)=Pr(X=x),事件X=x0的信息量为:

  • 概率大的事情携带信息量小
  • 概率小的事情携带信息量大



对于某件事情,可能有n种可能,每一种可能都带有一个概率p(xi),这样就可以考虑用一个量来计算这件事情的信息量。这个很好理解,直接把这个事情可能发生的各种事件信息量加起来就可以了。

KL散度(相对熵)

相对熵又称KL散度,如果我们对于同一个随机变量x有两个单独的概率分布P(x)和Q(x),我们可以使用KL散度来衡量这两个分布的差异。

  • 用P(x)来描述样本的真实分布,用Q(x)来描述样本的预测分布。举例:P(X=猫) = [1,0,0], Q(X=猫) = [0.7,0.1,0.2]


  • D_KL值越小,表示P、Q分布越接近

交叉熵

KL散度是交叉熵和信息量公式的组合

交叉熵的公式:


  • 在机器学习中,评估标签和预测结果之间的差距就是用交叉熵,因为对于某一个事件信息量一般是固定的,故在优化过程中,只关注交叉熵就可以了。

参考链接:
https://blog.csdn.net/tsyccnh/article/details/79163834

你可能感兴趣的:(信息量、熵、KL散度和交叉熵)