理解JS散度(Jensen–Shannon divergence)

文章目录

  • 1.KL散度
    • 1.1 KL散度的性质
    • 1.2 KL散度的问题即JS散度的引出
  • 2. JS散度
  • 为什么会出现两个分布没有重叠的现象
  • 参考文献

1.KL散度

  • 用来衡量两个分布之间的差异,等于一个交叉熵减去一个信息熵(交叉熵损失函数的由来)
    理解JS散度(Jensen–Shannon divergence)_第1张图片

1.1 KL散度的性质

  • 非负性(用Jenson‘s inequality 证明)
  • 不对称性,即KL(P||Q)≠KL(Q||P)

1.2 KL散度的问题即JS散度的引出

  • 正是由于KL散度的不对称性问题使得在训练过程中可能存在一些问题,为了解决这个问题,我们在KL散度基础上引入了JS散度

2. JS散度

  • 一般地,JS散度是对称的,其取值是 0 到 1 之间。如果两个分配 P,Q 离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为 0。梯度消失了。

理解JS散度(Jensen–Shannon divergence)_第2张图片
理解JS散度(Jensen–Shannon divergence)_第3张图片
理解JS散度(Jensen–Shannon divergence)_第4张图片

为什么会出现两个分布没有重叠的现象

理解JS散度(Jensen–Shannon divergence)_第5张图片

参考文献

参考此博客

你可能感兴趣的:(数学基础,深度学习)