KL,JS,Wasserstein距离

最近在学GAN和WGAN,遇到了KL散度,JS散度,Wasserstein距离(又叫EM距离)三个衡量概率分布相似度的度量方法。虽然之前也有接触KL,但是为了以后查找方便,还是决定做个记录总结。
本博客参考了下述博主的文章,这篇文章更多是整合及自己理解的总结,也可以说是转载文章,特别是第三篇知乎作者’AI带路党’对WGAN的介绍。
KL
KL,JS,Wasserstein距离
W距离与WGAN
W距离通俗理解

1. KL散度

还是先从最简单的KL散度说起,KL散度描述了连个分布的近似程度,用对数差表示。

写成期望的形式:
在这里插入图片描述
由上面式子可以知道KL散度不对称,不能用作距离。更多用作表示信息的损失。

2. JS散度

JS散度衡量了两个概率分布的相似度,是KL的变体。
在这里插入图片描述
由上面式子可以知道JS散度是对称的,可以用作刻画距离。下方图片与公式换过来对应。
KL,JS,Wasserstein距离_第1张图片
在KL散度中,当两个分布中有P1在采样点xi处的值为0时而P2不为0时,那么此时KL散度为0,假设这样的点比较少,则没有多大的意义;当两个分布中有P2在采样点xi处的值为0时而P1不为0时,那么此时KL散度为无穷大,导致KL散度没有意义。
在JS散度中,假若其中一个分布为零,另一个不为零,则JS散度为常数,梯度消失,无法更新。

3. GAN与JS散度

GAN的判别器损失函数定义如下:
在这里插入图片描述
写成期望的形式:
在这里插入图片描述
对其求导求最优:
在这里插入图片描述
在这里插入图片描述
将最优带入原来的损失函数:
在这里插入图片描述
这样就可以用JS散度表示:
在这里插入图片描述
因此当两个分布没有重叠或重叠很少时,GAN将无法得到更新。更详细的介绍可以看本文的第三个链接。

4. EM距离

Wasserstein距离度量两个概率分布之间的距离,定义如下:
在这里插入图片描述
Π(P1,P2)是P1和P2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ,可以从中采样(x,y)∼γ得到一个样本x和y,并计算出这对样本的距离||x−y||,所以可以计算该联合分布γ下,样本对距离的期望值E(x,y)∼γ[||x−y||]。在所有可能的联合分布中能够对这个期望值取到的下界inf(γ∼Π(P1,P2)E(x,y)∼γ[||x−y||])就是Wasserstein距离。

写成积分的形式:
在这里插入图片描述
简单的理解就是将分布P1变成P2的最小消耗(最短距离)。更加清晰的推理类比过程可见第四个链接。
将W距离用对偶的方式表示:
在这里插入图片描述

5. WGAN与EM距离

下文直接截图本文的第三个链接,作者写的实在是太好了。
KL,JS,Wasserstein距离_第2张图片
KL,JS,Wasserstein距离_第3张图片

你可能感兴趣的:(GAN)