区别:KL散度,JS散度,Wasserstein距离(EMD)

1 .KL散度(相对熵):

区别:KL散度,JS散度,Wasserstein距离(EMD)_第1张图片

性质:

①描述两个概率分布P,Q之间的差异

②非负性:当且仅当两分布相同,相对熵等于0

③非对称性:D(p||q)≠D(q||p)

④不是距离,且不满足三角不等式

⑤相对熵 = 交叉熵 – 信息熵: D(p||q) = H(p,q) – H(p)

意义:

①典型情况下,P:数据的真实分布;Q:数据的理论分布、模型分布,P的近似分布

②KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。

③在GAN中,p为真实数据的概率分布,q为随机噪声生成数据的概率分布,对抗的目的是让q充分拟合p。

④散度D(p||q)为信息熵H(p)与交叉熵H(p,q)的差,衡量q拟合p的过程中产生的信息损耗,损耗越少。

2.JS散度(Jensen-Shannon

性质:

①对称的,可以用于衡量两种不同分布之间的差异

②取值:0~1

③常用于GAN上的数学推导

意义:

①两个分布P,Q距离远,完全重叠时KL散度无意义,而JS散度是一个常数。

Q:这就意味着这一点的梯度为0,梯度消失。

3.Wasserstein距离(Earth-Mover 距离)

区别:KL散度,JS散度,Wasserstein距离(EMD)_第2张图片

等价形式(根据Kantorovich-Rubinstein对偶原理):

意义:

假设有两个工地PQP工地上有m堆土,Q工地上有n个坑,现在要将P工地上的m堆土全部移动到Q工地上的n个坑中,所做的最小的功

②面对P,Q分布很远几乎无重叠的情况,仍能反映两个分布的远近

 

区别:KL散度,JS散度,Wasserstein距离(EMD)_第3张图片

WGAN引入了Wasserstein距离,由于它相对KL散度与JS散度具有优越的平滑特性,理论上可以解决梯度消失问题。接着通过数学变换将Wasserstein距离写成可求解的形式,利用一个参数数值范围受限的判别器神经网络来最大化这个形式,就可以近似Wasserstein距离。在此近似最优判别器下优化生成器使得Wasserstein距离缩小,就能有效拉近生成分布与真实分布。WGAN既解决了训练不稳定的问题,也提供了一个可靠的训练进程指标,而且该指标确实与生成样本的质量高度相关。

 

你可能感兴趣的:(学习笔记)