Lipschitz连续 | Wasserstein距离 | KL散度(Kullback–Leibler divergence) | JS散度(Jensen-Shannon)

看论文经常看见这几个名词,但是概念却不甚了解,所以在此立贴汇总,方便查看。不定期更新~

Lipschitz(利普希茨)连续定义:

有函数f(x),如果存在一个常量K,使得对f(x)定义域上(可为实数也可以为复数)的任意两个值满足如下条件:

|f(x1)−f(x2)|≤|x1−x2|∗K

那么称函数f(x)满足Lipschitz连续条件,并称K为f(x)的Lipschitz常数。Lipschitz连续比一致连续要强。它限制了函数的局部变动幅度不能超过某常量。

 

Wasserstein距离

Wasserstein距离又叫Earth-Mover距离(EM距离),用于衡量两个分布之间的距离,定义:

W(P1,P2)=infγ∼Π(P1,P2)E(x,y)∼γ[||x−y||]
Π(P1,P2)是P1和P2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ,可以从中采样(x,y)∼γ得到一个样本x和y,并计算出这对样本的距离||x−y||,所以可以计算该联合分布γ下,样本对距离的期望值E(x,y)∼γ[||x−y||]。在所有可能的联合分布中能够对这个期望值取到的下界infγ∼Π(P1,P2)E(x,y)∼γ[||x−y||]就是Wasserstein距离。

直观上可以把E(x,y)∼γ[||x−y||]理解为在γ这个路径规划下把土堆P1挪到土堆P2所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。Wessertein距离相比KL散度和JS散度的优势在于,即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的远近。而JS散度在此情况下是常量,KL散度可能无意义。根据Kantorovich-Rubinstein对偶原理,可以得到Wasserstein距离的等价形式:

W(P1,P2)=sup||f||L≤1Ex∼P1[f(x)]−Ex∼P2[f(x)]

 

KL散度(Kullback–Leibler divergence)

KL散度是用于衡量分布之间的差异程度的,又称为相对熵、信息增益。
概率分布P1和P2的KL散度为:

KL(P1||P2)=Ex∼P1logP1P2=∫xP1(x)logP1P2dx.

可以认为是分布之间的“距离”,但是只可以在直观上这样理解,KL散度其实不满足距离的定义:首先它不是对称的;其次不满足三角不等式。在高维空间中如果两个分布不重叠或者重叠部分可忽略,则KL散度和JS散度反映不了远近,而是一个常量。

 

JS散度(Jensen-Shannon)

JS散度相似度衡量指标。现有两个分布P1和P2,其JS散度公式为:

JS(P1||P2)=12KL(P1||P1+P22)+12KL(P2||P1+P22)

由定义可以看出,JS散度是对称的,可以用于衡量两种不同分布之间的差异。JS散度用于生成对抗网络的数学推导上。

文章来源:https://blog.csdn.net/victoriaw/article/details/56674777

 

你可能感兴趣的:(深度学习,计算机视觉,机器学习,数学,Lipschitz,Wasserstein,KL,JS,信息论)