信息论——KL\JS\Wasserstein

1.KL散度(Kullback-Leibler divergence)

在概率论或信息论中,KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。

有人将KL散度称为KL距离,但事实上,KL散度并不满足距离的概念,因为:
1)KL散度不是对称的;
2)KL散度不满足三角不等式。


由于对数函数是上凸函数,所以:


所以KL散度始终是大于等于0的,当且仅当两分布相同时,KL散度等于0。


2.JS散度(Jensen-Shannon)

JS散度相似度衡量指标。现有两个分布P1和P2,其JS散度公式为:


3.Wasserstein距离

Wasserstein距离又叫Earth-Mover距离(EM距离),用于衡量两个分布之间的距离,定义:

Π(P1,P2)是P1和P2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ,可以从中采样(x,y)∼γ得到一个样本x和y,并计算出这对样本的距离||x−y||,所以可以计算该联合分布γ下,样本对距离的期望值E(x,y)∼γ[||x−y||]。在所有可能的联合分布中能够对这个期望值取到的下界infγ∼Π(P1,P2)E(x,y)∼γ[||x−y||]就是Wasserstein距离。

直观上可以把E(x,y)∼γ[||x−y||]理解为在γ这个路径规划下把土堆P1挪到土堆P2所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。

Wessertein距离相比KL散度和JS散度的优势在于,即使两个分布的支撑集没有重叠或者重叠非常少,仍然能反映两个分布的远近。而[js散度在此情况下是常量,KL散度可能无意义。

根据Kantorovich-Rubinstein对偶原理,可以得到Wasserstein距离的等价形式:


概率论——Wasserstein距离

你可能感兴趣的:(信息论——KL\JS\Wasserstein)