分布的相似度(距离)计算

作者:知乎用户
链接:https://www.zhihu.com/question/39872326/answer/83688277
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

1. Kullback-Leibler divergence
对于两个分布和,KL散度定义为。可以看出,如果要小,那么大的地方必须要大(否则会很大);而在小的地方,KL-divergence 的值对的大小就没那么敏感。相应地,如果要小,那么小的地方必须也要小;而在大的地方,同样地,KL-divergence 的值对的大小也没那么敏感。

下图来自 Machine Learning: A Probabilistic Perspective p734,演示了上述两种情况。图中 (蓝色)是一个二分量的高斯混合分布, (红色)是最小化 (图a)或 (图b-c)的高斯分布。感受一下区别。

分布的相似度(距离)计算_第1张图片
下图来自 Information Retrieval Perspective to Nonlinear Dimensionality Reduction for Data Visualization 的图2。作者在里面提出了一种非线性降维算法,目标函数(差不多)是两个方向的 KL-divergence 的加权平均。调整这个权值的话,三维球面上的点在二维平面上的降维结果会从A变化到B。这也是类似的原理。

分布的相似度(距离)计算_第2张图片

2. 其他 f-divergence
KL-divergence 的坏处在于它是无界的。事实上KL-divergence 属于更广泛的 f-divergence 中的一种。一般性的 f-divergence 定义为,如果取或者就能得到KL-divergence。除了KL-divergence,常用的 f-divergence 有 Hellinger distance、total variation distance 等等。这两种 f-divergence 都是有界并且对称的。


3. Wasserstein distance
只讨论最简单的一种情形,一般情形见维基链接。定义,也就是说,对任意边缘分布为和的联合分布,我们可以求出,而和的 Wasserstein distance 则定义为当取遍可能的分布时,这个期望的最小值的平方根。

Wasserstein distance 衡量了把数据从分布“移动成”分布时所需要移动的平均距离的最小值(类似于把一堆土从一个形状移动到另一个形状所需要做的功的最小值)。下图出自 Principal Differences Analysis: Interpretable Characterization of Differences between Distributions 的图S2。文章目的是找出能解释两个维数一样的总体分布不同的最小特征集。他们找了个例子,说明有时候使用 Wasserstein distance 来刻画分布之间的不同是必要的:右边的那个 gene expression 的分布,看上去十分像是把左边那个分布往上挤了之后的结果。所以如果要刻画这种“原因”导致的区别,用 Wasserstein distance 比其他要更合理。

分布的相似度(距离)计算_第3张图片

4. 其他。见 Statistical distance

还是那句话:先问自己关心分布之间怎样的不同,有没有什么特殊约束或要求,再据此作相应的选择。至于题主的例子……我不太清楚“分布里的横坐标有着很实际的意义,比如分贝或者转速”这句话对“衡量两个分布之间的相似度(或者距离)”有着什么样的具体约束。

你可能感兴趣的:(学习笔记)