产生式模型中概率分布的距离度量

全文下载地址:https://danilorezende.com/wp-content/uploads/2018/07/divergences.pdf
原题名:Short Notes on Divergence Measures
原作者:Danilo Jimenez Rezende
【写在前面】我从原文中截取了与我的研究方向关系较近的一小部分写在这里,供研究深度产生式模型或无监督学习(尤其是对KL距离感兴趣)的同学们参阅。顺序不完全依照原文。对此感兴趣的同学请自行参阅原文。

一、什么是两个概率分布的距离

在概率估计中,常遇到这样的问题:衡量概率密度函数P和Q的距离,这里P是数据的真实分布,Q是某参数分布,作为产生式模型对P的近似。

形式化为,距离,参数分布具有参数,真实数据分布为Q近似的目标。优化使最小。

对于距离,须满足三个公理:反身性、对称性、三角不等式。

  1. 反身性:
  2. 对称性:
  3. 三角不等式:

二、热门的KL距离,你为啥很火

KL距离,全称Kullback-Leibler divergence,也叫相对熵(relative entropy)或相对信息(relative informatioin)。KL距离牵涉到一个通信过程的问题:如何在收信者已知概率密度P的基础上,将Q分布传递给收信者。众多机器学习算法用KL距离作度量,是否仅仅是历史的路径依赖?更何况KL距离不满足对称性公理呢。
这里就要说到KL到底在干啥,用白话说就是用逻辑一致的方法来度量信息带来的惊讶程度,或信念转变的程度。后半句好理解,重点讲讲前半句。
根据文献[1],一个有道理的度量概率密度相对概率密度的距离,应该满足三个条件:
i.局部性,即局部的效应引发局部的反应。这样就将局限在这样的形式下:。换句话说,衡量和的距离必须在的条件下。这一条件对于没有限制。
ii.坐标不变性,即用来表示概率密度的坐标中不含信息,所以换另一种坐标对结果不产生影响。用表示对度量的可逆变换,,则

D(Q||P)=\int_X f(q(x),p(x),x)dx=\int_\tilde{X} f(\frac{(q\circ \phi^{-1})(\tilde{x})}{|det\frac{\partial \phi}{\partial x}|},\frac{(p\circ \phi^{-1})(\tilde{x})}{|det\frac{\partial \phi}{\partial x}|},\phi^{-1}(\tilde{x}))d\tilde{x}
为了让,有
\int_\tilde{X} f(\tilde{q}(\tilde{x}),\tilde{p}(\tilde{x}),\tilde{x})d\tilde{x}=\int_\tilde{X} f(\frac{(q\circ \phi^{-1})(\tilde{x})}{|det\frac{\partial \phi}{\partial x}|},\frac{(p\circ \phi^{-1})(\tilde{x})}{|det\frac{\partial \phi}{\partial x}|},\phi^{-1}(\tilde{x}))d\tilde{x}
就不再是任意选取,而必须采用形式

其中的输出是一个数值,而必须是一个概率密度函数。
【为了“干掉”,和必须一个是分子,一个是分母,这里选择q上p下;因为换元。为了干掉这一项,必须外面再出现一个概率密度函数,或者】
所以
或者。
iii.子系统可加性,即不同独立的子系统的信息满足可加性。这一限制将度量函数局限在这一类函数上。
满足这三个条件的只有KL距离,满足这三个条件的只有KL距离,满足这三个条件的只有KL距离。重要的事情说三遍。
【从上文可知定义应该也满足三个条件,但是不满足非负性。可以这样说明:
表示分布的混乱程度,表示联合分布的混乱程度,而】

三、还有其他的度量吗?

对于上一节的三个条件做适当放松,我们可以得到以下这些度量方式:
1.f-divergence族。形式为,这里是任意的凸函数,满足条件i和条件ii。
2.Stein divergence。形式为,这里是平滑函数满足。违反条件ii和条件iii
3.Cramer/能量 距离。,其中并且。违反全部i、ii、iii。如果把换成测地线距离,则符合条件ii,但距离结果是负数。
4.Wasserstein距离。,其中并且符合边际概率条件和。违反全部条件。如果把换成测地线距离,则符合条件ii。
5.Fisher距离。。符合条件i,如果在度量不变的空间符合条件ii。

Reference

[1]Ariel Caticha. Relative entropy and inductive inference. In AIP Conference Proceedings, volume 707, pages 75�96. AIP, 2004.

你可能感兴趣的:(产生式模型中概率分布的距离度量)