GAN网络:JS散度与Wasserstein距离

目录

1  生成模型与判别模型的区别

2 各种距离&散度的度量

2.1 香农熵

2.2 信息熵

2.3 交叉熵

2.4 KL散度(相对熵)

2.5 JS散度

2.6 Wasserstein距离


1  生成模型与判别模型的区别

生成模型:对数据的联合分布 \large p\left ( x,y \right ) 建模,从统计角度表示数据分布与数据生成方式,收敛速度快

常见生成模型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;

判别模型: 对 条件分布 \large p\left ( y|x \right ) 建模,不关心数据生成方式,主要寻找不同类别间的最优分类面

常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;
 

2 各种距离&散度的度量

2.1 香农熵

1)设P为连续随机变量X的概率分布,则\large P\left ( X=x \right )= P\left ( x \right ) ,在 X=x 处香农信息量定义为\large -logP\left ( x \right ) 

(当对数以2为底时,信息量的单位为比特;以e为底时,单位为奈特)

2)用于刻画消除X=x 处的不确定性所需的信息量大小

2.2 信息熵

信息熵  \large H\left ( P \right ) 是香农信息量\large -logP\left ( x \right ) 的数学期望,

\large H\left ( P \right ) =H\left ( x\right ) =E_{x\sim p\left ( x \right )}\left [ -logP\left ( x \right ) \right ]= - \int P\left ( x \right ) logP\left ( x \right )\mathrm{d}x

2.3 交叉熵

假设 \large q\left ( x \right )  用于拟合 \large p\left ( x \right ) 的概率分布,\large x 属于\large p 的样本空间;

交叉熵用于衡量\large q 在拟合\large p 时,用于消除不确定性而充分使用的信息量的大小。

\large H\left ( p,q \right )=E_{x\sim p\left ( x \right )}\left [- logq\left ( x \right ) \right ] = - \int p\left (x \right )logp\left ( x \right ) \mathrm{d}x

 

2.4 KL散度(相对熵)

假设 \large q\left ( x \right ) 用于拟合 \large p\left ( x \right ) 的概率分布,\large x 属于\large p 的样本空间; \large D_{KL}\left ( p\, ||\, q \right )= \sum_{x\in X}p\left ( x \right )log \frac{p\left ( x \right )}{q\left ( x \right )} , KL散度具有非负性。

在GAN中,p为真实数据的分布q为随机噪声生成数据的概率分布,对抗的目的就是让q充分拟合p;若q完全拟合p,则有\large H\left ( p,q \right )=H\left ( p \right ),若q拟合p不充分则有:(p和q的KL散度)\large H\left ( p \right )-H\left ( p,q \right )=-\int p\left (x \right )logp\left ( x \right ) \mathrm{d}x -\left (- \int p\left (x \right )logq\left ( x \right ) \mathrm{d}x \right )

因此 \large D_{KL}\left ( p\, ||\, q \right ) 为信息熵 \large H\left ( p \right ) 与交叉熵\large H\left ( p,q \right ) 的差,衡量q拟合p的过程中产生的信息损耗。

KL散度不对称,\large D_{KL}\left ( p\, ||\, q \right ) \neq D_{KL}\left ( q\, ||\, p \right ) , 它并不是q和p的距离

 

2.5 JS散度

JS散度是对称的,可用于衡量两种不同分布之间的差异。

\large JSD\left ( p\, ||\, q \right )=\frac{1}{2}D\left ( p\, ||\, m \right ) + \frac{1}{2}D\left ( q\, ||\, m \right ),\: m= \frac{1}{2}\left ( p+q \right )

 

2.6  Wasserstein距离

GAN网络:JS散度与Wasserstein距离_第1张图片

      度量两个概率分布之间的距离,又叫Earth-Mover距离;

\large W\left ( p_{1} ,p_{2}\right ) = \inf_{r\sim \pi \left ( p_{1} ,p_{2} \right )} E_{\left ( x,y \right )\sim \gamma }\left [\: \left \| x-y \right \|\: \right ] ,

其中\large \pi \left ( p_{1} ,p_{2}\right ) 表示\large p_{1}  与\large p_{2} 组合所得的所有可能的联合分布的集合。

对于每一个可能的联合分布\large \gamma ,可从中采样\large \left ( x,y \right )\sim \gamma 得到一个样本\large \left ( x,y \right )\large \left \| x-y \right \| 为这对样本之间的距离,可计算出该联合分布\large \gamma 下,样本对距离的期望值\large E\left ( x,y \right ) \sim \gamma \left [ \:\left \| x-y \right \| \: \right ], 在所有可能的联合分布中,能对这个期望值取到下界 inf, 即为Wasserstein距离 。

Wasserstein距离 相对于JS散度和KL散度的优势在于:即使两个分布的支撑集没有重叠或重叠非常少,仍然能反映两个分布的远近,而JS散度在此情况下是常量,KL散度可能无意义。

 

你可能感兴趣的:(深度学习)