转自:https://blog.csdn.net/shadow_guo/article/details/56003908
来自Martin Arjovsky 100 等人的“Wasserstein GAN”。
本文关心的问题为无监督学习问题。学习11个概率分布意味着什么?传统的回答:学习概率密度。常通过定义密度(Pθ)θ∈Rd(Pθ)θ∈Rd的参数化(parameterized)簇,并找到最大化我们数据上似然的参数来完成:若有真实数据样本{x(i)}mi=1{x(i)}i=1m,求解问题:
maxθ∈Rd1m∑i=1mlogPθ(xi)maxθ∈Rd1m∑i=1mlogPθ(xi)
真实数据的分布PrPr给出概率密度,而PθPθ为参数化的概率密度PθPθ,那么,学习概率密度渐近等于最小化Kullback-Leibler散度KL(Pr||Pθ)KL(Pr||Pθ)。
为使其有意义,需存在模型密度PθPθ。 但这并不是常见的处理低维流形支撑的模型流形,且意味着KL距离未被定义(或只是无穷大)。
一般可对模型分布添加噪声项来补救。所以,经典机器学习文献中,几乎所有的生成模型都包括噪声项。最简单的情况:为覆盖所有样本,假设较高带宽的高斯噪声。众所周知,如图像生成模型,添加噪声会降低样本质量,并会模糊图像。如(最近的文章 [22]):最大似然生成图像中每个像素时,对模型所添加噪声,噪声的最优标准差大约为0.10.1,此时已归一化像素范围至[0,1][0,1]。噪声巨大,以至于文章作者给出模型生成的样本时,未在似然上添加噪声项。换言之,图像生成问题上,添加噪声项显然不正确,但仍需用最大似然方法。
不再估计可能不存在的PrPr密度,可定义有固定分布p(z)p(z)的随机变量ZZ,传入11个参函数(parametric function)gθ:Z→Xgθ:Z→X(典型为一神经网络),参函数按确定的分布PθPθ来直接生成样本。改变θθ,使模型分布PθPθ接近真实数据分布PrPr。有两点好处:
总之,给定任意高维的密度,计算上难以生成样本 [15] 。
变分自编码器(VAEs) [9] 和 生成的对抗网络(GANs)[4] 为参函数生成图像方法的范例。VAEs近似样本的似然,所以,受限标准模型,需耐心调整额外的噪声项;GANs定义目标函数(包括Jensen-Shannon [4],所有ff散度 [16] 及奇异的(exotic)合并 [6])时更灵活,另一方面,众所周知,GANs的训练微妙且不稳定,原因见理论研究 [1]。
本文转而关注用不同的方法来度量模型分布接近真实分布的程度,或者说,定义距离或散度ρ(Pθ,Pr)ρ(Pθ,Pr)。不同距离间主要区别是它们对概率分布序列收敛的影响。当且仅当存在分布P∞P∞,使ρ(Pt,P∞)ρ(Pt,P∞)趋于00时,分布(Pt)t∈N(Pt)t∈N收敛,此时完全取决于距离ρρ的定义。通俗地说,距离ρρ引入更弱的拓扑,使分布序列更易收敛。第22节澄清概率距离在收敛上的不同。
当ρρ下的收敛序列集为ρ′ρ′下的收敛序列集的超集时,ρρ引入的拓扑弱于ρ′ρ′引入的拓扑。
为优化参数θθ,当然希望定义的模型分布PθPθ可使映射θ→Pθθ→Pθ连续。连续性意味着当参数序列θtθt收敛至θθ时,分布PθtPθt也收敛至分布PθPθ。然而,分布序列PθtPθt收敛取决于如何计算分布间的距离。距离越弱,分布序列越易收敛,因此越易定义从θθ空间到PθPθ空间的连续映射。考虑映射θ→Pθθ→Pθ连续是因为:若ρρ为两分布间的距离,希望损失函数θ→ρ(Pθ,Pr)θ→ρ(Pθ,Pr)连续,等价于使用分布ρρ间的距离时,映射θ→Pθθ→Pθ连续。
本文的贡献有:
标记介绍。令XX为紧度量集(如图像空间[0,1]d[0,1]d)101,并令ΣΣ为XX所有Borel子集的集合。令Prob(X)Prob(X)为定义在XX上的概率度量空间。
样本方差不为00,所以为Borel子集 102 。
定义22个分布Pr,Pg∈Prob(X)Pr,Pg∈Prob(X)间基本的距离和散度:
σ(Pr,Pg)=supA∈Σ|Pr(A)−Pg(A)|.σ(Pr,Pg)=supA∈Σ|Pr(A)−Pg(A)|.
KL(Pr||Pg)=∫log(Pr(x)Pg(x))Pr(x)dμ(x),KL(Pr||Pg)=∫log(Pr(x)Pg(x))Pr(x)dμ(x),
其中,假设PrPr和PgPg绝对连续,关于定义在XX上用相同的度量μμ输出密度。KL散度不对称,且当存在点使Pg(x)=0且Pr(x)>0Pg(x)=0且Pr(x)>0时,KL散度可能为无穷大。
概率分布Pr∈Prob(X)Pr∈Prob(X)输出关于μμ的概率密度pr(x)pr(x),即,∀A∈Σ,Pr(A)=∫APr(x)dμ(x)∀A∈Σ,Pr(A)=∫APr(x)dμ(x),当且仅当Pr(x)Pr(x)关于μμ绝对连续,即,∀A∈Σ,μ(A)=0→Pr(A)=0∀A∈Σ,μ(A)=0→Pr(A)=0。
Jensen-Shannon(JS)距离
JS(Pr,Pg)=12KL(Pr||Pm)+12KL(Pg||Pm),JS(Pr,Pg)=12KL(Pr||Pm)+12KL(Pg||Pm),
推土机(Earth-Mover,EM)距离
W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[||x−y||],(1)W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[||x−y||],(1)
EM距离求下确界,即至少要转移多少“质量”。所以,原文中,作者用“must”描述。
后面举例说明用EM距离来收敛概率分布序列多简单,但上面定义的其它距离和散度无法收敛。
例1 (学习平行线)。令Z∼U[0,1]Z∼U[0,1](单位区间上的均匀分布)。令P0P0为(0,Z)∈R2(0,Z)∈R2的分布(xx轴上为00,yy轴上为随机变量ZZ,经过原点的垂直线段上的均匀分布)。令gθ(z)=(θ,z),θgθ(z)=(θ,z),θ为单个实参数。此时有:
已知:P0={1,if x=0,0≤y≤1,0,otherwise.P0={1,if x=0,0≤y≤1,0,otherwise., Pθ={1,if x=θ,0≤y≤1,0,otherwise.Pθ={1,if x=θ,0≤y≤1,0,otherwise.
θ≠0θ≠0时,
KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)
θ=0θ=0时,
KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0已知:Pm=Pr+Pg2=⎧⎩⎨0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise.Pm=Pr+Pg2={0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise.,JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)
θ≠0θ≠0时,
KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2
θ=0θ=0时,
KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0- 本例的两条线段相距θ,||x−y||≡θ→θ,||x−y||≡θ→ 两条线段间距离的期望的下确界为θθ。
- P0P0和PθPθ表示概率分布,范围为[0,1]→|P0−Pθ|[0,1]→|P0−Pθ|的上确界为11(θ≠0θ≠0时)或00(θ=0θ=0时)。
当θ→0θ→0时,EM距离使序列(Pθt)t∈N(Pθt)t∈N收敛至P0P0,但用JS,KL,逆KL或TV散度时不会收敛。图11为EM距离和JS距离。
例11说明EM距离上梯度下降可学到低维流形上的概率分布。不可用其它距离,因它们的损失函数甚至不连续。即使该例基于不相交支集的分布,当支集非空但包含00测度集时,结论同样成立。当22个低维以任意位置相交时 [1],碰巧也成立。
因Wasserstein距离比JS距离更弱,问题变成:温和假设下,W(Pr,Pθ)W(Pr,Pθ)是否为关于θθ的连续损失函数。
定理 1. 令PrPr为XX上的固定分布。令ZZ为另11个空间ZZ上的随机变量(如:高斯分布空间)。令g:Z×Rd→Xg:Z×Rd→X为11个函数。用zz作第11个坐标,θθ作第22个坐标来表示gθ(z)gθ(z)。令PθPθ为gθ(z)gθ(z)的分布。那么,
1. 若gg在θθ上连续,W(Pr,Pθ)W(Pr,Pθ)在θθ上也连续。
2. 若gg为局部Lipschitz,并满足规则假设11,则W(Pr,Pθ)W(Pr,Pθ)处处连续,几乎处处可微。
3. 对JS散度和所有KL散度,声明1−21−2为假。
证明见附录CC。
后面推论告诉我们:用神经网络来最小化EM距离(至少理论上)可行。
推论 1. 令gθgθ为任意用θθ参数化的前向神经网络,且p(z)p(z)为zz上的先验,使得Ez∼p(z)[||z||]<∞Ez∼p(z)[||z||]<∞(如,高斯分布,均匀分布等)。则满足假设11,因此,W(Pr,Pθ)W(Pr,Pθ)处处连续,几乎处处可微。
证明见附录CC。
所有这些说明:对我们的问题,至少与JS散度相比,EM距离作损失函数更合理。后面定理描述这些距离和散度引入拓扑的相对强度:KL最强,紧随JS和TV,EM最弱。
推论 2. 令PP为紧空间XX上的分布,且(Pn)n∈N(Pn)n∈N为XX上的分布序列。那么,当n→0n→0时,考虑所有的限制,
1. 下面声明等价
- σ(Pn,P)→0σ(Pn,P)→0,σσ为全变差距离;
- JS(Pn,P)→0JS(Pn,P)→0,JSJS为Jensen-Shannon散度。
2. 下面声明等价
- W(Pn,P)→0W(Pn,P)→0;
- Pn⟶DPPn⟶DP,其中,⟶D⟶D表示关于随机变量的分布的收敛。
3. KL(Pn||P)→0KL(Pn||P)→0或KL(P||Pn)→0KL(P||Pn)→0隐含(imply)声明(1)(1)。
4. 声明(1)(1)隐含声明(2)(2)。
证明见附录CC。
这里强调的事实:学习低维流形支撑的分布时,KL,JS和TV距离为不合理的损失函数。但此时EM距离却合理:
定理22指出,W(Pr,Pθ)W(Pr,Pθ)可能比JS(Pr,Pθ)JS(Pr,Pθ)有更好的属性。(1)(1)中的下确界很难解。
另一方面,由Kantorovich-Rubinstein二重性(duality) [21] 知
W(Pr,Pθ)=sup||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)](2)W(Pr,Pθ)=sup||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)](2)
其中,上确界覆盖所有11-Lipschitz函数f:X→Rf:X→R。注意到,若替换||f||L≤1||f||L≤1为||f||L≤K||f||L≤K(考虑常数KKde KK-Lipschitz),则EM距离变为K⋅W(Pr,Pθ)K⋅W(Pr,Pθ)。因此,若有参函数簇{fw}w∈W{fw}w∈W,对某些KK,参函数都为KK-Lipschitz,考虑求解:
maxw∈WEx∼Pr[fw(x)]−Ez∼p(z)[fw(gθ(z))](3)maxw∈WEx∼Pr[fw(x)]−Ez∼p(z)[fw(gθ(z))](3)
且对某些w∈Ww∈W(类似证明估计器一致性时的假设的一强假设),当获得(2)(2)中的上确界时,求解过程计算出的W(Pr,Pθ)W(Pr,Pθ)能达到乘常数KK。进一步,考虑估计Ez∼p(z)[∇θfw(gθ(z))]Ez∼p(z)[∇θfw(gθ(z))]反传方程(2)(2)来求导W(Pr,Pθ)W(Pr,Pθ)。虽这全是直觉,现在证明最优假设下该过程是有原则的(principled)。
定理 3. 令PrPr为任意分布。令PθPθ为gθ(Z)gθ(Z)的分布(ZZ为随机变量,该分布的概率密度为pp,gθgθ为满足假设11的函数)。那么,对问题
max||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)]max||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)]
存在解f:X→Rf:X→R,当PrPr和PθPθ都为良定时,有:
∇θW(Pr,Pθ)=−Ez∼p(z)[∇θf(gθ(z))]∇θW(Pr,Pθ)=−Ez∼p(z)[∇θf(gθ(z))]
证明见附录CC。
接着,最大化方程(2)(2)来找函数ff。为近似求解ff,用紧空间XX中的权重ww来参数化一神经网络,训练该网络。然后,同典型的GAN,用Ez∼p(z)[∇θfw(gθ(z))]Ez∼p(z)[∇θfw(gθ(z))]反传。注意到WW紧致,则对某些仅取决WW(而非个别网络权重)的KK,所有函数fwfw将为KK-Lipschitz。因此,近似(2)(2)至一无关的缩放因子和“评价者”(critic)fwfw的容量。为使参数ww落入紧空间,每次梯度更新后夹紧权重至固定的范围即可(假设W=[−0.01,0.01]lW=[−0.01,0.01]l)。方法11描述Wasserstein生成对抗网络(WGAN)过程。
注:“评价者”和“判别器”应是一回事,我更习惯用GAN框架来说明,所以后面统一用“判别器”替换“评价者”。原作者用两个不同的词,考虑到后面比较GAN判别器(判别器)和WGAN判别器(评价者)时便于说明。所以,这里,WGAN与GAN比较时,将“评价者”替换为“WGAN判别器”;无比较时,仍用“判别器”。
θθ为生成网络的参数,决定生成模型的分布与真实数据分布的距离;ww为判别网络的参数,最大化EM距离损失函数来获得最优判别网络的参数。
EM距离处处连续,且几乎处处可微,所以应该能训练判别器至最优。参数简单,训练判别器的时间越长,得到的EM距离的梯度越可靠。
判别器越好,JS散度的梯度越可靠。但会因JS散度局部饱和,真实梯度为00,梯度消失,见图11和 [1] 中定理2.42.4。
图22中,为证明这点,训练GAN判别器和WGAN判别器至最优。GAN判别器很快学会区分真伪数据,同期望一样,并未提供可靠的梯度信息。然而,WGAN判别器不饱和,收敛至线性函数并处处给出很明确的梯度;约束梯度限制了函数,使其可能在空间不同部分至多线性增长。
训练WGAN判别器至最优不会破坏(collapse)模式。固定判别器来找最优生成器是指使判别器输出最大值的点上变量增量的和 [11]。
后面介绍新方法的实际效益,深入比较WGAN与传统GAN。
用Wasserstein-GAN方法生成图像,相比标准GANs,有显著的实际效益,主要有两点:
4.1 实验过程
生成图像实验。真实数据分布为LSUN-卧室数据集 [23] - 室内卧室自然图像的集合。基线比较为DCGAN,DCGAN用−logD−logD,标准的GAN过程训练一卷积网络结构的GAN。生成样本为分辨率64×6464×64的33通道图像。
4.2 有意义的损失度量
因每次生成器更新前(方法11的行1010),WGAN试图训练出相对较好的WGAN判别器ff(方法11的行2−82−8),此时损失函数为估计EM距离,上界为某常数,该常数与我们约束ff的Lipschitz常数有关。
实验11表明估计EM距离与生成样本密切相关。除卷积的DCGAN结构,用44层ReLU-MLP(每层包含512512个隐含单元)只替换生成器或同时替换生成器和判别器来运行实验。
图33为33种结构的WGAN训练时,估计的EM距离的变化。该图清楚显示,曲线与生成样本的视觉质量密切相关。
然而,还不能定量评估生成模型。常数缩放因子取决于WGAN判别器的结构,所以,不同的WGAN判别器模型间难以比较。甚至,实际上判别器容量有限,所以,难以了解真实的EM距离与估计的EM距离多接近。可话说回来,用该损失度量重复且成功验证了实验,相比之前GAN的训练能力有巨大的提高。
相反,图44为GAN训练时,估计的JS散度的变化。更确切地,GAN训练时,训练判别器来最大化:
L(D,gθ)=Ex∼Pr[logD(x)]+Ex∼Pθ[log(1−D(x))]L(D,gθ)=Ex∼Pr[logD(x)]+Ex∼Pθ[log(1−D(x))]
注:x∼Prx∼Pr时,xx为真实样本,希望D(x)↑D(x)↑;x∼Pθx∼Pθ时,xx为生成样本,希望D(x)↓D(x)↓。
其中,L(D,gθ)L(D,gθ)的下界为2JS(Pr,Pθ)−2log22JS(Pr,Pθ)−2log2。图中,值12L(D,gθ)+log212L(D,gθ)+log2为JS距离的下界。
JS距离的下界与样本质量关系很差。估计的JS距离通常保持不变或上升(而非下降)。实际上,JS估计值常保持为接近log2≈0.69log2≈0.69(JS距离的最大值)。换句话说,JS距离饱和,GAN判别器损失为00,某些情况下(DCGAN生成器,右上图)生成样本有意义,其它情况下被破坏为无意义图像。该现象的理论解释见 [1],强调见 [11]。
用−logD−logD时,判别器损失与生成器损失不同。附录的图88绘制相同的图,但用生成器损失(而非判别器损失)。结论不变。
负面结果:当对WGAN判别器用基于动量的优化方法(如Adam)或用很高的学习率时,训练WGAN会偶尔不稳定。因WGAN判别器的损失并非稳态,基于动量的方法可能会表现更糟。因损失爆炸和生成样本变差时,Adam步与梯度的余弦角变为负值,所以动量可能为潜在的原因。训练不稳定时,余弦角必为负值。很不平稳时,改用RMSProp效果不错。
4.3 改善稳定性
可训练WGAN判别器至最优。训练判别器时,仅需为生成器提供训练其它网络时所用到的损失。不再需合理均衡生成器和判别器的容量。判别器越好,训练生成器所用梯度的质量越高。
改变生成器的结构时,WGAN比其它GANs更鲁棒。为此,33个不同的生成器结构上运行实验:(1)卷积DCGAN生成器;(2)卷积DCGAN生成器,不带块归一化,滤波器数目不变;(3)512512个隐含单元组成的44层ReLU-MLP。后面22中用GANs表现很差。所以,为WGAN判别器和GAN判别器保留卷积DCGAN结构。
图55,图66和图77显示用到WGAN和GAN时,33种结构生成的样本。整页的生成样本见附录FF。样本未经优选。
实验中,从未见过用WGAN时模式被破坏。
积分概率度量(Integral Probability Metric,IPMs)上有很多工作。给定从XX到RR的函数集合,定义
dF(Pr,Pθ)=supf∈FEx∼Pr[f(x)]−Ex∼Pθ[f(x)](4)dF(Pr,Pθ)=supf∈FEx∼Pr[f(x)]−Ex∼Pθ[f(x)](4)
为关联函数类FF的积分概率度量。易证对任意f∈Ff∈F,有−f∈F−f∈F,则dFdF为非负,满足三角不等式,且对称。因此,dFdF为Prob(X)Prob(X)的伪距离。
IPMs可能公式相似,但不同的函数类会得到完全不同度量。
介绍WGAN,可替换传统GAN的训练。新模型中,提高了学习的稳定性,克服了模式被破坏等问题,并提供方便调试和超参数搜索的学习曲线。进一步,显示对应的优化问题合理,并为分布间其它距离的深入关联提供理论工作。
全文未经他人校正,如有问题欢迎指出。
并不是数学出身,但后面的证明还是看了。考虑到最近贼忙以及附录部分的编辑量,所以先忘了它吧… 但附录部分如有问题欢迎讨论。嗯,共同进步… ٩(๑òωó๑)۶