GAN, 作为一种非常厉害的生成模型, 在近年来得到了广泛的应用. Soumith, PyTorch之父, 毕业于纽约大学的Facebook的VP, 在2015年发明了DCGAN: Deep Convolutional GAN. 它显式的使用卷积和转置卷积在判别器和生成器中使用. 他对GAN的理解相对深入, 特地总结了关于训练GAN的一些技巧和方式, 因为不同于一般任务, 像设置优化器, 计算loss以及初始化模型权重等tips, 这些对于GAN网络能否收敛可以说至关重要. 现在特此翻译这篇文章, 以飨读者.
随着人们对生成对抗网络(GANs)的研究进一步深入, 继续提高GAN的基本稳定性是非常重要的一环。我们使用了一系列技巧来训练它们,使它们保持稳定。
作者:
Soumith Chintala, Emily Denton, Martin Arjovsky, Michael Mathieu.
废话不多说, 直接上干货:
Tanh
层作为生成器最后输出层.在GAN的论文中, 生成器G的目标是使得目标函数 l o g ( 1 − D ) log (1-D) log(1−D)最小, 但是实际写代码中, 目标是让 l o g ( D ) log(D) log(D)最大. 这是因为前面的式子有梯度消失问题. Goodfellow et. al (2014)
此外, 训练生成器的时候, 还可以将数据对应的**标签(label)**进行翻转: 即real = fake
, fake = real
来进行训练. 其目的是增强生成器的泛化能力(通常作为在生成器能力很强的时候fine-tune
的策略.)
通常的GAN中,包括2019年最新的styleGAN,它们的latent vector z
都是通过正态分布进行采样得到的(根据情况,可能是非标准正态分布)。
本文推荐对高斯分布(gaussian distribution)进行采样而得到 z
。
此外, Soumith还指出需要注意以下2点:
[3]
(关于其PyTorch1.0.1的实现,在我复现StyleGAN的代码中有,欢迎参考~)如果你使用了ReLU
或MaxPooling
,那么这样的GAN通常稳定性较差(由于梯度的稀疏性)。
LeakyReLU = good (in both G and D)
也是目前几乎所有GAN的标配。[4]
和ConvTranspose2d + stride。对标签进行平滑, i.e. if you have two target labels: Real=1 and Fake=0, then for each incoming sample, if it is real, then replace the label with a random number between 0.7 and 1.2, and if it is a fake sample, replace it with 0.0 and 0.3 (for example). Salimans et. al. 2016
在训练鉴别器的时候,偶尔翻转label,即fake->real
, real->fake
。
这里,Soumith开始推销自己的工作了哈哈,他认为DCGAN在任何场景都能很好的工作。
当然,如果你愿意的话,也可以使用Hybrid的模型,比如 KL + GAN 或 VAE + GAN。
Keep a replay buffer of past generations and occassionally show them
Keep checkpoints from the past of G and D and occassionaly swap them out for a few iterations
Soumith认为Adam很吊,一个就够了。大多数情况,生成器和判别器都用ADAM就可以,或者,你也可以使用SGD来优化判别器。
① 当判别器的loss一直接近0或者为0的时候,那就说明这次训练是有问题的,应该及时停掉,检查模型和超参数的设置。
② 检查梯度的范数,如果超过100,就会出错。
③ 当模型正常训练时,判别器D的loss方差较小,并且随着时间的推移而下降,或者方差较大且呈峰值。
④ 如果生成器G的loss稳步下降,那可能意味着在用垃圾来迷糊判别器D(马丁说)。
不要通过设计通过判断loss是否达到我们预设的阈值来进行触发训练。Soumith他们已经试了很多了,不好使。如果,你一定要这么做,那么要有自己的方法论,而不能凭直觉。
while lossD > A:
train D
while lossG > B:
train G
如果你有标签可用,训练鉴别器D分类样本: 辅助GANs。
这个策略在18,19年Nvidia的大神kerras的论文中都体现的淋漓尽致:
Improved GANs
: OpenAI code also has it (commented out)Embedding
层。[5]
。[1] Soumith: How to Train a GAN? Tips and tricks to make GANs work
[2] Tom White: Sampling Generative Networks
[3] 基于PyTorch1.x复现的styleGAN
[4] PixelShuffle
[5] https://arxiv.org/pdf/1611.07004v1.pdf