201901近期指的读的几篇GAN进展论文

1.

201901近期指的读的几篇GAN进展论文_第1张图片

  • 主要问题:
    高分辨率图像的生成很困难,因为更高的分辨率使其更易于区分生成的图像和训练图像,从而极大地放大了梯度问题。 由于内存的限制,较大的分辨率还必须使用较小的小批处理,这进一步损害了训练的稳定性。
    -解决方法:
    作者的主要见解是,我们可以从更简单的低分辨率图像开始逐步增加生成器和鉴别器,并随着训练的进行添加新层,以引入更高分辨率的细节。 正如我们将在第2节中讨论的那样,这大大加快了训练速度,并提高了高分辨率的稳定性。
    201901近期指的读的几篇GAN进展论文_第2张图片
    论文还提出了自己对正则化、归一化的一些理解和技巧,值得思考。当然,由于是渐进式的,所以相当于要串联地训练很多个模型,所以 PGGAN 很慢。

    2201901近期指的读的几篇GAN进展论文_第3张图片

主要问题:

  • 大多数现有的GAN都需要多尺度鉴别器才能将高分辨率任务分解为从低到高的任务,这增加了训练的复杂性。另外,已经付出了很多努力来通过混合模型来组合VAE和GAN的优势。 VAE / GAN [23]在数据空间上添加了一个鉴别符,以提高由VAE生成的结果的质量

解决方法:

  • 为了缓解此问题,我们引入了自省变分自动编码器(IntroVAE),这是一种简单而有效的训练VAE的图像合成方法。来自VAE的样本趋于模糊的原因之一可能是训练原理使得VAE将高概率分配给训练点,而不能确保将模糊点分配给低概率[14]。受此问题的影响,我们以内省的方式训练VAE,以使模型可以自我估计生成的图像与真实图像之间的差异。在训练阶段,推论模型试图将真实数据的先验近似值与后验的差异最小化,同时将生成的样本最大化。生成器模型试图通过最小化所生成样本的差异来误导推理模型。该模型就像真实数据的标准VAE一样,在处理生成的样本时也像GAN一样。与大多数VAE和GAN混合模型相比,我们的版本不需要额外的鉴别器,从而降低了模型的复杂性。所提出的方法的另一个优点是,它可以在单个阶段通过单流网络生成高分辨率的逼真图像。在对抗性上对发散对象以及重建误差进行了优化,这为推理模型(即使是高分辨率的)增加了区分生成的图像和真实图像的难度。这种安排大大提高了对抗训练的稳定性。
    201901近期指的读的几篇GAN进展论文_第4张图片
    ps:除了能生成1024的高清图,更值得一提的是,这篇文章在构思上非常精妙。因为能同时得到编码器和生成器的模型不算独特,比如 BiGAN 就能做到,但是 IntroVAE 独特之处在于它能直接利用了 encoder 作为判别器,不需要额外的判别器,也就是直接省去了 1/3 的参数量。这背后更深层次的原因,值得我们去细细分析和回味。

3.

201901近期指的读的几篇GAN进展论文_第5张图片

创新点:

  • 通过大规模 GAN 的应用,BigGAN 实现了生成上的巨大突破;

  • 采用先验分布 z 的“截断技巧”,允许对样本多样性和保真度进行精细控制;

  • 在大规模 GAN 的实现上不断克服模型训练问题,采用技巧减小训练的不稳定。
    文章的创新点是将正交正则化的思想引入 GAN,通过对输入先验分布 z 的适时截断大大提升了 GAN 的生成性能,在 ImageNet 数据集下 Inception Score 竟然比当前最好 GAN 模型 SAGAN 提高了 100 多分(接近 2 倍),简直太秀了。
    BigGAN 在网上已经有很多科普介绍了,不再重复。论文还提出了自己的一些正则化技巧,并分享了大量的调参经验(调整哪些参数会有好的/坏的改变),非常值得参考。
    一味加深网络可能会妨碍生成的性能;

共享类的思想在控制超参数上是很麻烦的,虽然可能会提高训练速度;

WeightNorm 替换 G 中的 BatchNorm 并没有达到好的效果;

除了频谱规范化之外,尝试将 BatchNorm 添加到 D(包括类条件和无条件),但并未取的好的效果;

在 G 或 D 或两者中使用 5 或 7 而不是 3 的滤波器大小,5 的滤波器可能会有些许提升,但是计算成本也上去了;

尝试在 128×128 的 G 和 D 中改变卷积滤波器的扩张,但发现在任一网络中即使少量的扩张也会降低性能;

尝试用 G 中的双线性上采样代替最近领近的上采样,但这降低了性能。

4

201901近期指的读的几篇GAN进展论文_第6张图片

这个新的生成器架构,据说是借鉴了风格迁移的模型,所以叫 Style-Based Generator。我读了一下,其实它差不多就是条件 GAN(CGAN)的架构,但是把条件和噪声互换了。简单来说,就是把噪声当作条件,把条件当作噪声,然后代入到 CGAN 中。

与有监督学习的任务不同,有监督学习中,一般只要设计好模型,然后有足够多的数据,足够的算力,就可以得到足够好的模型;但 GAN 从来都不是设计模型就完事了,它是一个理论、模型、优化一体的事情。
模型架构来看,DCGAN 奠定了基础,后来发展的 ResNet + Upsampling 也成为了标准框架之一,至于刚出来的 Style-Based Generator 就不说了,所以说模型架构基本上也成熟了。
那剩下的是什么呢?是优化,也就是训练过程。

5.

201901近期指的读的几篇GAN进展论文_第7张图片
在前面已经介绍过这篇文章了,但这里还是再放一次,因为实在是太经典。感觉是研究 GAN 训练稳定性必看的文章,作者从微分方程角度来理解 GAN 的训练问题。
在稳定性分析的过程中,这篇文章主要还引用了两篇文章,一篇是它的“前传”(同一作者),叫做 The Numerics of GANs ,另一篇是 Gradient descent GAN optimization is locally stable ,都是经典之作。
参考文献:
近期值得读的10篇GAN进展论文.
深度解读DeepMind新作:史上最强GAN图像生成器—BigGAN.

你可能感兴趣的:(GAN,reading,Paper)