飞桨论文复现-BigGANs

飞桨论文复现-BigGANs

  • 论文摘要
  • 论文学习心得

论文摘要

尽管近期由于生成图像建模的研究进展,从复杂数据集例如 ImageNet 中生成高分辨率、多样性的样本仍然是很大的挑战。为此,在这篇提交到 ICLR 2019 的论文中,研究者尝试在最大规模的数据集中训练生成对抗网络,并研究在这种规模的训练下的不稳定性。研究者发现应用垂直正则化(orthogonal regularization)到生成器可以使其服从简单的「截断技巧」(truncation trick),从而允许通过截断隐空间来精调样本保真度和多样性的权衡。这种修改方法可以让模型在类条件的图像合成中达到当前最佳性能。当在 128x128 分辨率的 ImageNet 上训练时,本文提出的模型—BigGAN,可以达到 166.3 的 Inception 分数(IS),以及 9.6 的 Frechet Inception 距离(FID),而之前的最佳 IS 和 FID 仅为 52.52 和 18.65。

论文学习心得

飞桨论文复现-BigGANs_第1张图片

你可能会觉得不可思议,以上12张图片都是由电脑生成的,而不是现实生活中拍的照片,本篇论文的工作就是将GAN网络的生成准确度提高了很多,以至于让人“真假难辨”,在这项研究中,作者采用扩展GAN规模的方式,成功地将 GAN 生成图像和真实图像之间的保真度和多样性 gap 大幅降低。本研究做出的贡献如下:

  1. 展示了 GAN 可以从训练规模中显著获益,并且能在参数数量很大和八倍批大小于之前最佳结果的条件下,仍然能以 2 倍到 4 倍的速度进行训练。作者引入了两种简单的生成架构变化,提高了可扩展性,并修改了正则化方案以提升条件化(conditioning),这可论证地提升了性能。
    飞桨论文复现-BigGANs_第2张图片

  2. 作为修改方法的副作用,该模型变得服从截断技巧,这是一种简单的采样技术,允许对样本多样性和保真度进行精细控制。

  3. 发现大规模 GAN 带来的不稳定性,并对其进行经验的描述。从这种分析中获得的洞察表明,将一种新型的和已有的技术结合可以减少这种不稳定性,但要实现完全的训练稳定性必须以显著降低性能为代价。

  4. 本文提出的修改方法大幅改善了类条件 GAN 的性能。当在 128x128 分辨率的 ImageNet 上训练时,本文提出的模型—BigGAN—可以达到 166.3 的 Inception 分数(IS),以及 9.6 的 Frechet Inception 距离(FID),而之前的最佳 IS 和 FID 仅为 52.52 和 18.65。

  5. 研究者还成功地在 256x256 分辨率和 512x512 分辨率的 ImageNet 上训练了 BigGAN,并在 256x256 分辨率下达到 233.0 的 IS 和 9.3 的 FID,在 512x512 分辨率下达到了 241.4 的 IS 和 10.9 的 FID。最后,研究者还尝试在更大规模的数据集上训练,结果表明其提出的架构设计可以很好地从 ImageNet 中迁移到其它图像数据。

    论文复现课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340

你可能感兴趣的:(飞桨论文复现-BigGANs)