【飞桨】学习论文复现,【Paddle Paddle】复现LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

大规模GAN训练,实现高保真自然图像合成

Author:Andrew Brock Heriot-Watt University, Jeff Donahue DeepMind, Karen Simonyan DeepMind,ICLR 2019

[论文复现课程链接](https://aistudio.baidu.com/aistudio/education/group/info/1340)

论文地址 

 

1、任务描述

文章的主要工作是学习现有数据集中的图像特征生成新图像。近年来,生成图像领域出现不少成果,其中最前沿的是GAN,它能直接从数据中学习生成高保真、多样化的图像。虽然GAN的训练是动态的,而且各方面的设置(从优化参数到模型架构)等方面都很敏感,但大量研究证实,这种方法可以在各种环境中稳定训练。

2、相关介绍

GAN(Generative Adversarial Networks,生成对抗网络)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。

尽管进展颇丰,当前在条件ImageNet建模上的当前最佳结果仍然仅达到52.5的 IS,而真实数据有233 的 IS。

(IS:inception score,用来衡量GAN网络的两个指标:生成图片的质量和多样性)

这项研究中,作者成功将GAN生成图像和真实图像之间的保真度和多样性间隔大幅降低。

3、论文方法

  • 高分辨率能够带来更为欸真实的生成图像,在这样的思想指导下,本论文结合了GAN的各种新技术,分析训练难的原因,最后在此基础上提出了自己的模型。
  • 本文展示了GAN可以从训练规模中获益,并且能够在参数数量很大和八倍批大小于之前最佳结果的条件下,仍然能以2到4倍的速度进行训练。
  • 作者引入了两种简单的生成架构变化,提高了可扩展性,并修改了正则化方案以提升条件化,这可论证地提高了性能。

这篇文章将原有的GAN模型,用八倍于原有的batch size大小并且将隐藏层的变量数量扩充到原有模型的4倍以后进行训练获得了很好的图片生成效果。与此同时,扩充了变量数量和batch size大小之后,模型中出现了不稳定的现象,采用现有的比较有效的稳定训练GAN的方法,但是文中也发现并列出了这样的方式的确会稳定GAN的训练,但是同时会牺牲生成图片的质量。

【飞桨】学习论文复现,【Paddle Paddle】复现LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS_第1张图片

(a)bigGAN的G网络典型结构布局;(b)bigGAN的G网络中的剩余块(resblock up);(c)bigGAN的G网络中的剩余块(resblock down)

表1-4行表明按8的倍数增加批大小可以将当前最佳的 IS 提高46% 。之后研究者增加每个层50%的宽度(通道数量),这大致在生成器和鉴别器中都翻倍了参数数量,进一步导致了21%的 IS 提升,将深度翻倍在ImageNet模型上并不能得到相同的优化效应,反而会降低性能。

【飞桨】学习论文复现,【Paddle Paddle】复现LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS_第2张图片

  • 截断技巧

生成器随机噪声输入一般使用正态分布或者均匀分布的随机数。这篇文章采用截断技术,对正态分布的随机数进行截断处理,实验发现这种方法的效果最好。对此的直观解释是,如果网络的随机噪声输入的随机数变动范围越大,生成的样本在标准模板上的变动就越大,因此样本的多样性就越强,但真实性可能会降低。首先使用截断的正态分布N(0,1)随机数产生噪声向量Z,具体做法是如果随机数超出了一定的范围则重新进行采样,使得其落在这个区间里。这种做法称为截断技巧,这样可以提高单个样本的质量,但代价是降低样本的多样性。

【飞桨】学习论文复现,【Paddle Paddle】复现LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS_第3张图片

  • 生成器的不稳定性

对于GAN的稳定性,之前已经有一些探索,从分析的角度。本文着重对小规模时稳定,大规模时不稳定的问题进行分析。实验中发现,权重矩阵的前三个奇异值 \sigma 0,\sigma 1 ,\sigma 2蕴含的信息最丰富,在训练中G的大部分层的谱范数都是正常的,但有一些时病态的,这些谱范数随着巡演的进行不断增长,最后爆炸,导致训练坍塌。如下图所示:

【飞桨】学习论文复现,【Paddle Paddle】复现LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS_第4张图片

4、论文结果

在不同分辨率下的模型评估结果。研究报告了未使用截断(第三列),最佳FID分数(第四列),验证数据的最佳IS(第五列),以及最高的IS(第六列)。标准差通过至少三次随机初始化计算得到。结果如下表所示:

【飞桨】学习论文复现,【Paddle Paddle】复现LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS_第5张图片

5、论文总结

本文证明了将GAN用于多类自然图像生成任务时,加大模型的规模可以明显提升生成的图像的质量,验证了生成的样本的真实性和多样性都是如此。

  • 通过使用一些技巧,本文提出的方法性能较之前的方法有了大幅度的提高。
  • 另外,还分析了大规模GAN在训练时的机制,用它们的权重矩阵的奇异值来刻画他们的稳定性。
  • 讨论了稳定性和性能即生成的图片质量之间的相互关系。

代码地址:https://github.com/ajbrock/BigGAN-PyTorch

使用百度飞桨paddlepaddle复现本文代码待更新。。。

你可能感兴趣的:(机器学习)