【paddlepaddle论文浮现】BigGAN

1、任务描述

图像生成: 从现有数据集中生成新图像的任务

       近年来,生成图像建模领域出现了不少成果,其中最前沿的是GAN,它能直接从数据中学习,生成高保真、多样化的图像。虽然GAN的训练是动态的,而且对各方面的设置都很敏感(从优化参数到模型架构),但大量研究已经证实,这种方法可以在各种环境中稳定训练。

 

2、相关介绍

 

  • GAN 的训练是动态的,并且对几乎所有层面的设置都很敏感(从最优化参数到模型架构),但有大量的研究在经验和理论上获得了在多种设置中实现稳定训练的洞察。
  • 3尽管得到了这样的进展,当前在条件 ImageNet 建模上的当前最佳结果仍然仅达到了 52.5 的 IS,而真实数据有 233 的 IS。 [IS(inception score)用来衡量GAN网络的两个指标:生成图片的质量 和 多样性]
  • 在这项研究中,作者成功地将 GAN 生成图像和真实图像之间的保真度和多样性 gap 大幅降低。

 

3、论文方法

  • 高分辨率能够带来更为真实的生成图像,在这样的思想的指导下,本论文结合了GAN的各种新技术,并且分析了训练难的原因,最后提出自己的模型。
  • 本文展示了 GAN 可以从训练规模中显著获益,并且能在参数数量很大和八倍批大小于之前最佳结果的条件下,仍然能以 2 倍到 4 倍的速度进行训练。作者引入了两种简单的生成架构变化,提高了可扩展性,并修改了正则化方案以提升条件化(conditioning),这可论证地提升了性能。

       这篇论文将原有的GAN的模型,用8倍原有的batch size大小,并且将隐藏层的变量数量扩充到原有模型的4倍以后,进行训练获得了很好的图片生成的效果。与此同时,在扩充了变量数量和batch size大小后,模型出现了不稳定的现象,文章中对出现的不稳定现象,采用现有的比较有效的稳定训练GAN的方法,但是文中发现这样确实会稳定GAN的训练,但是同时会牺牲生成图片的质量。

【paddlepaddle论文浮现】BigGAN_第1张图片

       表1到4行表明按 8 的倍数增加批大小可以将当前最佳的 IS 提高 46%。研究者假设这是由于每个批量覆盖了更多的模式,为生成器和鉴别器都提供了更好的梯度信息。这种扩展带来的值得注意的副作用是,模型以更少的迭代次数达到了更好的性能,但变得不稳定并且遭遇了完全的训练崩溃。研究者在论文第4部分讨论了原因和后果。因此在实验中,研究者在崩溃刚好发生之后立刻停止训练,并从之前保存的检查点进行结果报告。

【paddlepaddle论文浮现】BigGAN_第2张图片

        然后,研究者增加了每个层 50% 的宽度(通道数量),这大致在生成器和鉴别器中都翻倍了参数数量。这导致了进一步的 21% 的 IS 提升,研究者假设这是由于模型相对于数据集复杂度的容量的增加。将深度翻倍在 ImageNet 模型上并不能得到相同的优化效应,反而会降低性能。

【paddlepaddle论文浮现】BigGAN_第3张图片

截断技巧

       生成器的随机噪声输入一般使用正态分布或者均匀分布的随机数。本文采用了截断技术,对正态分布的随机数进行截断处理,实验发现这种方法的结果最好。对此的直观解释是,如果网络的随机噪声输入的随机数变动范围越大,生成的样本在标准模板上的变动就越大,因此样本的多样性就越强,但真实性可能会降低。首先用截断的正态分布N(0,1)随机数产生噪声向量Z,具体做法是如果随机数超出一定范围,则重新采样,使得其落在这个区间里。这种做法称为截断技巧,这样可以提高单个样本的质量,但代价是降低了样本的多样性。

【paddlepaddle论文浮现】BigGAN_第4张图片

生成器的不稳定性

       对于GAN的稳定性,之前已经有一些探索,从分析的角度。本文着重对小规模时稳定,大规模时不稳定的问题进行分析。实验中发现,权重矩阵的前3个奇异值σ0,σ1,σ2蕴含的信息最丰富。

       在训练中,G的大部分层的谱范数都是正常的,但有一些是病态的,这些谱范数随着训练的进行不断的增长,最后爆炸,导致训练坍塌。如下图所示:

【paddlepaddle论文浮现】BigGAN_第5张图片

 

4、论文结果

       在不同分辨率下的模型评估结果。研究者报告了未使用截断(第 3 列),最佳 FID 分数(第 4 列),验证数据的最佳 IS(第 5 列),以及最高的 IS(第 6 列)。标准差通过至少三次随机初始化计算得到。

【paddlepaddle论文浮现】BigGAN_第6张图片

 

你可能感兴趣的:(基础阶段)