Diffusion-GAN: Training GANs with Diffusion

目录

Abstract

1. Introduction

2. Preliminaries: GANs and diffusion-based generative models

3. Diffusion-GAN: Method and Theoretical Analysis

3.1 Instance noise injection via diffusion

3.2 Adversarial Training

3.3 Adaptive diffffusion

3.4 Theoretical analysis with Examples

3.5 Related work

4 Experiments

4.1 Comparison to state-of-the-art GANs

4.2 Effectiveness of Diffusion-GAN for domain-agnostic augmentation

4.3 Effectiveness of Diffusion-GAN for limited data

5 Conclusion


Abstract

生成对抗网络(GANs)的稳定训练具有挑战性,而在鉴别器输入中注入实例噪声的解决方法在实践中还不是很有效。在本文中,我们提出了一种新的GAN框架,它利用一个前向扩散链来产生高斯混合分布的实例噪声。扩散-gan由三个组成部分组成,包括一个自适应扩散过程、一个与扩散时间步长相关的鉴别器和一个发生器。观测数据和生成的数据都通过相同的自适应扩散过程进行扩散。在每个扩散时间步长,有不同的噪声-数据比,时间步长相关的鉴别器学习区分扩散的真实数据和扩散生成的数据。生成器通过前向扩散链的反向传播从鉴别器的反馈中学习,该扩散链的长度被自适应地调整以平衡噪声和数据水平。我们从理论上证明,鉴别器的时间步长依赖策略为生成器提供了一致和有用的指导,使其能够匹配真实的数据分布。我们在不同的数据集上展示了扩散-gan相对于强GAN基线的优势,表明它可以比最先进的GAN产生更真实的图像,稳定性和更高的数据效率。

1. Introduction

Generative adversarial networks (GANs) 生成对抗网络以及变式---合成逼真的高分辨率图像
存在的问题:不收敛性和训练的不稳定性---模式崩溃
解决方案:improving the network architectures、 gaining theoretical understanding of GAN training、changing the objective functions regularizing the weights and/or gradients、utilizing side information利用侧面信息、adding a mapping from the data to latent representation 从数据到潜在表示法的映射applying difffferentiable data augmentation应用可微数据增强
稳定GAN训练的一种简单技术是注入实例噪声,即在鉴别器输入中添加噪声,这可以扩大生成器和鉴别器分布的支持,防止鉴别器过拟合。然而,这种技术很难在实践中难以实现,因为找到合适的噪声分布具有挑战性。Roth等人表明,在高维鉴别器输入中添加实例噪声并不能很好地工作,并提出通过在鉴别器上添加一个零中心梯度惩罚来近似它。梅切德等人的理论和经验表明该方法收敛,他们还证明,与WGAN-GP相比,在非饱和GANs中添加零中心梯度惩罚可以导致稳定的训练和更好或可比的生成质量。然而,Brock等人警告说,零中心梯度惩罚和其他类似的正则化方法可能以生成性能为代价稳定训练。据我们所知,目前还没有现有的工作能够通过经验证明在高维图像数据的GAN训练中使用实例噪声是成功的。
为了注入适当的实例噪声,以促进GAN的训练,我们引入了扩散-GAN,它使用一个扩散过程来产生高斯混合分布的实例噪声。我们在图1中展示了扩散-gan的图形表示。在扩散-gan中,扩散过程的输入要么是真实的图像,要么是生成的图像,扩散过程由一系列步骤组成,逐渐向图像添加噪声。扩散步长的数量不是固定的,而是取决于数据和生成器。我们还设计了扩散过程的可微性,这意味着我们可以计算输出对输入的导数。这允许我们通过扩散过程将梯度从鉴别器传播到生成器,并相应地更新生成器。与普通的GANs直接比较真实图像和生成的图像不同,扩散-gan比较了它们的噪声版本,这是通过从扩散步骤上的高斯混合分布中采样得到的,在我们的时间步长相关的鉴别器的帮助下获得的。该分布的特性是其组件具有不同的噪声-数据比,这意味着某些组件比其他组件添加更多的噪声。通过从这个分布中抽样,我们可以实现两个好处:首先,我们可以通过缓解消失梯度的问题来稳定训练,当数据和生成器分布太不同时就会发生;其次,我们可以通过创建同一图像的不同噪声版本来增加数据,这可以提高数据效率和生成器的多样性。我们提供了一个理论分析来支持我们的方法,并表明扩散-gan的最小-最大目标函数,它测量数据和发电机分布之间的差异,是连续的和可微的。这意味着发生器在理论上总是可以从鉴别器中接收到一个有用的梯度,并提高其性能。
我们的主要贡献包括: 1)我们从理论和经验上展示了如何利用扩散过程来提供一个模型和领域无关的可微增强,使数据高效和无泄漏的稳定GAN训练。2)大量实验表明,扩散-GAN提高了强基线的稳定性和生成性能,包括StyleGAN2 、投影GAN ,以及InsGen ,在合成逼真图像方面实现了最先进的结果,通过弗雷切特初始距离(FID)和回忆评分测量的。

2. Preliminaries: GANs and diffusion-based generative models

3. Diffusion-GAN: Method and Theoretical Analysis

为了构造扩散-gan,我们描述了如何通过扩散注入实例噪声,如何通过正向扩散过程的反向传播来训练生成器,以及如何自适应地调整扩散强度。我们进一步提供了一个玩具例子说明的理论分析。

3.1 Instance noise injection via diffusion

3.2 Adversarial Training

3.3 Adaptive diffffusion

3.4 Theoretical analysis with Examples

3.5 Related work

4 Experiments

4.1 Comparison to state-of-the-art GANs

4.2 Effectiveness of Diffusion-GAN for domain-agnostic augmentation

4.3 Effectiveness of Diffusion-GAN for limited data

5 Conclusion

明天读~~~~~~~

你可能感兴趣的:(生成对抗网络,机器学习,人工智能)