Diffusion models VS GANs——图像合成(Image synthesi)领域的下一代模型

翻译自Diffusion Models Vs GANs: Which one to choose for Image Synthesis

Diffusion models(扩散模型)和GAN(生成对抗网络)都在图像、视频和语音生成领域得到了广泛的应用,引发了关于什么产生更好结果的争论。

图像合成任务通常由深度生成模型(如GAN、VAE 和自回归模型)执行。生成对抗网络 (GAN) 由于其产生的输出质量,在过去几年中一直是备受关注的研究领域。另一个有趣的研究领域是扩散模型。它们都在图像、视频和语音生成领域得到了广泛的应用。自然地,这导致了关于什么产生更好结果的持续辩论——扩散模型或GAN。

GAN 是一种算法架构,它使用两个相互对抗的神经网络来生成新合成的数据实例,这些实例可以传递给真实数据。扩散模型越来越受欢迎,因为它们提供了训练稳定性以及图像和音频生成的质量结果。

扩散模型的架构

谷歌解释了扩散模型的工作原理。它们通过逐渐添加高斯噪声来破坏训练数据。这会删除数据中的细节,直到它变成纯噪声。然后,它训练一个神经网络来逆转破坏过程,即去噪。谷歌补充说:“运行这种反向损坏过程,通过逐渐去噪,从纯噪声中合成数据,直到产生干净的样本。”

GAN 架构

GAN 有两个部分:

  • 生成器:它学会生成似是而非的数据。 
  • 鉴别器:鉴别器决定它审查的每个数据实例是否属于实际的训练数据集。它还惩罚生成器产生难以置信的结果。

Diffusion models VS GANs——图像合成(Image synthesi)领域的下一代模型_第1张图片

生成器和鉴别器都是神经网络。生成器输出直接连接到鉴别器输出。在反向传播过程中,鉴别器的分类给出了生成器用来更新其权重的信号。

GAN 的一些常见问题

尽管 GAN 在大量模型中构成了图像合成的框架,但它们确实存在一些研究人员正在积极研究的缺点。正如谷歌所指出的,其中一些是:

  • 梯度消失:如果判别器太好,生成器训练可能会由于梯度消失的问题而失败。 
  • 模式崩溃:如果生成器产生一个特别合理的输出,它可以学习只产生那个输出。如果发生这种情况,鉴别器的最佳策略是学会始终拒绝该输出。谷歌补充道,“但如果下一代鉴别器陷入局部最小值并且没有找到最佳策略,那么下一次生成器迭代就很容易为当前鉴别器找到最合理的输出。”
  • 收敛失败:GANs 也有这个频繁的收敛问题。

扩散模型的发展

OpenAI 研究人员的一篇题为“ Diffusion Models Beat GANs on Image Synthesis ”的论文表明,扩散模型可以实现优于生成模型的图像样本质量,但存在一些局限性。

该论文称,该团队可以通过一系列消融找到更好的架构,从而在无条件图像合成上实现这一目标。对于条件图像合成,该团队通过分类器指导提高了样本质量。

该团队还表示,他们认为扩散模型和 GAN 之间的差距来自两个因素: 

“最近 GAN 文献使用的模型架构已经过大量探索。GAN 能够以多样性换取保真度,产生高质量的样本,但不能覆盖整个分布,”该论文补充道

你可能感兴趣的:(图像处理,人工智能,计算机视觉,机器学习)