ICCV 2019 best paper(SinGAN:Learning a Generative Model from a Single Natural Image)

本文提出了一种可以从单个自然图像中学习无条件生成模型SinGAN,模型用于捕捉图像内部块的信息,可以产生高质量并且多样性的图像。SinGAN包含一个金字塔全卷积的GANs,每个GAN负责学习图像不同尺度的块分布。可以生成具有可变性的任意大小和纵横比的新样本,仍然可以保持训练图像的全局结构和细节。文中的方法不仅仅限制于纹理图像,并且是无条件的。
ICCV 2019 best paper(SinGAN:Learning a Generative Model from a Single Natural Image)_第1张图片

1 Instruction

GAN在高维数据分布的建模方面取得了戏剧性的跨越。特别地,当训练一个特定类数据集时,无条件GAN在生成真实、高质量的图像方面展示出了卓越的成绩。然而获取多个目标类的高度多样数据集的分布仍然是一个巨大的挑战,并且需要根据另一个输入信号来调节生成或特定的训练模型。
本文将GAN带入了新的领域,从单一自然图像中学习无条件生成。单一自然图像有足够的内部块分布信息,可以作为一个强大的学习模型。SinGAN不需要依赖数据集中其他同类,就生成复杂机构和纹理的图像。
最近的很多研究提出了单一训练样本上训练一个过拟合的深度模型,然而,这些模型只是用于确定的任务。然而它们的生成都是以输入图像为条件的,并且不能用于生成随机噪声的样本,相反的,本文中的SinGAN不仅仅限于纹理,也可以处理自然图像。

2 Method

本文的目标是学习获取单一自然图像内部块的无条件生成模型,与以往GAN不同的是,这里的训练样本是单一图像的内部块,而不是数据库中的整个图像样本。
为了处理自然图像,需要在不同的尺度上捕捉复杂图像的内部块分布信息,为了捕获图像中较大对象的形状和排列方法等全局信息和纹理信息,生成框架由马尔科夫鉴别器组成,每个层负责捕获不同尺度上的块分布。GAN具有更小的感受野和有限的容量,从而阻止他们记忆单个图像,虽然在GAN中已经存在类似的多尺度的结构,但是SinGAN是第一个利用单一图像进行内部块的学习。
本文中的模型包括金字塔结构的生成器,训练图像金字塔,其中xn是通过rn对x进行下采样的结果。图像样本的生成会从最粗的尺度开始,然后逐渐生成最好尺度的图像,并且会在每个尺度上注入噪声。在最粗的尺度下,只有生成过程,GN将空间高斯白噪声zN映射到样本xN中。
在这里插入图片描述
这里感受野通常是图像高度的1/2,在更精细的比例下,每个生成器Gn会加入先前的比例没有生成的细节,因此,还会接受来自较粗尺度的图像的上采样版本作为输入。
在这里插入图片描述
噪声和上采样版本作为输入送入卷积层,可以保证GAN不会忽略噪声,卷积层可以生成其缺少的细节。
在这里插入图片描述
最开始最粗的尺度选用32个卷积核,然后每个尺度会增加2倍,全卷积的生成器,通过改变噪声的维度可以在测试阶段生成任意大小和纵横比的图像。

你可能感兴趣的:(ICCV 2019 best paper(SinGAN:Learning a Generative Model from a Single Natural Image))