论文解读:ICCV2019 Best paper SinGAN

SinGAN: Learning a Generative Model from a Single Natural Image

今天介绍一篇非常有趣的论文,同时也是 ICCV 2019 的 best paper,题目叫做 SinGAN: Learning a Generative Model from a Single Natural Image,题目非常浅显直白,就是从单张自然图像中学习一个生成模型,这篇论文的思路并不复杂,通过拟合单张自然图像中的纹理分布,进而生成更多的视觉上非常相似,但又不完全一致的纹理,从而扩充图像的内容,但这篇论文的高明之处在于,仅仅只需要一种网络模型,或者一种网络架构,就可以实现不同任务的图像处理,包括超分,图像序列的生成,图像的编辑,风格迁移等。

当然,论文也是利用目前非常流行的生成模型 GAN 网络,我们前面介绍过,统计机器学习里非常重要的一个基本原理就是概率分布,任何一组数据,任何一组变量,理论上都是存在概率分布的,差别就在于能否给出确定的分布表达式,一般情况下,我们很难获得准确的分布表达 p ( x ) p(x) p(x),所以绝大多数情况下,我们都是通过拟合的方式来估计。

GAN 网络,也是一种数据拟合方式,通过学习大量的数据,来获取这批数据的近似分布,然后再通过采样,重建出新的数据,GAN 网络采用了对抗学习的方式,这个有点像博弈,生成模型 G G G 负责生成图像,并且尽可能地让生成的图像真假难辨,而判别模型 D D D 负责辨别真伪,对生成模型生成的图像,应该尽可能的区分开来,两个模型优化的目的是不一样的,所以类似两个模型在互相博弈,所以 GAN 网络的训练,一般很难收敛,GAN 网络的训练技巧,也是保证 GAN 能成功运用的重要因素。

GAN 网络已经被广泛的应用于各种图像编辑里了,比如颜色转换,风格转换,超分等,不过常用的 GAN 网络模型,都是基于大量数据集训练得到,通过拟合大量的数据,来获取对整幅图像的大致估计,这篇 paper,考虑对单张图像的分布进行估计,为了获得对单张图像的完整估计,论文作者采用了高斯金字塔的多尺度方式,对不同尺度的图像 patch 进行分布估计。

图像不同尺度的 patch,其实就对应着图像不同尺度的纹理信息,这就有点像 CNN 里的 receptive field,在不同的 CNN 层,每个神经元的 receptive field 是不一样的,小尺度的 patch,就是简单的线,边缘,或者一些角点;再大一点的 patch 就是物体的局部,再大一点的 patch 就是整个物体的全貌,或者场景的一部分,最大的尺度就是整幅图像,所以 SinGAN 的作者,就提出了一种多尺度的 GAN 模型,分别对一幅图像不同尺度的 patch 纹理来拟合,重建,每个尺度的 GAN 网络也很简单,最底层的尺度,就是一个简单的 GAN 模型,利用噪声生成图像 patch,

x ~ N = G N ( z N ) \tilde {x}_N = G_N(z_N) x~N=GN(zN)

对于更上层的尺度,GAN 模型的生成器的输入有两个,一个是随机噪声,另外一个则是下层 GAN 模型生成的图像,再做一个上采样得到的:

x ~ n = G n ( z n , ( x ~ n + 1 ) ↑ r ) , n < N \tilde {x}_n = G_n(z_n, (\tilde{x}_{n+1}) \uparrow^{r} ), \quad n < N x~n=Gn(zn,(x~n+1)r),n<N

在训练更上层的生成模型的时候,论文作者也采用了 residual Net 的形式,

x ~ n = ( x ~ n + 1 ) ↑ r + ϕ n ( z n + ( x ~ n + 1 ) ↑ r ) \tilde {x}_n = (\tilde{x}_{n+1}) \uparrow^{r} + \phi_{n}(z_n + (\tilde{x}_{n+1}) \uparrow^{r}) x~n=(x~n+1)r+ϕn(zn+(x~n+1)r)

训练 GAN 网络的时候,除了常规的训练 GAN 的损失函数之外,还有一个重建误差,

min ⁡ G n max ⁡ D n L a d v ( G n , D n ) + α L r e c ( G n ) \min_{G_n} \max_{D_n} L_{adv} (G_n, D_n) + \alpha L_{rec}(G_n) GnminDnmaxLadv(Gn,Dn)+αLrec(Gn)

在衡量重建误差的时候,论文作者选定了固定的噪声参数,除了最底层,其它上层的噪声水平都是 0,通过这种方式,论文作者声称在训练 GAN 的时候,可以估计噪声的方差,这样应该是可以帮助生成器更快地收敛吧。

整个模型的架构如下所示:

论文解读:ICCV2019 Best paper SinGAN_第1张图片

在实际训练的时候,为了模拟不同尺度的 patch,不同尺度的 GAN 网络,生成器的输入图像经过了原图的 resize,对原始图像做不同的 resize,同时让网络的 receptive field 保持一致,这样就类似同样结构的 GAN 模型,其实对应的是不同尺度的图像 patch 了。

这篇 paper 的作者,已经把代码也开源了,有兴趣的可以自己试试,不过这个方法,无法做到实时,因为针对一幅新的自然图像,这个框架都需要利用这幅图像,在线训练一个多尺度的 GAN 模型,拟合这幅图像的纹理分布,然后才能利用 GAN 模型,生成不同的图像内容。

论文的项目地址:

http://webee.technion.ac.il/people/tomermic/SinGAN/SinGAN.htm

你可能感兴趣的:(计算摄影与图像处理)