Image Super-Resolution via Iterative Refinement 论文笔记

前言

基于Diffusion Model来做的超分辨,与以往基于GAN和CNN网络的不一样,Diffusion Model是从低分辨率图像中学习噪声然后通过UNet来估计噪声,再进行噪声去除来还原图像。主要是基于DDPM这篇论文的理论上进行改进的,相比其他方法来说可以很好的还原图像的高频信息,虽然在PSNR和SSIM指标上一般,但是实际出来的效果来说还是不错的,并且也证明了Diffusion Model这种生成模型在超分辨上方法也是可行的。

网络框架

这篇的网络框架基本是基于DDPM上面进行了略微的改进,区别是出来的图像不是随机生成的,是对低分辨率图像作为条件进行生成的。

主要分为两个阶段,一个是高斯噪声扩散过程,主要是在对模型进行训练的时候,给图像不断地添加随机的高斯噪声,然后通过UNet网络对噪声进行估计,通过估计之后的噪声与原添加的噪声进行对比,损失函数就是使得这两个噪声最可能接近,以此来训练出一个很好的噪声推理网络;第二个阶段是推理阶段,就是当训练好网络后,输入一张低分辨率的图片估计当前噪声然后进行推理直至还原到高分辨率。

Gaussian Diffusion Process

Image Super-Resolution via Iterative Refinement 论文笔记_第1张图片

如上图所示就是训练阶段,原图x0对应的就是GT图像,首先均匀采样一个t和噪声z,然后通过上面那条式子估计出第t步的噪声图像xt,\bar{\alpha}是固定的参数,它的选取依赖于t,于是就得到了xt对应的图像,这个过程是一步到位的,不是一步步加噪声推理出来的xt,上面的图片只是为了方便理解。然后通过xt对应的图像和低分辨率图像进行三次线性插值后的图像进行拼接得到的就是6通道的图像,作为条件输入到Unet网络进行估计当前噪声\tilde{Z},然后对于下图来说就是损失函数(\varepsilon=Zf\Theta对应的就是Unet的网络模型),就是估计原来采样的噪声Z和估计的噪声\tilde{Z}的差距,并且使得尽可能接近。

Image Super-Resolution via Iterative Refinement 论文笔记_第2张图片

Inference via Iterative Refinement

Image Super-Resolution via Iterative Refinement 论文笔记_第3张图片推理阶段如上图,首先经过随机采样得到一个xt,然后和低分辨率图像经过三次线性插值后进行拼接作为条件,输入到Unet网络对当前噪声进行估计\tilde{Z},然后通过上面的式子对噪声进行去除,得到xt- 1的噪声图,然后继续循环这个过程,得到xt-2的噪声图,以此类推直到得到x0的高分辨率图像。

改进

与DDPM模型不一样的地方在于:

①作为有条件生成模型,是将低分辨率图像进行三次线性插值后与噪声图进行拼接作为输入估计噪声。

②在DDPM中的\alphat是基于采样得到的t进行选取的参数,但是在SR3中的不再直接取,而是在采样得到t之后,经过\alphat-1\alphat之间均匀分布进行选取,使得过程更加连续。

③不再输入t给Unet,而是直接输入noise level,即②中得到的 \alphat 作为Unet的输入。

实验

Image Super-Resolution via Iterative Refinement 论文笔记_第4张图片

对比了GAN和PULSE模型和自回归模型,在PSNR和SSIM上的效果相对比较一般,另外还弄了个一致性的指标,因为相对其传统的超分辨模型都是基于PSNR进行训练的,而SR3不是,所以指标相对较低也正常。

Image Super-Resolution via Iterative Refinement 论文笔记_第5张图片

 对比和自回归模型上的差异,自回归模型是基于PSNR进行训练的,SR3 是利用FID去寻找噪声的Z的,因而各自有优势。

Image Super-Resolution via Iterative Refinement 论文笔记_第6张图片

这个表展示了在imganet上进行训练后的超分辨图的分类准确率的情况,可以看到SR3确实有一定的优势,这类实验展示的是超分辨后的图像对目标检测等任务的提升程度。

Image Super-Resolution via Iterative Refinement 论文笔记_第7张图片

Image Super-Resolution via Iterative Refinement 论文笔记_第8张图片

 最后还用了一个Foolrate,用人眼来分辨超分辨图片哪个更接近低分辨率的图片,可以看到SR3在欺骗人眼的能力上有非常显著的效果。

总结

 SR3的模型使用了一种全新的超分辨思路,与以往的基于GAN和CNN网络的完全不一样,主要是通过图像的概率分布来对图像进行不断降噪来获取超分辨的图像。实验结果来说因为没有使用PSNR等指标作为损失函数,虽然在这些指标的领域比较一般,但是在其他实验上还是有非常不错的效果。尤其个人认为在imagenet上分辨从错误率上得到了提升,当然其实并没有对比SOTA的模型,所以缺乏一定的说服力,但是总的来说这个思路是有效果的,而且有很大的提升空间。

 

你可能感兴趣的:(论文阅读,计算机视觉,人工智能)