Deblurring via Stochastic Refinement 论文笔记

前言

大部分的图像去模糊任务模型都是基于CNN或者当前的attention机制,也有少部分基于生成模型例如GAN的,但是存在一个很大的问题就是在论文中作者认为图像去模糊问题应该是一个不适定问题,即一个模糊的图像应该对应多个清晰图像的解,不应该是唯一的。然而,对于不管是CNN和GAN模型来说,当训练好模型后,一张模糊的图像就对应一张清晰的图像,是一个确定的过程,也就是说,现有的方法产生了对干净图像的确定性估计,并经过训练以最小化像素级失真。所以,基于以上,论文中提出了基于扩散模型的方法应用在去模糊任务,可以存在很多的不确定性,从而避免以上的问题。

另外,还存在的一个问题是大部分现有的模型都是基于GroundTruth像素级别的损失函数来进行训练的,都是有监督学习的回归任务,因而会追求PSNR等指标,但是实际上来说PSNR等指标并不一定代表人对图像的感受就越清晰。基于作者提出的扩散模型来说虽然不能再PSNR、SSIM等指标上达到最好的效果,但是可以有一定的可比性,并且在人眼感受的指标上面可以达到SOTA的效果。作者在这两个角度的指标上做了相关的实验,提出了非常有意思的关于这两项指标的一些想法。

网络框架

Deblurring via Stochastic Refinement 论文笔记_第1张图片

网络框架上是基于DDPM来改进的,与之前的SR3基于扩散模型来做的超分辨有异曲同工之妙,都是一个有条件的生成模型,上图是Unet的网路结构图。

Diffusion Probabilistic Models

这部分是论文中关于扩散模型的原理就不再赘述,主要参考DDPM和SR3,可以看看我之前的论文SR3和B站上一个up的视频,讲得非常透彻。总的来说就是基于扩散模型进行图像的推理过程是不需要学习的,只是中间的一个对噪声估计的环节中加入了Unet使得对噪声的估计更接近于真实图像的噪声,然后通过估计的噪声对图像进行去模糊。

Image Super-Resolution via Iterative Refinement 论文笔记_Unsunshine_Bigboy_?的博客-CSDN博客扩散模型 Diffusion Model 2-2 deblur_哔哩哔哩_bilibiliImage Super-Resolution via Iterative Refinement 论文笔记_Unsunshine_Bigboy_?的博客-CSDN博客

Predict-and-Refine Diffusion Model

Deblurring via Stochastic Refinement 论文笔记_第2张图片

这是论文中提出的模型部分以及具体改进部分,上图是模型的框架,一幅模糊的图像进来后,有两条通道,首先,下面那条通道是输入的模糊图像先经过初始的估计模型(是一个基于CNN的去模糊模型)得到初始估计的清晰图像,然后上面那条通道是通过输入的初始估计清晰图像和原始模糊图像做残差,得到的残差特征和采样的噪声一起输入到Unet网络来对当前原始图像的噪声进行估计,然后进行清晰图像的生成,最后和初始估计图像进行相加得到最后推断出的清晰图像。

训练Unet网络使用的损失函数如下图,可以看到Unet的输入就是初始估计图像和原始模糊图像做残差后的特征和采样得到的噪声强度,估计出当前图像的噪声,使得接近于真实添加的噪声\varepsilon

Deblurring via Stochastic Refinement 论文笔记_第3张图片

训练细节

 论文中还对训练的细节进行了说明,①初始的去模糊模型是不需要额外的损失函数的,主要是根据Unet网络得到的噪声来进行梯度下降训练的(具体怎么实现我也不是很清楚,需要看代码,但是又没有开源出来);②为了使得最后出来的结果更加稳定,论文还使用了集成学习,即多次随机采样噪声xt,然后进行多次推理,最后得到的清晰图像取平均;③去除了SR3的Unet网络中关于self-attention, positional encoding, group normalization;④在训练的过程中发现采样时多步小噪声会产生更好的人眼感受质量,少步大噪声会产生更好的指标,成反比,具体就是下图的过程;⑤作者将大图片剪裁成了128×128分辨率的图片进行训练,并且使用了图像旋转来进行增强。

Deblurring via Stochastic Refinement 论文笔记_第4张图片

 实验

在GOPRO上的运动去模糊实验结果如下,SA模型对应的是多次采样取平均的结果,可以看到在人眼感受上的指标上得到了基本SOTA的效果,在PSNR等指标上也有一定的可比性。但是其实现在有一些新的SOTA模型已经超过了这个指标。个人有一个疑问就是为什么SA和普通模型为什么差距这么大,但是可以看出这两项指标是相反的,不能兼顾。

Deblurring via Stochastic Refinement 论文笔记_第5张图片

 在HIDE数据集上的实验结果如下图:

Deblurring via Stochastic Refinement 论文笔记_第6张图片

此外,还用人眼来做实验的结果:

Deblurring via Stochastic Refinement 论文笔记_第7张图片

消融实验

Deblurring via Stochastic Refinement 论文笔记_第8张图片

残差比非残差来说在相同参数的情况下推理速度快很多,说明残差网络的计算速度更快,计算开销更少。

Deblurring via Stochastic Refinement 论文笔记_第9张图片

 超参数的消融实验如上图。

总结

成功将扩散模型应用到了去模糊任务上,增强了生成清晰图片的随机过程,使得最后出来的图片并不是唯一的,但是在人眼观察重建质量上取得了很好的效果,并且在PSNR等指标上也有一定的可比性。此外,论文还认为这两个方向上的指标是相反的,即不能兼顾,一项高就使得另外一项必然会低。最大的亮点是在模型中提出了残差的思路,使得推理速度加快,并且加上初始的推理取得了不错的效果。另外,模型还有很多提升的空间,例如可以采用Unet的结构优化初始推理过程。

 

你可能感兴趣的:(论文阅读,深度学习,人工智能)