Deep Plug-and-Play Super-Resolution for Arbitrary Blur Kernels
(适用于任意模糊内核的深度即插即用超分辨率)
源码包:https://github.com/cszn/DPSR
论文下载:https://arxiv.org/abs/1903.12529
来源:CVPR19年论文
现存在的方法主要是针对广泛使用的双三次退化而设计的,对于任意模糊核的超分辨率低分辨率图像仍然存在根本性的挑战。
本文是一种基于双三次退化的深度SISR算法框架,利用即插即用框架对任意模糊核的LR图像进行处理,设计了一个新的SISR退化模型,以利用现有的盲去模糊方法进行模糊核估计。为了优化新的退化诱导能量函数,我们通过变量分裂技术推导了一个即插即用算法,该算法允许我们插入任何超分解先验而不是去噪先验作为模块部分。对合成和真实LR图像的定量和定性评价表明,所提出的深度即插即用超分辨率框架能够灵活有效地处理模糊LR图像。
①:y = (x ⊗ k) ↓s + n 模糊内核与高分辨率图像卷积之后带一个比例因子↓s,再加上一加性高斯白噪声(AWGN),噪声级为σ。
②:双三次退化模型:y = x ↓s ↓s表示具有缩放因子s的双三次下采样器(Matlab默认函数的大小)。由于其简单性,双三次降采样器模型成为评价SISR方法的基准设置
1)设计一种替代的降解模型
2)将现有的基于DNN的双三次退化方法扩展到新的降解模型中,以充分利用DNN的能力。
替代模型假设LR图像是HR图像的双采样、模糊和噪声版本:有两个优点:首先,进行推广;其次,它使我们能够采用现有的盲去模糊方法来估计给定LR图像的模糊核。
本文框架将基于神经网络的超分辨器集成到一个基于变量分裂的迭代优化方案中。结果表明,在傅里叶域中可以有效地处理模糊失真。因此,可以处理任意模糊内核。通过对现有的基于dnn的超级解析器进行少量修改,实现插拔步骤。
到目前为止,我们主要关注的是针对任意均匀模糊内核的非盲SISR,而不是针对任意非均匀模糊内核的盲SISR。盲SISR通常包括交替更新模糊内核和应用非盲SISR更新超分辨率图像,工作尝试训练DNN直接估计干净图像进行盲消模糊,但其实用性还有待进一步评价
① 提出了一种比双三次退化模型更符合实际的SISR退化模型。它考虑了任意的模糊内核,并支持使用现有的去模糊方法进行模糊内核估计。
② 提出了一种深度即插即用的超分辨率框架来解决SISR问题。DPSR不仅适用于双三次退化,而且可以处理任意模糊核的LR图像。由于迭代方法的目的是求解新的退化诱导能函数,因此提出的DPSR算法具有良好的原则性。
③ 提出的DPSR扩展了现有的即插即用框架,表明了SISR的即插即用先验并不局限于高斯去噪。
即插即用图像恢复技术提出后由于其在处理各种反问题时的灵活性和有效性,受到了广泛的关注。该方法利用变量分裂技术实现了能量函数的初始化,并采用任意一种现成的高斯去噪器来代替先验相关子问题。与传统相比,它可以隐式地定义即插即用先验。据我们所知,现有的即插即用图像恢复方法大多将高斯去噪作为先验。我们将证明,对于即插即用SISR的应用,先验并不局限于高斯去噪。相反,一个简单的超分解器先验可以用来解决一个更复杂的SISR问题。
加性高斯白噪声在通信领域中指的是一种各频谱分量服从均匀分布(即白噪声),且幅度服从高斯分布的噪声信号
当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验概率
最大后验概率估计”是后验概率分布的众数
双三次退化模型
y = x ↓s ↓s表示具有缩放因子s的双三次下采样器。
求出目标图像B中每一像素点(X,Y)的值,必须先找出像素(X,Y)在源图像A中对应的像素(x,y),再根据源图像A距离像素(x,y)最近的16个像素点作为计算目标图像B(X,Y)处像素值的参数,利用BiCubic基函数求出16个像素点的权重,图B像素(x,y)的值就等于16个像素点的加权叠加。下采样(即抽取):对于一个样值序列间隔几个样值取样一次,这样得到新序列就是原序列的下采样
比双三次退化模型更符合实际的、考虑了任意的模糊内核、支持使用现有的去模糊方法进行模糊内核K的估计。
本文模型:为了简化模糊核估计,退化模型y=(x↓s)⊗k+n,↓s是具有尺度因子s的双三次下采样器,简单地说,表示LR图像y是干净HR图像x的双二下采样、模糊和噪声版本。模型公式实际上对应于一个去模糊问题和一个具有双三次退化的SISR问题。因此,我们可以充分利用现已有的去模糊方法来估计k,这是优势之一。
能量函数:根据最大后验概率(MAP),将能量函数形式化地给出
Min…是由退化模型确定的数据保真度(似然)项(为了方便和澄清参数的设置,从贝叶斯的观点来看)。Φ(x)正规化(先前)项。λ是惩罚参数。(结合起来是惩罚项)
对于能量函数:来解决能量函数首先采用变量分裂技术引入一个辅助变量z,得到以下等价约束优化公式:
然后我们处理等价约束公式使用了半二次方分裂(HQs)算法。注意,也可以利用ADMM等其他算法。我们使用HQs是因为它的简单性。HQS通过最小化以下问题来处理,该问题涉及额外的二次惩罚项:
µ是惩罚参数,一个非常大的µ将强制z大约等于x↓s
通常情况下,µ会在下面的迭代解决方案中非降序变化。
这方案是关于z(辅助变量)和x(高分图像)的交替极小化问题。
一方面,由于模糊核k只涉及封闭形式的解,z式解决模糊的失真问题。换句话说,它把当前的估计拉到一个不那么模糊的地方。另一方面,x式将模糊程度较小的图像映射到更清晰的HR图像,经过多次交替迭代,最终重建的HR图像不包含模糊和噪声。
贡献三:即插即用框架,表明了SISR的即插即用先验并不局限于高斯去噪。
假设卷积是用圆形边界条件进行的,关于Z的有一个快速封闭的解决方案:
式中F和F逆表示快速傅立叶变换(FFT)和逆FFT,F(-)表示F()的复共轭。
关于x,从贝叶斯的角度,我们重写它如下:
通过假设zk 1是从HR图像x中双二下采样的,来应对具有比例因子s的超分辨率zk 1,然后被噪声等级 的AWGN所破坏。
从另一个角度来看重写公式用以下简单的双三次退化模型解决了一个超分辨率问题。y = x↓s + n.因此,一个可以插入基于DNN的超级解析器,训练在广泛使用的双三次退化与一定的噪声水平,以取代重写公式。为了简洁,x和重写公式可简化为:
由于上一项Φ(X)是在SR(·)中隐式定义的,因此我们将其称为超级解析器优先。
超级解析器网络
由于SRResNet是一个著名的基于DNN的超解析器,本文提出了一种改进的SRResNet,即SRResNet+,用于插入所提出的DPSR框架。SRResNet+在几个方面与SRResNet不同。首先,SRResNet+以噪声级别映射M作为输入。其次,SRResNet+将功能地图的数量从64个增加到96个。第三,SRRESnet+移除批处理正常化层。
所提议的DPSR方法与几个密切相关的基于dnn的方法之间的根本区别。
1.级联去模糊和SISR。对于具有任意模糊核的超分辨LR图像,一种启发式方法是先进行去模糊,然后对去模糊后的LR图像进行超分辨。然而,这种级联两步法的缺点是,第一步的摄动误差(the perturbation error)会在第二步放大。相反,DPSR对Eqn(4)给出的能量函数进行迭代优化。因此,DPSR趋向于提供更好的性能。
2.微调SISR模型与更多的训练数据。
也许最直接的方法是对现有的基于双三次退化的SISR模型进行微调,使用新退化模型生成的更多训练数据(即,Eqn。(3)造成所谓的盲SISR。然而,这种方法的性能会严重恶化,尤其是考虑到大的复杂模糊核时,这可能是因为模糊的失真会进一步加剧像素平均问题[34]。对于DPSR,它以blur内核作为输入,通过Eqn(9)可以有效地处理blur的失真。
3.具有端到端训练的扩展SRMD或DPSR
受SRMD的启发[65],人们可以尝试通过考虑任意模糊内核来扩展它。但是,很难对足够多的模糊内核进行采样,以覆盖较大的内核空间。此外,训练一个可靠的模型需要大量的时间。相比之下,DPSR只需要对模型进行双三次退化的训练,训练时间大大缩短。此外,SRMD虽然可以有效地处理具有多个连续卷积层的15×15大小的简单高斯核,但对于处理较大的复杂模糊核就失去了有效性。相反,DPSR通过Eqn(9)采用了FFT更加简洁和专业的模块来消除模糊的失真。或者,可以利用DPSR的结构优势,以端到端方式联合培训DPSR。然而,我们把这留给我们未来的工作。
从上面的讨论中,我们可以得出结论,我们的DPSR原则良好,结构简单,可解释性强,并且较少涉及培训。
(1)模糊核:为了全面评估提议的任意模糊内核的有效性,我们有三种广泛使用的模糊内核类型,包括高斯模糊内核、运动模糊内核和磁盘(失焦)模糊内核。一些内核示例如图1所示。注意,内核大小范围从5×5到35×35。如表2所示,我们进一步考虑了对于比例因子为3时的两种不同噪声水平的高斯噪声,即2.55(1%)及7.65(3%)。
高斯核;从区间[0.6,2]均匀采样的8个各向同性高斯核和8个各向异性高斯模糊核。
运动核:8个模糊核及其通过随机旋转和翻转而增加的8个内核;代码生成的16个外观逼真的运动模糊核。
磁盘(失焦)模糊内核:[1.8,6]半径均匀采样的8个圆盘核。它们是由MATLAB函数fSpecial(‘Disk’,r)生成的,其中r是半径。
(2)参数设置
在Eqn(7)和Eqn(8)的交替迭代中,我们需要设置λ和优化来获得一个令人满意的性能。设置这些参数被认为是一项重要的任务。但是,使用以下两个原则,DPSR的参数设置通常很容易。首先,由于λ是固定的,可以吸收σ,我们可以用一个标量乘以σ,因此在Eqn(8)忽略λ。第二,由于在迭代过程中具有非降序,所以我们可以设置来自Eqn(12)的。在每一次迭代中,用一个非升序间接确定。从经验上讲,经验法则是将λ设置为1/3,并将从49个指数降到一个小的σ依赖值(例如,最大值(2.55,σ),共15次迭代)。
(3)比较方法
我们将所提出的DPSR方法与六种方法进行了比较,包括两种具有代表性的基于DNN的双三次退化方法(即VDSR和rcan)、两种级联去模糊方法和SISR方法(即,IRCNN+rcan和DeblurGAN+rcan)和两种特别设计的模糊LR图像方法(即GFN和ZSSR)。具体而言,VDSR是SiSR的第一个非常深的网络;RCAN由400多个层组成,实现了双三次降级的最新性能;IRCNN是即插即用的方法;DeFurgan是一种基于生成对抗网络(GAN)的深盲去模糊方法,GFN是一种基于DNN的方法。联合盲运动去模糊和超分辨率;ZSSR是一种基于无监督DNN的方法,能够超分辨模糊和噪声LR图像。请注意,IRCNN、ZSSR和DPSR可以将模糊内核和噪声级别作为输入。为了进行公平的比较,我们将ZSSR修改为我们的新的降解模型。
(4)量化结果。
在彩色BSD 68数据集[39,48,62]上,不同方法对不同降解设置的PSNR和Ssim结果如表2所示,从中我们得到了一些观察结果。第一,同时与VDSR相比,RCAN性能优于VDSR(参见[67]),对于复杂的退化设置,它具有与VDSR相当的性能,甚至优于双三次插值。这种现象[51,65]也报告了这一点。其次,在通过ircnn进行去模糊步骤之后,ircnn+r可以显著地改善PSNR和SSIM值。第三,DEBURGAN+RCAN和GFN导致性能差这可以归因于连续卷积层在处理大的复杂模糊的失真中的有限能力。第四,ZSSR对于大的复杂模糊核是较不有效的,因为模糊LR图像缺乏复发性。最后,我们的DPSR实现了最佳的性能,因为它直接优化了能量函数以满足给定的降级,并且可以有效地进行处理。
(5)视觉效果
。图2为高斯模糊超分辨LR图像的尺度因子为4的几种方法的对比图。可以看出,由于降解失配,VDSR和RCAN无疑会产生令人不快的结果。DeblurGAN+RCAN生成非常令人不愉快的伪影,与LR图像相比,并不能减轻模糊程度。GFN的性能不太好,而ZSSR对超分辨非常模糊的LR图像的效果较差。与DeblurGAN+RCAN、GFNandZSSR相比,IRCNN+RCAN产生了更好的效果,但同时也产生了一些噪声类伪影,这些伪影可能是由IRCNN引入,然后由RCAN放大。相比之下,我们的DPSR产生的视觉效果最好
图3进一步展示了另外两种模糊内核的视觉对比。可以看出,DPSR始终能够产生最佳的视觉效果。特别是GFN虽然在一定程度上可以处理运动模糊,但其视觉效果明显不如IRCNN+RCAN和DPSR。其根本原因是,它无法盲目处理由连续卷积产生的模糊的失真。我们知道其他基于学习的方法(如[54])也存在这样的问题。
(6)收敛性。由于我们的DPSR是SISR即插即用框架的一个特例,可以参考[10,45]来分析理论收敛性。在本文中,我们仅仅提供了一个经验证据来证明DPSR的收敛性。在图像102061上显示了所提议的DPSR的真实情况,并考虑了不同类型的模糊内核和不同的噪声水平。在图5(a)中,我们将噪声级别固定为0,并为每种内核类型选择第三个内核。在图5(b)中,我们将模糊核固定在第三个高斯核上,选择三个不同的噪声等级,分别为0、2.55和7.65。可以看出,DPSR收敛速度非常快
为了降低计算成本,我们的DPSR并不一定需要迭代求解双三次退化,因为我们采用的超分解器先验已经针对这种退化进行了端到端的训练。显然,这也是现有即插即用SISR的一个优势。对于其他降级的情况,DPSR的运行时间主要取决于迭代的总数。在单GPU上,DPSR根据不同的比例因子对大小为256x256的LR图像进行超分辨大约需要1.8秒。作为对比,ZSSR在比例因子2、3和4上分别花费了12、14和18秒。实际上,可以调整迭代的总数来平衡性能和速度。
双三次插值(常说的图像是一个点阵,像素矩阵。另外一种:用函数来描述的图像的矢量图,放大就用上了插值,但其实没有增加像素信息,是采用数学公式计算丢失像素的色彩,增加图像大小)
利用三次多项式求逼近理论上最佳插值函数sin(x*π)/x,三次多项式:
(这个论文我只看了粗略地看了一次,只看了模型和函数,请多指教)