All One Needs to Know about Priors for Deep Image Restoration and Enhancement: A Survey
Yunfan Lu, Yiqi Lin, Hao Wu, Yunhao Luo, Xu Zheng, and Lin Wang
Abstract
Image restoration and enhancement is a process of improving the image quality by removing degradations, such as noise, blur, and resolution degradation. Deep learning (DL) has recently been applied to image restoration and enhancement. Due to its ill-posed property, plenty of works have explored priors to facilitate training deep neural networks (DNNs). However, the importance of priors has not been systematically studied and analyzed by far in the research community. Therefore, this paper serves as the first study that provides a comprehensive overview of recent advancements of priors for deep image restoration and enhancement. Our work covers five primary contents: (1) A theoretical analysis of priors for deep image restoration and enhancement; (2) A hierarchical and structural taxonomy of priors commonly used in the DL-based methods; (3) An insightful discussion on each prior regarding its principle, potential, and applications; (4) A summary of crucial problems by highlighting the potential future directions to spark more research in the community; (5) An open-source repository that provides a taxonomy of all mentioned works and code links.
Index Terms—Image Restoration and Enhancement, Prior, Deep Learning, Survey.
摘要
图像恢复和增强是通过消除降级(例如噪声、模糊和分辨率降低)来提高图像质量的过程。深度学习 (DL) 最近已应用于图像恢复和增强。由于其不适定的特性,大量工作探索了先验以促进深度神经网络 (DNN) 的训练。然而,到目前为止,研究界还没有系统地研究和分析先验的重要性。因此,本文是第一项全面概述深度图像恢复和增强先验的最新进展的研究。我们的工作包括五个主要内容:(1)深度图像恢复和增强的先验理论分析;(2)基于深度学习的方法中常用的先验层次结构分类法;(3)对每个先验的原理、潜力和应用进行深入讨论;(4)通过突出潜在的未来方向以激发社区更多研究,对关键问题进行总结;(5)一个开源存储库,提供所有提到的作品和代码链接的分类。
1. 介绍
在捕获、存储、传输和渲染过程中,MAGE质量通常会恶化。典型的退化包括模糊、分辨率退化、噪声和其他工件。图像恢复和增强是一个试图通过去除这些退化来提高图像质量的过程,同时保留不可缺少的图像特征,如图1所示。
图1: 将低质量图像集映射到高质量图像集的过程。
绿色椭圆形代表低质量图像的集合。
深绿色椭圆代表收集的高质量图像。
三角形代表低质量图像采集中的样本点。
五边形代表高质量图像采集中的采样点。圆圈代表环境空间中无意义的点。
是一个低质量数据集,其元素是低质量图像集合的样本。
是一个高质量数据集,其元素是高质量图像集合的样本。
为高质量图像的采样密度。
为低质量图像的采样密度。
图像恢复增强一般分为六种类型,如图2所示:
图2:照片成像和传输的关键步骤。(a)环境影响,包括雨、雪和雾霾;(b)摄像机处理管道;(c)模糊和去模糊;(d)压缩伪影去除;(e)超分辨率;(f)视频帧插值。
(1)环境影响去除,即去除由环境因素造成的图像伪影,包括雨[1]、雪[2]、雾霾[3]等;
(2)相机处理管道,即图像信号处理器(ISP),将光电信号转换为数字信号,包括去噪[4]、色彩校正[5]、demoire[6]、去噪[7]和高动态范围(HDR)成像[8]等;
(3)去模糊(deblur),通过去除主要由物体或相机运动[9]引起的模糊工件来恢复清晰图像;
(4)压缩伪影去除,旨在减少图像存储和传输过程中由于有损压缩造成的边缘模糊、阻塞和振铃伪影等低质量问题[10];
(5)超分辨率(SR),旨在提高图像或视频的分辨率[11];
(6)视频帧插值,又称超慢动作,目的是将低帧速率视频换为高帧速率视频[12]。图像恢复和增强有很多应用,如人脸识别[13],自动驾驶[14],医学图像分析[15]。因此,许多早期的努力都在积极探索从其退化版本[3]中恢复高质量图像内容的物理模型。
近年来,深度学习(DL)给图像恢复和增强带来了新的启示。基于DL的方法通常在各种任务[6],[16],[17]上实现最先进的(SOTA)性能。因此,人们开发了多种深度神经网络(dnn),如卷积神经网络(cnn)[18]、循环神经网络(RNNs)[16]、生成对抗网络(GANs)[19]和视觉转换器(ViTs)[20],显示出强大的学习能力。然而,由于图像恢复与增强具有高度不适定的适当性,基于DL的方法仍然存在大量依赖大规模数据、超参数选择、收敛不稳定性等问题。
因此,在许多图像恢复和增强任务[21],[22]中,已经探索了各种先验来加速DNN的收敛和提高精度。具体来说,先验是一些显式或隐式的模式和知识,很难通过DNN训练直接获得,但可以通过以往的经验和理论推理手动获得,如暗通道先验[3],人脸先验[23]。在此基础上,先验可以分为两大部分:(1)可以用数学公式或物理模型描述的规则先验(第3节)和(2)难以用规则描述的潜在先验(第4节)。形式上,先验的有效性可以用数据流形结构分布理论[24]来支持,表明自然图像在高维空间中集中在一个非线性的低维流形附近,如图1所示。因此,先验可以有效地降低预测空间的维数(即从退化图像空间映射到高质量图像空间)。第二节提供了更多的数学原理分析。
这项调查提供了深度图像恢复和增强的最新发展的全面而系统的概述。之前的一些调研,如[8],[9],[11],[25],只是针对图像恢复与增强中的某个特定任务。例如,Liu等。[25]提出了一种分类策略,将深度图像超分辨率方法分为不同的类别。Wang等人[8]回顾了深度HDR成像的关键方面,例如,域输入曝光、新型传感器数据和新型学习策略。Zhang等人[9]讨论了图像模糊的常见原因,并分析了不同的基于CNN的方法。不同的是,这项调查通过调查不同的任务来更好地理解先验在最近的深度图像恢复和增强方法中所起的作用,从而考虑了更普遍的观点。直观地,我们强调了先验的重要性,这些先验有利于指导深度图像恢复和增强中的各种任务。因此,这项调查是对前人最近进展进行有见解和系统分析的第一次努力,这可能有助于激发社区的新研究努力。
本研究的主要贡献有五个方面:(I)我们提供了深度图像恢复和增强的全面概述,包括两个主要部分,(II)基于几何理论(第2节),我们提出了先验在图像恢复和增强任务中的有效性的一般数学基础。(III)我们从层次和结构上分析了不同先验之间的联系以及每个先验在不同深度图像恢复和增强任务中的应用(第5节)。(IV)我们讨论了在深度图像恢复和增强任务中利用先验的开放挑战(V)我们创建了一个开源存储库,提供了所有提到的作品和代码链接的分类。我们的开源存储库将定期更新这一研究方向的新提交,我们希望它将为未来的研究提供启示。存储库链接是GitHub - yunfanLu/Awesome-Image-Prior。
同时,我们在表1-8中突出了某些图像恢复和增强任务的一些代表性先验并进行了基准测试。由于篇幅不足,我们在补充材料中展示了一些具有代表性的深度图像恢复和增强任务的实验结果。
在接下来的章节中,我们将讨论和分析深度图像恢复和增强任务中的先验的各个方面。本文的其余部分组织如下。在第2节中,我们定义了深度图像恢复和增强任务中的先验,并从理论上分析了不同任务的原则。在第3节中,我们讨论了规则先验,例如统计先验,时间先验和转换先验。在第4节中,我们详细研究了潜在先验,例如,非局部自相似,面部先验和深度图像先验。在第5节中,我们将讨论尚未解决的问题和未来的发展方向。在第6节中,我们对本文进行总结。
2.背景与理论分析
在本节中,我们提供了基于几何理论[24]的先验在深度图像恢复和增强任务中的有效性的一般数学基础。我们在式1中表示高质量图像Ih和低质量图像I之间的关系,其中Φ是映射函数,θ是参数。对于深度图像恢复和增强网络,Φ可以灵活地替换为DNN[16]:
退化函数是恢复和增强过程的逆,如公式2所示,其中Φ-1为退化函数,如模糊模型、噪声模型、降采样模型,θβ为其参数:
基于流形分布定律[24],我们将环境空间表示为R C×H×,其中C是RGB通道的数量,H和W分别是图像的高度和宽度。环境空间中的大多数图像都没有物理意义,就像噪声一样,如图1所示,红圈代表了空间中无意义的图像。我们只对有意义信息的图像感兴趣,如自然图像、人脸图像、文字图像等。在图像恢复和增强任务中,我们关注高质量图像集Sh和低质量图像集S。它们都分布在环境空间的低维流形空间中,如图1所示。R C×H×W、Sh和Sl之间的关系如公式3所示,其中|·|表示基数,即集合的大小。
深度图像恢复增强模型Φ(·;θα)描述了从低质量图像集S到高质量图像集Sh的映射。训练映射模型Φ(·;θα)是求方程4的最小值,其中D(x)是两个分布映射的总代价,c(·,·)是代价函数,如L1, MSE,[24],Ω是一个凸区域,表示考虑模型Φ(·;θα)是一个同胚转化。不同的代价函数导致不同的映射模型。相应的退化模型Φ-1(·;θβ)描述了相反的映射。
因此,我们认为p,图像恢复增强模型的性能Φ(·;θα),取决于三个方面:
(1)p,根据S(即低质量图像分布)估计输入分布的准确性;
(2)ph,根据Sh估计输出分布的精度,即高质量图像分布;
(3)fΦ,将输入映射到输出的能力。当采样均匀时,pl和ph与采样密度ρ成正比。f可以通过网络的映射能力来衡量。p与pl, ph, fΦ的关系可简化为式5:
假设S是一个图像恢复和增强数据集,可由公式6表示。这里,D是低质量的图像数据集。Dh为高质量图像数据集。Nl和Nh是数据集的计数。I(l, I)和I(h,j)分别是集合S和集合Sh中的采样点。一般来说,数据集是流形空间上采样点的集合,如图1所示。五边形是来自一个深绿色椭圆的点,五边形的集合是一个高质量的图像数据集。低质量和高质量的采样密度如等式7所示,其中C为数据集的大小,|S|为集合的基数。因此,低质量和高质量图像的采样密度如式8所示。此外,Sl和Sh为常数,式5等于式9。
先验的有效性体现在对pl, ph, fΦ的影响上。一些先验可以约束高质量图像集,如暗通道先验[3],梯度分布[26],L0正则性[27],面部先验[28]。这些先验描述了高质量图像集Sh的一些性质,减小了网络估计Sh分布的搜索空间,相当于增大ρh。一般来说,先验可以通过增加pl, ph, fΦ的一个或多个值来提高网络性能。
在本次调查中,所有调查的先验都可以用这些原理进行分析。具体来说,一些先验方法专注于通过直接生成更多低质量图像来提高pl,例如,对核和噪声信息建模(章节3.5.2)或使用生成模型(章节4.4.2)进行训练集合成。此外,一些先验的重点是通过将高质量图像的知识嵌入到DL框架中来增加ph值,例如,使用统计信息(章节3.3)或深度去噪器(章节4.4.3)作为调节项,使用GAN反演(章节4.4.1)来利用来自潜在空间的知识。此外,一些其他先验集中于通过指导网络结构的设计来改进f,例如物理模型(章节3.1),时间先验(章节3.2),建模核和噪声(3.5.1),非局部相似性(4.1)或引入额外的信息来改进DL模型,例如转换先验(3.4),语义先验(3.6),面部先验(4.2)。此外,深度图像先验(4.3)利用DNNs结构f增大ρh,对单张低质量图像进行图像恢复和增强。
图4:不同种类的退化效果
3.先验
3.1物理先验
Insight:物理模型可以按照物理原理将输出分解为独立的组件或因子,从而降低学习难度,增加可解释性。
恶劣天气,如雾霾、雨雪等,通常会导致图像采集过程中图像质量下降。传统的方法,如[48],根据物理原理精心设计了退化模型。尽管许多工作使用DNN直接从降级的图像中恢复干净的图像,但一些尝试通过将传统方法引入DL管道作为强大的先验。在这些物理模型中的先验知识的指导下,如图5所示,所设计的DNN模型更有效,更可解释,这刺激了深度图像恢复和增强方法的发展。
图5:典型的DNN框架使用基于物理的先验图像恢复和增强任务。(a)-(c)分别为[29]、[30]、[31]的简化图
3.1.1大气散射模型
较有代表性的退化模型是大气散射模型(ASM)[48],广泛应用于图像深度去雾[32]。ASM的公式为I(x) = J(x)t(x)+A(1-t(x)),其中x为像素位置,t(x)为介质传输图,A为全球大气光。J(x)为干净图像,I(x)为雾霾场景中退化图像。DehazeNet[32]遵循ASM模型,使用CNN估计传输图t(x),并从估计t(x)中最暗的0.1%像素中获得大气光a。为了获得更准确的大气光a, DCPDN[29]提出联合学习密集连接的金字塔网
络估计传输图t(x),联合学习UNet[49]估计大气光a。此外,为了减少单独估计t(x)和a造成的累积误差,许多方法尝试通过重新制定ASM模型使用单个中间参数。例如,在AOD-Net[33]中,ASM模型通过一个中间参数K(x)重新进行了重构,ASM模型可以用J(x) = K(x)I(x) K(x) + b来求解。AOD-Net[33]所表现出的良好性能证明ASM模型仍然可以很好地嵌入DL框架中,而不需要单独估计t(x)和a。随后,DehazeGAN[50]、FAMEDNet[34]和PFDN[35]也采用了这种简化的ASM模型。此外,ASM模型还可用于其他任务,如对[36]进行降雪,对[37]进行微光图像增强,通过估计相应的分量来指导DNN模型的设计。
3.1.2 雨模型
为了更好地适应不同的降雨模式,已经提出了各种降雨模型。加性复合模(ACM)[51]是最简单和应用最广泛的降雨模型,可表示为O(x) = B(x) + S(x),其中x表示像素的位置,B表示清晰的背景层,S为雨痕层,O为雨痕导致的退化图像。Fu et al.[30]在ACM的基础上提出了一种具有代表性的工作,从细节层获取输入,预测退化图像与地面真实干净图像之间的残差。DID-MDN[52]延续[30]的思路,引入了额外的雨密度分类器来提高残差质量。RESCAN[39]提出了一个更简单的循环框架,通过残余学习执行多阶段降雨去除。JORDER[38]考虑到雨纹和雨水的积累,提出了另一种具有代表性的方法,即引入雨罩和附加雨纹层。因此,JORDER中退化的降雨图像可以分解为多个雨纹层、雨区和干净的背景图像作为多阶段降雨去除的预测目标。此外,一些作品用遮挡[40]、时态属性[42]或深度图[41]等不同因素来解释雨景。
3.1.3 Retinex模型
Retinex模型[53]基于人类感知颜色的方式,假设观测到的图像I可以分解为反射率R和照度L两个分量。Retinex模型的形式可以描述为I(x) = R(x)·L(x),其中x表示像素的位置,·表示像素的乘运算。Retinex模型已被广泛集成到许多深度微光图像增强方法中,如[31]、[43]等,表现出良好的性能。这些方法的基本思想是设计专门的子网络来分别学习光照分量和反射分量。Retinex-Net[43]是一项具有代表性的工作,它提出了一种分解网络,将in - put图像分解为反射率和照度。然后,设计了增强网络来调整光照图。随着Retinex-Net中的管道,许多工作[31],[45],[46]被提出,对预测或先进的网络架构有更多的限制。为了提高计算效率,LightenNet[44]提出使用更微小的编码器来估计照度,并将输入图像除以照度图得到增强图像。在此基础上,IM-Net[54]和RUAS[47]也仅仅关注DNN框架设计中的照明估计。
讨论:从综述来看,基于物理先验的深度学习方法通常依赖于分解策略来预测和组装不同的组件,这限制了其在DNN框架设计中的灵活性。可以将神经结构搜索技术(例如[55])与基于物理的基础相结合,以激发更有效的DNN设计方案。此外,物理模型通常是特定于任务的或专注于某些应用程序场景。因此,未来的研究可以专注于设计一个更通用的物理模型,可以用于各种深度图像恢复和增强任务。
3.2时间先验
Insight:时间先验是为深度视频恢复和增强任务量身定制的。视频中的先验主要来源于帧与帧之间的关系,即时间信息。在本节中,我们将介绍两个主要的时间先验:光流和时间锐度先验。它们通常用于在深度视频恢复和增强任务中对齐时间特征。
3.2.1光流先验
光流反映了视频连续帧之间物体、表面和边缘的运动,由观察者和场景[56]引起。它可以表述如下:
(x, y)为图像中的像素位置I, t为两帧之间的时间变化,由光流计算。传统的方法侧重于稀疏光流,只估计图像中具有明显特征的像素点,如变分方法[56],Lucas Kanade方法[57]。然而,大多数基于dl的方法都侧重于密集光流,这可以缓解传统方法的局限性。Dosovitskiy等人[58]引入了FlowNet,这是第一个基于cnn的光流估计方法。该基线通过[59],[60],[61]等不断改进,并被广泛应用于各种深度图像恢复和增强任务中。
首先,视频超分辨率(VSR)旨在通过运动估计从相邻帧中恢复高分辨率(HR)帧,进行帧对齐。因此,通常使用光流来对齐相邻帧,如图6(a)所示。Sajjadi等人[62]提出了一种具有代表性的框架,该框架依赖于基于流的编码器-解码器架构来估计光流。他们还设计了一个循环网络来传播长期的时间信息来恢复HR视频。ToFlow[63]联合训练流量估计组件和视频处理组件,以便更好地计算VSR的光流。然而,光流受到光的不变性和大运动的限制。因此,DUF[64]、DCN[65]、[66]等文献尝试使用基于cnn的对齐方法来实现帧对齐。此外,最近有很多研究利用光流作为辅助信息来支持帧对中,如图6(b)所示。BasicVSR++[17]是利用光流引导DCN进行帧对齐的代表性框架。这项工作在NTIRE 2021视频恢复与增强挑战赛中获得了三次冠军和一次亚军[67]。Liang等[68]与BasicVSR++类似,利用光流引导自注意结构完成时间特征对齐。
在视频去模糊中,还利用光流来处理不连续的模糊帧,如图6(c)所示。Pan等人[69]提出了第一个利用光流获得的扭曲的相邻帧来构建时间锐度先验的工作,这将在下一节中讨论。最近的一些研究,如[70],[71]也采用了类似的思路,将光流作为获得先验时间锐度的前提条件。
此外,在多曝光HDR成像中,使用光流对低曝光、中曝光和高曝光帧进行对齐,如图6(d)所示。有代表性的作品采用经典的光流估计方法[72]、[73]或基于dl的方法[74]、[75]对多次曝光的LDR图像进行对齐。然后,他们设计了基于dnn的框架来融合对齐的LDR图像来重建HDR图像。表2总结了使用光流进行深度图像/视频恢复和增强的代表性任务。除了图6所示的方法外,光流还常用于其他任务,如深度视频脱模[42]、深度视频帧插值[76]。
讨论:从前面的分析来看,在光照环境变化和大运动的情况下,光流的计算是很困难的。因此,这些问题在现实视频中是不可避免的。虽然很多文献[64]、[65]、[66]尝试用dnn代替光流进行帧对齐,但光流中包含的重要运动信息丢失了。出于这个原因,积极的研究已经进行,以减轻更好的框架对齐的限制。近年来的许多研究表明,光流估计作为初步或辅助成分与其他方法相结合,在深度视频恢复和增强方面优于仅使用先验的方法。如[17],[68]使用光流引导DCN或VSR的自我注意,[69],[70],[71]使用光流生成时间锐度先验用于视频去模糊。未来的研究可以考虑将光流与dnn结合起来,以解决现实应用中的挑战。
图6:光流的不同用法。(a)直接利用光流对齐VSR中的时间特征。(b)结合光流与DCN或注意对齐VSR中的时间特征。(c)在HDR成像中使用光流对多次曝光图像进行合并。(d)构造基于光流的视频去模糊的时间锐度先验。
3.2.2时间锐度先验
时间锐度先验是基于非连续模糊性质假设的深度视频去模糊中的一个特定先验[69]。同一物体在不同帧中同时包含锐利像素和模糊像素。锐利像素是深度视频去模糊的优先选择。虽然一些传统方法[77]使用了这种先验,但它首先与基于dl的模型结合,并在[69]中明确定义。Pan等人[69]提出了一个具有代表性的框架,将当前帧与使用相邻帧的光流获得的扭曲帧进行比较,以构建时间锐度先验。这可以限制基于深度cnn的模型利用锐利帧来支持深度视频去模糊。Li等人[70]提出了类似的方法来处理视频中的大运动;但是,该算法以多个连续帧作为输入,计算时间锐度,从而获得更加决定性的时间信息。此外,其特征空间可以在多个尺度上进行匹配。Shang等[71]提出了一种双向长短期记忆(LSTM)架构,用于从前后相邻帧中探测最近的两个尖锐帧(nsf)。这是因为在合理范围内从相邻帧先验获得的时间锐度可以有效地促进视频深度去模糊。
讨论:从我们的回顾来看,时间锐度先验主要是基于连续帧中的非连续模糊属性[69],[70],[71]。这个概念可以很容易地扩展到其他领域。例如,因为噪声在视频中也是不连续的,我们可以使用相同的假设来构造另一个先验。因此,未来的研究可以更多地关注特定的时间属性,以探索深度视频恢复和增强的新的时间先验。
3.3统计图像特征作为先验
Insight:统计图像特征可分为统计强度特征和梯度特征。前者描述了图像I(x)的统计特征,后者描述了其导数I ' (x)的统计特征。
在本节中,我们回顾了利用统计图像特征来估计DNN的参数或将其嵌入DNN结构的有代表性的工作。作为先验的统计图像特征可分为:作为先验的统计强度特征和作为先验的统计梯度特征。表3列出了应用这些先验的代表性工作。
3.3.1统计强度特征为先验
统计强度特征通常指图像通道强度分布,如双色分布先验[80]、双色先验[81]、直方图均衡化先验[21],[82],极值分布,如暗通道先验[3],[83]、亮通道先验[79],[84],[85]。
暗通道先验[3]描述了局部邻域中至少有一个颜色通道具有强度值接近于零的像素。Yan等[84]将其扩展到明亮通道先验,约束了相邻小像素中至少有一个颜色通道强度非常大,如图8所示。它们被广泛用于传统图像恢复任务中的核估计或参数约束,如去雾、去噪和弱光增强。Lee等人[79]提出了第一个利用明亮通道先验进行微光图像增强的无监督框架。该先验预测图像中的初始照明映射,然后用于建立无监督损失以优化编码器-解码器网络。相比之下,ECPeNet[86]直接将暗通道先验和亮通道先验插入编码器-解码器网络进行图像去模糊。因此,该方法可以同时聚合先验信息和模糊图像表示信息来指导动态场景去模糊。
图7:在深度图像恢复和增强中,有三个比较有代表性的框架采用了统计特征。(a)利用深度网络来预测图像的梯度图,以指导高分辨率细节的恢复[78]。(b)采用明亮通道先验作为损失函数,支持单次微光图像增强的无监督学习方法[79]。
图8:(a)和(b)分别是模糊图像和清晰图像中暗通道先验和亮通道先验的统计结果
3.3.2统计梯度特征作为先验
统计梯度特征通常是指图像的梯度分布和局部梯度的极值分布,包括局部最大梯度先验[89]、梯度引导先验[78]、梯度通道先验[22],[90]。尽管它们在传统的图像恢复和美化任务中得到了广泛的应用,但在基于dl的框架中却很少被研究。
Ma等[78]提出了一种利用梯度特征的梯度分支网络,以获取额外的结构信息并构造梯度损失。这种先验使网络能够更专注于图像SR的几何结构,如图7(a)所示。Sun等人[88]随后按照类似的思路获得了结构信息,作为SR网络的指导。
讨论:从综述中,我们发现基于统计梯度特征的先验可以为深度图像恢复和增强任务提供额外的知识或指导[78]。然而,上述的一些先验,如局部最大梯度先验[89],梯度通道先验[22],[90],还没有应用到基于dl的深度图像恢复和增强方法中。因此,未来的研究可以围绕这一方向展开。
3.4转换作为先验目的
Insight:将图像转换到不同的域可以为网络训练带来良好的特性,例如某些噪声模式在特定的频率子带中更为明显。
在本节中,我们回顾了使用变换来减少深度图像恢复和增强的解空间的代表作品。与应用转换来提高数据多样性的数据增强不同,将转换作为先验的目的是利用来自转换域的额外信息来提高网络模型性能和训练效率。前面使用的变换可以分为两类:基于频率的变换[92]和非基于频率的变换[38]。
表4总结了将基于频率的变换作为先验方法用于图像深度恢复和增强的代表性工作,更多的细节可以在补充资料中找到。
图9:前面的使用频率变换的说明
3.4.1基于频率变换的学习
将数据转换到频域,例如使用离散傅里叶变换(DFT)或离散小波变换(DWT),可以将数据分解为不同的频率子禁令,以进行分量分析。在基于dl的方法被开发之前,这些方法已经被广泛研究用于图像恢复[102],[103]。在深度图像恢复的背景下,一些工作通过经验或实验表明,某些模式,如噪声[91]、云纹图案[96]、雨[94]、雾霾[104]或雪[101]在某些频率子带中更为明显。通过将频率信息集成到深度学习框架中,它们可以作为提高网络训练效率的有用先验。此外,不同的子带包含了图像上下文的特定先验信息。例如,高频子带通常传递更多的纹理细节,而低频子带传递更多的结构信息,这可以有力地指导网络恢复缺失的细节,保持图像SR的客观质量[93],[95],[105]。将基于频率的变换引入dnn的这些方法,可以通过将变换后的数据直接作为输入和输出[91]、[93]、[95]、[96]、[101]、[105],如图9 (a)所示,或者将变换应用于中间特征图[92]、[97]、[104],如图9 (b)所示。
此外,使用基于频率的转换的先验也可以封装为现有DL管道的强大的即插即用模块。MWCNN[92]将池化操作替换为DWT,并将其逆变换作为上采样操作。因此,它可以扩大DNN模型的接受域,同时从特征图中获取频率和位置信息。在此基础上,Rong等[97]还提出了基于Haar小波的小波池化操作,以更好地去噪和相应的信号重构。此外,Maggioni等[99]在这种可逆变换操作中引入了可学习参数,以进一步提高DNN模型的性能。
讨论:从我们的回顾来看,现有的DNN模型,如[96],利用基于频率的变换作为先验,主要是基于实证研究。但是,扎实的任务知识和广泛的实验是必需的。因此,对于不同的深度图像恢复和增强任务,进行更多的理论分析(如[91])和探索更通用的基于频率变换的先验是有益的。此外,现有的工作[92],[97]主要集中在使用上述转换将池化操作替换为先验。总之,未来的研究可以考虑通过引入可学习参数设计更灵活的基于频率的变换模块,如[99]。
3.4.2基于非频率变换的学习
还有一些非基于频率的变换,可以作为深度图像恢复和增强的信息先验,强调一些重要的图像模式。其中,从图像中获得的边缘信息可以被视为信息先验,因为它可以为DNN训练提供详细的结构或几何指导。
Yang等[106]提出了以低分辨率(low-resolution, LR) canny边缘图和LR图像为输入分别预测高分辨率(high-resolution, HR)图像和HR边缘图的代表性工作。这迫使网络保留SR中的结构信息。Nazeri等人[107]提出了一种两阶段SR框架,该框架首先从LR canny边缘图和LR图像的拼接中预测HR边缘图。然后,他们设计了一个图像补全模块,以预测的HR边缘图和LR图像为输入,获得HR图像。为了更好地提取边缘信息,Ren等人[108]和Zhu等人[109]使用深边缘检测器,例如HDE[110]来生成边缘图,而不是使用手工操作符。此外,Fang等人[111]提出了一种软边缘辅助框架,通过同时优化边缘损失和SR损失,以端到端方式联合学习边缘映射和SR任务。
除了边缘变换,Ren等人[112]还探索了使用包括白平衡、对比度增强和gamma校正在内的变换进行深度图像去雾。特别是,他们提出了一种门控融合网络,将所有转换后的模糊图像作为输入,预测其相应的置信度图。然后将这些置信度图与转换后的图像进行加权,以获得干净的图像。
讨论:将精心选择的变换应用于退化图像,如前所述,已经证明了深度图像恢复和增强任务的有效性。但是,如果我们可以将基于转换的先验引入到网络设计中,用一个联合的子网络代替手工制作的转换算子,例如[111],将会更有意义。
3.5核和噪声信息作为先验
洞察:对核和噪声信息建模可以为特定于图像的恢复提供额外的信息,或帮助生成更真实的低质量图像。
利用预先定义的退化模型对图像退化过程进行建模,可以有效地减少求解空间。在图像恢复的一般管道中,经典退化模型已被许多作品广泛采用[113],[117]。经典的退化模型可以表示为y = (x⊗k)↓s +n,其中y表示退化图像,x⊗k表示潜在图像x与核k之间的卷积运算,↓s为标度因子s的下采样运算,n为噪声。这些退化信息,即核和噪声,可以作为DNN结构设计的先验信息,如图10 (a)所示,也可以用于训练数据集合成,以提高网络性能和鲁棒性,如图10 (b)所示。
图10:基于建模核和噪声信息的管道说明
3.5.1DNN结构设计中的显式建模
有了这样的退化模型,许多工作[113]、[115]、[119]、[127]都专注于利用退化模型的估计核或噪声信息来提高dnn的性能。SRMD[113]是第一个使用模糊核和噪声映射作为图像sr的附加输入的工作。具体来说,SRMD提出了一种使用主成分分析(PCA)对向量化模糊核进行投影的拉伸策略,对核信息进行编码。沿着这条线,UDVD[119]进一步提出了一种动态卷积块,从条件输入中提取特征,以生成逐像素内核进行细化。Zhang等人[115]引入了一种将更多退化信息作为条件输入的图像SR展开优化。他们还将训练目标转化为数据子问题和先验子问题,可以交替求解。类似地,FFDNet[114]提出将噪声级映射作为图像去噪的条件输入。
除了使用预估计退化信息的方法外,一些工作侧重于使用DNN模型估计内核,然后将估计的内核与上述以内核信息为条件输入的深度恢复方法相结合。KernelGAN[116]提出使用深度线性网络作为生成器来参数化图像SR的底层内核,同时设计了一个鉴别器来区分生成的补丁与真实的LR图像补丁。训练完成后,对生成器中的所有卷积滤波器进行卷积,可以显式地得到估计的核。FKP[121]提出了一种基于流的内核建模方法,生成合理的内核初始化,遍历学习到的内核流形,以获得更好的内核估计结果。
此外,一系列工作[117]、[118]、[120]共同估计退化信息,端到端学习目标恢复任务。ICK[117]提出了一种迭代核修正方法,根据前一阶段的SR结果修正估计的核信息。Huang等人[120]通过迭代估计退化和恢复SR图像,开发了一个深度交替网络。CBDNet[118]使用噪声估计子网络来预测噪声信息,并将其作为DNN模型的额外输入进行图像去噪。
3.5.2训练集综合中的显式建模
其他一些方法也建议使用从真实图像估计的更真实的内核来覆盖训练数据集中更多的退化模式。例如,Zhou等人[123]基于从真实LR图像估计的一些真实SR内核,用数据分布学习构建了一个大型内核池。RealSR[124]采用了类似的策略,使用更现实的内核构建更通用的训练数据集。Tran等人[125]提出使用编码器-解码器架构将锐-模糊图像对的模糊核编码到模糊核空间中,并将学习到的内核空间应用于模糊图像模拟。在图像去噪任务中,GCBD[122]和C2N[126]都使用GAN生成真实噪声来构建用于图像去噪的配对数据集。
讨论:在现实场景中,图像的退化过程通常是未知的,并且可能受到预定义退化模型之外的各种因素的影响。因此,显式建模的核和噪声信息不能得到满意的结果,图像的退化不包括在这些模型。除了核和噪声映射的格式之外,还可以使用更通用的方式对退化信息或补充信息进行编码,例如,可学习表示[128]或数据特征[129]。
3.6语义信息先验
Insight:语义信息是指使用语义分割[141]结果作为之前的指导深度图像恢复和增强任务.
语义信息可以对图像内容带来相当大的约束,如自然场景和人脸[23],[138],这可能为图像深度恢复和增强提供有效的指导。最近提出了许多将语义信息作为优先处理任务的方法,如去模糊[132]、[136]、去雾[142]、排水[131]、图像/视频SR[130]、[134]、[135]、[137]、弱光图像增强[140]以及图像去模糊与SR的结合[132]、[136]、[139]、[143]。根据图像增强网络与语义分割网络的关系,我们将这些方法大致分为三类,如图11所示。
图11: 基于语义信息引导的图像恢复与增强方法。(a)语义输出作为图像复增强模型的输入。(b)语义分割模型与恢复增强模型共享主干。(c)增强和细分任务相互指导,交替优化。(a)-(c)分别为[23]、[130]、[131]的简化插图。
第一类方法的一般说明如图11(A)所示,其中将语义信息作为dnn的输入,用于图像恢复和增强。Wang等人[23]提出了第一个利用语义信息来估计固有反射率参数的微光图像增强框架。这可以增强区域细节,指导基于场景语义的自适应去噪。在这方面,Ren等人[142]提出了一个框架,该框架将全局语义结果作为输入来估计视频去雾中的传输映射。与这些方法不同,Shen等[136]和Chen等[139]直接将语义分割结果作为图像增强网络的输入。具体而言,Shen等人[132]采用带有人脸语义信息的编码-解码网络来实现人脸图像去模糊的目标。Chen等人[139]取代了编码-解码框架,提出了一种用于人脸图像恢复的语义感知风格转换框架。虽然这些方法利用语义先验作为指导,取得了较好的效果,但它们对语义分割网络积累的误差很敏感.
第二类方法联合训练深度图像恢复网络和语义分割网络,可以缓解累积误差带来的影响,如图11(b)所示。Wang等人[130]通过联合学习分割网络和SR网络,提出了一个具有代表性的框架。由于它们遵循相同的编码器-解码器结构,并且共享编码器,因此可以从LR输入中获得SR图像和SR分割结果,没有任何累积误差。同样,Liu等[138]发现图像语义分割网络和去噪网络联合训练可以相互加强,提高复杂场景下的泛化能力。
第三类方法探讨了图像恢复增强任务和高级任务之间的协作关系,并引入了一种相互引导的策略来训练两个网络,如图11(c)所示。例如,Li等[131]提出了一个包含deraining网络和segmentation网络的框架。deraining网络消除了图像级和特征级雨对分割网络的影响,而分割网络通过嵌入语义信息来学习空间感知特征,便于排水。同样,Ma等人[144]提出了一种基于相互协作的联合人脸SR和地标检测框架。此外,检测信息也可视为一种特殊的语义先验,可应用于深度图像恢复任务[136],[144],[145]。Shen等[136]利用之前的检测信息来区分人和背景,这些信息分别指导网络对行人和背景图像进行去模糊。这种先验的好处是,它们可以更好地驱动每个任务的网络专注于包含行人或背景的特定区域。
讨论:从回顾来看,语义先验可以帮助提高深度图像恢复[23]的性能,而恢复的输出可以帮助学习语义分割网络[138]。因此,避免任务之间的依赖关系,开发更有效的相互协作策略值得进一步研究。此外,基于第2节的理论分析,语义先验通过提供额外的语义信息提高了深度图像增强模型的能力f,并且可以很容易地扩展到其他领域,例如HDR成像和图像压缩伪影去除。最后,利用语义先验对高水平任务和低水平任务进行融合也是一种有前景的探索。
表6:语义信息在图像/视频恢复和增强任务中的应用
4.潜在先验
4.1非局部自相似作为先验
Insight:非局部自相似先验可以通过图像中的再现补丁帮助恢复和增强特定细节。
非局部自相似性是图像的一个基本属性,它表明在给定的图像中,相同的小图案倾向于再次出现[146],如图12所示。因此,许多低级视觉任务利用这种适当性作为一个先决条件,以促进高质量图像的恢复。传统的方法,如三维变换BM3D[146]、WNNM[147]等,采用数学变换和映射的方法,将相似的补丁进行叠加,以实现恢复任务。然而,这些方法在很大程度上依赖于手工制作的转换来学习自相似性。
另一方面,基于dl的方法将dnn与非局部自相似先验相结合,用于任务,如去噪[148]、SR[149]、[150]和图像恢复[151]。Lefkimmiatis等人[148]提出了第一个基于dl的框架,对相似补丁进行分组并联合过滤。然而,先验本身严重依赖于人工设计,该方法泛化能力有限。
相比之下,[151]提出了一个有代表性的框架,通过非局部注意网络[152]来解决[148]中的问题。其原因是,非局部注意很好地符合非局部自相似先验的性质,使其对基于dl的模型更有效,减少了人工设计的需要。Mei等人[150]将这一思想扩展到非局部稀疏注意,以捕获长范围相似性,即全局相似性信息。
讨论:从以上分析中,我们假设非局部注意[152]可以有效地替代人工设计的非局部自相似先验的作用。然而,正如[150]所指出的,非局部注意存在两个问题:对局部特征的关注有限和计算成本高。因此,为了更好地提取全局相似特征,进行图像深度恢复和增强,值得探索稀疏注意或其他注意框架。
表7:人脸先验在深度人脸图像恢复任务中的应用
图8:深度图像先验代表
4.2面部先验
Insight:如图13所示,面部和面部组件的独特几何和结构等特征可用于解决面部图像深度恢复和增强问题。
图13: 一些面部先前的视觉例子。(a)面部标志优先[133];(b)面部成分先验[153];(c)面部解析映射先验[139];(d)基于参考的(高质量图像)先验[154];(e)三维面部先验[155];(f)语义标签优先[156]
一般来说,面部先验可以分为三种类型[23]:面部特定先验[133]、[153]、[156]、基于引用的先验[154]、[160]、[161]和生成面部先验[23],[166]。
广泛使用的人脸特定先验是基于这样的常识,即人脸处于一个可控的环境中,有微小的变化。因此,可以利用所获得的独特几何和空间分布信息,如面部标志[144]作为几何面部先验[133]、[139]、[155]、[157]、[159]来完成人脸图像恢复任务。同时,每个组成部分的各种特征,如人脸的眼睛,都可以作为先验知识。通常,FSRNet[133]是一个具有代表性的框架,包括两个阶段。在第一阶段,设计先验估计网络,同时提供面部标志热图和解析图。在第二阶段,提出了以热图和解析图为输入的恢复网络来恢复干净的人脸图像。然而,由于输入图像只包含有限的面部细节纹理信息,因此面部特定先验的质量较差。
基于参考的先验依赖于高质量人脸图像[154],[161]或面部成分字典[160]的指导。参考先验通常采用传统方法(如K-means)来聚类面部成分的感知显著特征。然后应用这些先验来解决更具挑战性的人脸图像恢复问题。
然而,由于预先建立的字典的大小和多样性,生成人脸先验被广泛地研究。预训练GAN的生成先验可以提供丰富的参考信息[23],[139],[166]。例如,GFPGAN[23]利用预先训练的GAN捕获的面部分布作为面部,以实现联合恢复和颜色增强。同时,还提出了一些特定的面部先验来约束DNN训练过程。例如,身份先验[164]利用预先训练好的识别网络模型为人脸幻觉提供辅助识别信息。最后,这些特定的面部先验是否可以进一步扩展到更多的图像增强和恢复任务中,仍值得探索。
讨论:根据上述分析,面部先验是面部幻觉任务的一个基本组成部分。区分面部幻觉任务与一般SR任务的关键因素是对面部先验的利用,例如面部成分的几何和空间信息[132]。由于生成先验被广泛应用于各种图像增强和恢复任务中,因此更有效的基于gan的人脸幻觉方法(如[23])有望在未来的研究中得到应用。此外,探索如何利用从其他特定任务模型获得的先验(例如,身份先验[164])来实现更好的面部幻觉也是有希望的。
4.3深度图像先验
Insight:随机初始化的CNN仅能在退化图像的基础上生成高质量的自然图像。CNN的结构可以作为先验。
CNN在图像处理任务中表现出强大的能力。Ulyanov等[168]发现CNN的结构可以固有地捕捉图像的自然分布。具体来说,它证明了网络不需要外部数据集进行训练,可以仅依靠自身来恢复或增强图像。因此,CNN本身就是一个先验,被称为深度图像先验(Deep Image prior, DIP)。给定一个由θ参数化的随机初始化CNN, DIP是一个通过θ最小化任务相关损失函数L从噪声输入中恢复观测图像的优化过程,如图14所示。在大多数任务中,L2距离能量函数通常用于比较生成的图像x和降级的图像x0。基于梯度下降的方法应用于优化θ,以产生一个有利的恢复图像x*。由于CNN的可泛化性,DIP是一种通用先验,可以很容易地应用于几乎所有的图像处理任务——SR[168],去模糊[170],去雾[169],去噪[176],HDR[177],等等。
图14:图像修补任务中DIP的管道和输出(放大以获得更清晰的视图)。CNN只在随机和固定的输入z上训练,通常,L是x和x0之间的香草MSE损失。我们用U-Net重现DIP,并展示了输出x如何通过迭代演变。x的一些细节,例如符号,会随着更大的迭代(过拟合)而恶化。为了获得最优的存储输出x *,需要一些早期停止原则,或者需要手动选择。
4.3.1深度图像先验的网络结构
一些有代表性的作品试图从网络结构的角度来研究DIP。Heckel等人[171]提出缓解DIP中cnn的重参数,并发现轻量级的非卷积神经网络足以生成高质量的图像。SelfDeblur[170]认为DIP仅限于捕捉模糊核的先验,因为它被设计用来生成自然图像。因此,它采用了一个额外的全连通网络来建模模糊核的先验。不同的任务甚至图像通常需要不同的网络结构来实现最佳性能。因此,自动化搜索合适的体系结构是意义深远的。[174]在DIP中引入了神经结构搜索,并在搜索空间中添加了新的成分,如上采样单元和跨尺度残差连接。尽管搜索空间很大,但通过添加特定于图像的指标,它们显著减少了搜索时间。
DIP以端到端的方式恢复整个映像,充当一个黑盒。为了使其可视化并更明确,另一项研究将多个cnn结合在一起,以便每个图像可以根据任务分解为几个层。Yosef等[169]首先提出了Double-DIP (D-DIP),将图像分解为几个基本组件。D-DIP使用一个DIP生成器网络构建一个层,基于DIP可以捕获整个图像的事实,这比单个层更复杂。这些基于解耦的方法可以很容易地应用于下游任务。例如,在去雾任务中,Li等[178]将一幅雾霾图像分解为无雾图像层、传输图层和大气光层。
4.3.2防止深度图像先验过拟合
DIP有一个基本原理:优化网络f以产生所需的输出x *。尽管如此,优化仅基于观察到的图像x0,这种单幅图像训练存在巨大的过拟合风险。在任何任务中,为了生成更好的图像,在训练过程中防止过拟合或及时中断是至关重要的。否则,输出可能会收敛到降级的目标x0,甚至崩溃。
Cheng等[172]从理论上研究了贝叶斯方法的DIP。他们表明,用随机梯度朗之万动力学取代随机梯度下降可以显著减少过拟合,并在去噪和修补任务中产生更好的结果。Quan等人[179]提出使用基于伯努利采样的像素级dropout来减少去噪时的过拟合和预测偏差。此外,Jo等人[173]通过有效自由度监测DIP去噪过程,以便及时停止。
先验可以引导搜索到高质量的图像,DIP可以灵活地与其他先验结合。在这里,其他图像先验作为DIP的显式正则化。一方面,某些下游任务将受益于给定的先验;另一方面,这些先验可以增强DIP并缓解过拟合。这种方法通常是在训练过程中将一个已有的先验作为损失函数中的一项。如[180]采用去噪正则化,Liu等[181]采用总变分先验。
4.3.3深度视频先验
由一系列图像组成的视频也可以从DIP中受益。Lei等人[175]提出了深度视频先验(Deep Video Prior, DVP),并表明输出帧中对应之间的距离可以通过CNN内部最小化。它基于这样一个事实:给定一个CNN,相似的补丁在训练的早期阶段会产生相似的结果。因此,DVP在输出帧之间实现了令人信服的时间一致性,并且不需要手工制作明确的正则化项。
讨论:DIP为低级视觉任务提供了新的见解,并点燃了探索深度模型属性的研究。DIP是一种普遍适用的有效的无监督方法。尽管与许多有监督的方法相比,香草DIP仍然不足,但其特定于任务的衍生品可与最先进的监督方法相媲美。然而,DIP的优化过程是图像特定的。它通常需要数千次迭代才能生成一个令人满意的图像,消耗大量的时间和计算资源。此外,DIP算法容易对退化图像进行过拟合。然而,早期停止策略存在过早终止的可能性,强正则化可能导致信息丢失。
4.4预训练模型作为先验
Insight:其他任务预训练的模型通常包含高质量图像或低质量图像的特定知识,这些知识可以用作图像深度恢复和增强的生成器或正则化术语。
4.4.1GAN反演为先验
GAN在图像生成[182]、[183]和编辑任务[182]、[184]中占据主导地位。一个训练良好的生成器理论上可以复制任何图像,给定相应的潜在代码z。因此,预先训练好的GAN模型,如StyleGAN[185],可以用作先验,即GAN先验。GAN先验是基于GAN反演的。该方法首先将退化图像映射到唯一的潜码,然后在潜码空间中搜索最优的潜码。最后,通过优化后的代码可以直接生成恢复或增强的图像,如图15所示。简而言之,对于任何退化图像x及其潜在代码z,都可以通过在预训练生成器G的输出空间中找到一个自然潜在代码z来获得自然图像x。
图15:先用GAN反演的例子。在预训练GAN的图像集形中,我们可以在潜码中搜索与相应原始自然图像相匹配的降级图像,并使用该代码生成恢复图像。
PULSE[186]通过在HR人脸图像流形中提出一种有效的搜索策略,首次引入了人脸S的GAN先验。由于潜码通常是维数有限的特征向量,可能无法捕捉到丰富的空间信息。为此,多码GAN先验[187]提出使用多个潜码同时处理一幅图像。他们自适应地融合潜伏码在g的某一中间层产生的特征。有了这样一个更复杂的模型,GAN先验能够有更广泛的应用,如着色,去噪和修补。
然而,Pan等人[188]发现生成器G捕获的图像集与来自野外的输入图像之间存在差距,因为G很可能过度拟合其训练数据集。为了解决这个问题,他们提出了深度生成先验(DGP),同时更新G和潜在代码z,在各种恢复任务中显示出显著的改善。另一种更好地利用GAN的策略是预先训练编码器E(x; θE)来生成特定于图像的分布中的z来馈送给G。GLEAN[189]在G之前追加了一个可训练的编码器,在G之后追加了一个解码器用于SR任务。同样,在面部恢复中,GFP-GAN[23]增加了退化去除模块,并获得了专用于g的高质量多层次空间特征。这些类型的预处理或后处理可以进一步开发潜力的GAN先验。
4.4.2训练集合成的生成先验
GAN还可以用于利用数据分布学习,并在生成配对合成训练集之前作为退化。具体来说,基于gan的方法通过使用一个或多个鉴别器来区分生成的图像样本与真实图像样本,从而预先训练退化过程的生成器模型。按照这种方式,退化GAN[190]是一个有代表性的框架,它结合了一个预先训练好的退化生成器来从HR图像生成LR图像,以及一个SR网络来超解析LR图像。为了减少生成的LR图像与真实LR样本之间的域差距,DASR[191]提出使用这两种类型的图像来训练SR模型。Zhang等人[192]提出了一个具有代表性的框架,该框架首先学习如何使用未配对的清晰和模糊图像数据集来模糊清晰图像,然后生成用于训练去模糊模型的图像对。
4.4.3基于模型方法的深度去噪先验
由于经典的基于模型的方法的可解释性和自适应,一些图像恢复方法提出将dnn集成到最大后ori (MAP)框架中,并以迭代优化算法作为正则化先验。给定干净图像x和退化图像y, MAP框架最小化由数据项和正则化项组成的能量函数。数据项使解与退化过程保持一致,而先验项将期望的性质强加于解以缓解不适定问题。基于此框架,Zhang等人提出的一项代表工作[18]将一组快速有效的CNN去噪器集成到先验项中,解决各种恢复任务,如去噪、去模糊和超分辨率。扩展工作[193]提出使用更强的U-Net去噪器以获得更好的性能,并适用于更多的恢复任务。[194]中也采用了类似的思想,用深度去噪模型替换先验项。此外,深度展开网络[195]提出了端到端的优化所有参数,包括去噪器先验项,从而获得了更好的性能。
讨论:使用预先训练的模型的成功是基于这些模型中嵌入的高质量图像的知识。现有方法从特征空间、数据空间和作为即插即用模块的使用等方面对预训练模型进行了探索。可以将不同的视角与各种预训练的模型组合在一个统一的框架中。此外,大多数预训练模型都是基于GAN和降噪器的,而其他不同任务预训练的DNN模型则留待未来研究探索。
5.未解决的问题和新视角
5.1 未解决的问题
到目前为止,我们已经回顾了各种深度图像恢复和增强任务的技术进展。这些先验相互紧密联系,在网络结构、数据生成和损失函数设计等方面发挥着关键作用。因此,了解先验及其应用范围之间的联系是至关重要的,这对于在社区中激发新的研究领域至关重要。在这里,我们主要讨论了先验的一些关键方面,包括它们之间的关系、泛化能力、潜在价值和应用。
5.1.1先验与基于dl的方法的关系
基于第2节的理论分析,先验通过数据(p和ph)和网络(f)两种方式影响深度图像恢复和增强方法,如图9所示。从数据的角度来看,一些先验,例如基于核信息的先验(3.5.2),基于生成模型的先验(4.4.2)可以利用低质量(合成)图像中的退化信息来提高pl。相比之下,与ph相关的先验,例如,基于统计强度特征的先验(3.3),是通过学习高质量图像的内在模式来构建的。从模型的角度来看,先验可以通过增加fφ来帮助DNN模型的收敛,指导其结构设计达到更好的性能,如时间先验(3.2),语义先验(3.6)。因此,探索先验在基于dl的图像深度恢复和增强方法中的应用是很有前景的。
5.1.2不同先验之间的关系
先验之间有广泛的联系,因为许多先验反映了图像的相似属性,一些先验可以是其他先验的更详细的表示,如表9所示。例如,暗通道先验[83]和亮通道先验[84]是图像通道统计先验的子集[84]。而极端通道先验[84]和梯度通道先验[78]是图像稀疏性在不同场景下的具体表现,如第3.3.1节所述。时间锐度先验[70]是时间先验的一种特殊形式,如第3.2节所述。因此,基于先验之间的联系来探索新的先验是很有前景的。例如,暗通道先验可以扩展为自适应正则化项来约束DNN模型,例如HDR成像和微光图像增强。
5.1.3先验对泛化能力的影响
用于图像恢复和增强的DNN模型训练是纯数据驱动的;因此,它倾向于从输入到输出寻找解空间的捷径,导致应用到另一个数据域时gen化能力有限[196]。一个典型的例子是,许多在模拟数据集上训练的基于dl的方法不能很好地推广到更复杂的现实场景[139]。先验可以更好地约束DNN模型,使其具有更强的泛化能力,因为先验有助于找到更有效的解空间,从而具有更好的泛化性能。例如,先验可以引导无监督域适应的DNNs模型将知识从模拟图像转移到真实图像[197],[198]。此外,将在不同先验生成的模拟数据集上训练的dnn的知识转移到现实图像中的模型学习可能是一个潜在的方向。
5.1.4先验结构与DNN结构的关系
先验性从三个方面影响深度图像恢复和增强任务中的网络结构设计。第一个与网络本身密切相关。例如,非局部注意[152]可能是更好地利用非局部自相似先验[151]的设计,因为它的结构可以很好地拟合该先验的性质。第二个与输出有关。一些先验约束了网络的输出,例如暗通道先验[199]。第三个与输入数据有关。例如,光流引导网络在处理输入[17]时使用滑动窗口或序列,[65]。相比之下,统计先验(sec3.3),例如暗通道和梯度引导,通常在训练过程中更像正则化项,这与网络是解耦的。我们认为利用特定先验的性质设计新的网络结构是必要的,也是有潜力的。
5.1.5超越图像恢复和增强
图像恢复和增强任务几乎是所有高级视觉任务的基础。因此,用于深度图像恢复和增强的先验可以被潜在地探索,以促进高水平任务的性能。例如,Liu等[138]使用先验去噪来提高深度语义分割模型的性能。此外,面部先验(sec4.2)不仅可以用于图像增强任务,还可以用于人脸检测、分割和识别[139]。最后但并非最不重要的是,语义先验,通常用于高级和低级视觉任务(第3.6节),可以与其他先验连接起来,以加强这两个任务的学习。未来的研究可以考虑为高级和图像恢复任务一起设计更有效的网络结构,因为之前这两个任务都是独立学习的。
5.1.6为什么有些先验没有被广泛应用于DNN?
首先,DNN本身可以自动学习图像的一些特征,例如去模糊时的模糊核。例如,Su等人[200]提出了一种端到端去模糊网络,该网络优于之前的框架[201],该框架集成了显式模糊核的先验。
二是一些先验,如非局部自相似先验(sec4.1),目前还没有得到很好的研究,因此显示出更积极的研究潜力。例如,最近的transformer框架在很多任务中都能得到比CNN框架更好的结果,比如分类[202],检测[203],因为transformer框架可以得到非本地的关注。
最后一个原因是这些先验更多地被用作正则化[89]或损失函数[79]。例如,暗通道先验被设计为深度去雾网络中的损失函数[87]。综上所述,我们认为这一方向有很大的研究空间,因为先验可以用于各种深度图像恢复和增强任务。
5.2新视角
由于大多数先验表明了图像的内在属性,它们可以潜在地扩展到其他任务。然而,我们的回顾发现先验在特定深度恢复和增强任务中的应用存在一些空白,如表9所示。
5.2.1基于核建模的先验发展方向
在第3.5节中,我们回顾和分析了基于核和噪声信息的深度图像SR和去模糊的先验。一些基于dl的图像恢复任务,包括去雾、脱雾和去雪,很少使用这些先验。然而,核估计是去雾、脱轨和降雪的关键步骤[204]。因此,一个潜在的方向是将估计的核转化为一种新型的先验,用于其他深度图像恢复和增强任务。
5.2.2非局部自相似先验发展方向
非局部相似度优先反映自然图像的显式模式,如第4.1节所述。然而,从表9可以看出,该算法仅用于典型的图像恢复和增强任务,如图像去模糊和sr。该算法利用图像中一些小补丁的再现,为图像恢复提供额外的细节[148]。这些详细的信息也有助于其他恢复和增强任务,包括HDR成像,图像去雾,图像去雾等。因此,有可能在更广泛的应用之前对其进行扩展。
5.2.3 人脸先验的发展方向
人脸先验的研究主要集中在人脸幻觉和人脸去模糊方面。然而,人脸先验中的普遍特征应该用于更多的任务。例如,Shen等人[132]利用面部先验中面部成分的几何和空间信息进行面部图像幻觉。这种几何和空间信息在人脸中很常见,这表明它可能用于支持人脸图像和低光图像增强的HDR。因此,利用面部先验进行HDR成像、弱光增强、脱轨等是一个潜在的方向,如表9所示。
5.2.4预训练模型发展方向
在第4.4.1节中,一些基于预训练生成器的GAN反演方法[187][188]可以通过搜索潜在空间中的潜在代码来生成高质量的图像。这表明在大规模数据集上预训练的GAN模型可以从高质量图像中学习到一些先验知识。因此,可以为其他图像恢复任务开发特定于任务的搜索策略。例如,对于图像去雾任务,搜索目标可以是干净场景的潜在代码,同时与降级图像保持相同的语义。除第4.4.2节外,一些文献[197]、[205]提出通过端到端联合嵌入退化图像合成和图像恢复任务来使用GAN管道。然而,这些图像合成方法受到任务特定训练数据集规模的限制。将GAN反演技术应用于图像合成可以提供一种利用从预训练GAN中学习到的图像分布的新视角。因此,通过生成更多看不见的图像来进一步增加数据多样性是一个有前途的方向。
5.2.5统计图像特征作为先验的潜在方向
图像的一些统计特征先验,如L0正则化[80]、梯度轮廓先验[206]和直方图均衡化[21],在传统的图像恢复和增强任务中被广泛应用。这些先验描述了高质量图像或低质量图像的一些特定性质,这在损失函数和正则化项方面是有用的。例如,梯度轮廓先验可以作为边缘信息输入到深度SR网络中,对HR图像的边缘进行锐化。此外,直方图均衡化先验也可以监督深度HDR网络以更高的动态范围预测图像。
5.2.6多传感器融合的先验
近年来,事件摄像机和红外摄像机为图像深度恢复和增强带来了新的灵感。与基于帧的相机相比,事件相机显示出许多优点,例如HDR和无动态模糊。红外摄像机也引起了广泛的关注,因为它们可以反射更宽的波长范围的光[207]。这些传感器提供了传统相机在极端条件下(如高速运动或黑夜场景)无法捕捉到的关键视觉信息。尽管已经努力利用事件数据作为指导,以提高深度图像恢复和增强的性能,如[208]所示。然而,如何利用这些新的相机数据作为先验,更好地指导DNN模型进行图像恢复和增强,仍然急需研究。此外,考虑将多传感器融合用于深度图像恢复和增强也很有趣。我们希望本文中分析的先验可以激发更多的研究,以发现可以应用于这些新型传感器数据的新先验。
6.总结
在本文中,我们对深度图像恢复和增强的最新进展进行了深入和系统的分析。我们对基于dl的方法中常用的先验进行了分层和结构分类。同时,我们对每种先验的原理、潜力和应用进行了深刻的讨论。此外,我们通过强调潜在的未来方向来总结关键问题,以激发社区的更多研究。