影像超分辨率:历史回顾和未来的挑战

原文标题:Image super-resolution: Historical overview and future challenges
原文网址:http://www.ifp.illinois.edu/~jyang29/papers/chap1.pdf
作者:Jianchao Yang (University of Illinois at Urbana-Champaign)
Thomas Huang (University of Illinois at Urbana-Champaign)

1.1 超分辨率的简介

在大多数数字成像应用中,通常需要高分辨率图像或视频用于以后的图像处理和分析。对高图像分辨率的渴望源于两个主要的应用领域:改进图像信息用于人类解释; 并帮助表示用于自动机器感知。图像分辨率描述图像中包含的细节,分辨率越高,图像细节越多。 数字图像的分辨率可以以许多不同的方式分类:像素分辨率,空间分辨率,光谱分辨率,时间分辨率和辐射分辨率。在本文中,我们主要对空间分辨率感兴趣。

空间分辨率:数字图像由称为像素的小图像元素组成。 空间分辨率是指图像中的像素密度,以每单位面积的像素值为单位。图1.1显示了确定成像系统空间分辨率的经典测试目标。

影像超分辨率:历史回顾和未来的挑战_第1张图片
图1.1 1951年美国空军的分辨率测试目标,一种用于确定成像传感器和成像系统空间分辨率的经典测试目标。

图像空间分辨率首先受成像传感器或成像采集装置的限制。现代图像传感器通常是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)有源像素传感器。这些传感器通常以二维阵列排列以捕获二维图像信号。传感器尺寸或等效的每单位面积的传感器元件的数量首要地决定了要捕获的图像的空间分辨率。传感器密度越高,成像系统的空间分辨率越高。由于低空间采样频率的混叠,具有不充足探测器的成像系统将产生具有块效应的低分辨率图像。为了增加成像系统的空间分辨率,一种直接的方法是通过减小传感器尺寸来增加传感器密度。然而,随着传感器尺寸减小,入射在每个传感器上的光量也减少,从而引起所谓的散粒噪声。而且,传感器的硬件成本随着传感器密度或相应的图像像素密度的增加而增加。因此,对传感器尺寸的硬件限制限制了可以捕获的图像的空间分辨率。

虽然图像传感器限制了图像的空间分辨率,但由于镜头模糊(与传感器点扩散函数(PSF)相关联),镜头像差效应,光圈衍射和运动导致的光学模糊,图像细节(高频带)也受到光学器件的限制。构造成像芯片和光学组件以捕获非常高分辨率的图像非常昂贵并且在大多数实际应用中不实用,例如广泛使用的监视相机和手机内置相机。除了成本之外,监控摄像机的分辨率也受到摄像机速度和硬件存储的限制。在诸如卫星图像的一些其他场景中,由于物理限制,难以使用高分辨率传感器。解决该问题的另一种方法是接受图像劣化并使用信号处理来对捕获的图像进行后处理,以便将计算成本与硬件成本进行权衡。这些技术具体称为超分辨率(SR)重建。

超分辨率(SR)是从若干观察到的低分辨率(LR)图像构建高分辨率(HR)图像的技术,从而增加高频分量并消除由低分辨率相机的成像过程引起的劣化。SR背后的基本思想是组合多个低分辨率帧中包含的非冗余信息以生成高分辨率图像。与SR密切相关的技术是单图像插值方法,其也可用于增加图像尺寸。然而,由于没有提供附加信息,单个图像插值的质量由于问题的不适定性而受到很大限制,并且丢失的频率分量无法恢复。但是,在SR设置中,可以使用多个低分辨率观测值进行重建,从而使问题得到更好的约束。包含在这些LR图像中的非冗余信息通常通过它们之间的子像素移位来引入。这些子像素移位可能由于成像系统和场景之间的不受控制的运动(例如,物体的运动)或由于受控的运动而发生,例如,卫星成像系统以预定的速度和路径绕地球运行。

每个低分辨率帧都是对真实场景的削弱的,别名的观察。只有在这些低分辨率帧1之间存在子像素运动时SR才是可能实现的,这样可以更好地调节不适定的上采样问题。图1.2显示了描述SR重建基本思想的简化图。

注释1:主流的SR技术依赖于运动,尽管有些工作使用散焦作为提示。

影像超分辨率:历史回顾和未来的挑战_第2张图片
图1.2 从多个低分辨率帧进行超分辨率重建的基本思想。子像素运动提供低分辨率帧之间的互补信息,使得SR重建成为可能。

在成像过程中,摄像机捕获若干LR帧,这些LR帧从HR场景下采样,子像素在彼此之间移位。 SR构造通过将LR观察对齐至子像素精度并将它们组合成HR图像网格(插值)来反转该过程,从而克服了相机的成像限制。SR(其中一些在本书中描述)出现在许多领域,例如:

1.监控视频[20,55]:用于人类感知的视频中的帧冻结和缩放感兴趣区域(ROI)(例如,查看视频中的车牌),自动目标识别的分辨率增强(例如,尝试识别犯罪分子的面部)。

2.遥感[29]:提供相同区域的若干图像,并且可以寻找改进的分辨率图像。

3.医学成像(CT,MRI,超声等)[59,70,47,60]:可以获得分辨率质量有限的几个图像,并且可以应用SR技术来增强分辨率。

4.视频标准转换,例如 从NTSC视频信号到HDTV信号。

本章的目的是介绍SR研究领域,解释SR的一些基本技术,文献概述,以及未来研究中一些具有挑战性的问题的讨论。

1.2 符号

在讨论SR技术之前,我们将介绍我们在本章中使用的符号。大写粗体字母XY分别表示HR和LR图像的字典顺序的矢量形式。小写粗体字母xy分别表示HR和LR图像块(image patches)的字典顺序的矢量形式。带下划线的大写粗体字母用于表示多个向量的向量级联,例如:Y_是Yk (k = 1, 2, ..., K)的向量级联。我们使用普通大写符号来表示矩阵,使用普通小写符号来表示标量。

1.3 用于超分辨率的技术

自从Tsai和Huang [99]于1984年的开创性工作以来,SR重建一直是最活跃的研究领域之一。在过去二十年中已经提出了许多技术[4,65],代表了从频域到空间域的方法,以及从信号处理角度到机器学习角度。早期关于超分辨率的研究主要遵循[99]的理论,通过探索傅里叶变换的移位和混叠特性。然而,这些频域方法在它们可以处理的图像观察模型中受到很大限制,并且实际问题要复杂得多。目前,研究人员通常主要在空间领域解决这个问题,因为它可以灵活地模拟各种图像质量下降。本节从图像观察模型开始讨论这些技术。

1.3.1 图像观察模型

由于硬件限制,获取具有各种劣化的图像,数字成像系统并不完美。例如,有限光圈大小导致光学模糊,由点扩散函数(PSF)建模。有限光圈时间导致运动模糊,这在视频中非常常见。有限的传感器尺寸导致传感器模糊; 通过在传感器区域上的积分而不是脉冲采样来生成图像像素。有限的传感器密度导致混叠效应,限制了所获得图像的空间分辨率。这些降级在不同的SR技术中完全或部分建模。

影像超分辨率:历史回顾和未来的挑战_第3张图片
图1.3 将高分辨率图像与低分辨率观察帧相关联的真实成像系统的观察模型,其中场景和相机之间存在运动。

图1.3显示了将HR图像与LR视频帧相关联的典型观察模型,如文献[65,82]中所介绍的。成像系统的输入是连续的自然场景,很好地近似为带限信号。在到达成像系统之前,这些信号可能被大气湍流污染。对奈奎斯特速率以上的连续信号进行采样会产生我们想要的高分辨率数字图像(a)。在我们的SR设置中,通常在相机和场景之间存在某种运动以进行捕捉。摄像机的输入是场景的多个帧,通过可能的局部或全局移位连接,得到图像(b)。通过相机,这些与运动相关的高分辨率帧将产生不同类型的模糊效果,例如光学模糊和运动模糊。然后,通过落入每个传感器区域的图像的积分,在图像传感器(例如CCD检测器)处将这些模糊图像(c)下采样为像素。这些下采样图像还受到传感器噪声和滤色噪声的影响。最后,由低分辨率成像系统捕获的帧是模糊,降低的和带有噪声版本的基础真实场景。

X表示期望的HR图像,即,从带限连续场景的奈奎斯特采样率以上采样的数字图像,并且Yk是来自相机的第k次LR观察。XY'ks以字典顺序表示。假设摄像机捕获X的K个LR帧,其中LR观察与HR场景X的关系是:

其中Fk编码第k帧的运动信息,Hk模拟模糊效果,Dk是下采样算子,Vk是噪声项。这些线性方程可以重新排列成一个大的线性系统:

影像超分辨率:历史回顾和未来的挑战_第4张图片

或是等价地:

涉及的矩阵DkHkFkM非常稀疏,这种线性系统通常是不适定(ill-posed)的。此外,在实际成像系统中,这些矩阵是未知的,需要从可用的LR观察进行估计,使问题更加恶劣。因此,对于高分辨率图像的适当的先验正则化始终是期望的并且通常甚至是至关重要的。接下来,我们将介绍文献中提出的一些基本的超分辨率技术,并概述最近的发展。

1.3.2 频域下的超分辨率

超分辨率的开创性工作追溯到Tsai和Huang [99],其文章中作者通过基于连续和离散傅里叶变换的移位和混叠特性的频域公式将高分辨率图像与多个移位的低分辨率图像相关联。设 x(t1, t2) 表示连续的高分辨率场景。全局平移产生K个移位图像, x(t1, t2) = x(t1+△k1, t2+△k2) ,其中k = 1,2, ..., K,△k1和△k2是任意但已知的移位。场景的连续傅里叶变换(CFT)由χ(u1, u2)给出,而被翻译的场景由χk(u1, u2)给出。然后通过CFT的移位特性,可以将移位图像的CFT写为:

使用采样周期T1T2对移位的图像进行脉冲采样,以产生观察到的低分辨率图像yk [n1, n2] = xk (n1T1 + △k1, n2T2 + △k2),其中n1 = 0,1,2, ..., N1-1 和 n2 = 0,1,2, ..., N2-1。用Yk [r1, r2]表示这些低分辨率图像的离散傅里叶变换(DFT)。移位图像的CFT通过混叠属性与其DFT相关:

假设χ(u1, u2)是带限的,| χ(u1, u2) | = 0 对于| u1 | ≥ (N1π) / T1, | u2 | ≥ (N2π) / T2,结合方程1.4和方程1.5我们将Yk [r1, r2]的DFT系数与矩阵形式的x(t1, t2)的未知CFT样本相关联2:

注释2:严格地说,下标{r1, r2}应该用在下面的等式中。我们为了整洁的演示文稿省略了那些。

其中Y_是K×1列向量,其中第k个元素是DFT系数Yk [r1, r2],X_是包含未知CFT系数x(t1, t2)的N1N2×1列向量,Φ是一个将Y_X_关联在一起的K×N1N2矩阵。公式1.6定义了一组线性方程,我们打算从中求解X_,然后使用逆DFT来获得重建图像。

上述用于SR重建的公式假定了一个无噪声以及参数已知的全局平移模型。假设下采样过程是脉冲采样,没有建模传感器模糊效果。沿着这一系列工作,已经提出了许多扩展来处理更复杂的观察模型。Kim等人[49]通过考虑观察噪声和空间模糊来扩展[99]。他们后来在[5]中的工作通过引入Tikohonov正则化[95]进一步扩展了工作。在[89]中,通过将图像划分为重叠块并且分别估计每个局部块的运动来考虑局部运动模型。在[98]中,使用EM算法(最大期望算法)同时完成恢复和运动估计。然而,这些工作的频域SR理论并没有超出最初提出的范围。这些方法在计算上是有效的,但是它们处理更复杂的图像劣化模型的能力受到限制,并且包括各种图像先验作为适当的正则化。后来关于超分辨率重建的工作几乎完全在空间领域。

1.3.3 插值重建:非迭代方法

多年来已经提出了许多空间域方法[4,82,65,2]来克服频域方法的困难。由于HR图像和LR帧在稀疏线性系统1.3中相关,类似于传统的单图像恢复问题[26],许多灵活的估计器可以应用于SR重建。这些包括最大似然(ML),最大后验(MAP)[84,35]和投影到凸集(POCS)[88]。在本节中,我们从空间域中SR重建的最简单和非迭代正演模型开始,类似于频域方法。

假设Hk是线性空间不变量(LSI)并且对于所有K帧是相同的,我们将其表示为H。假设Fk仅考虑简单的运动模型,例如平移和旋转,那么HFk修改了(这里翻译不是很确定 原文使用commute一词)[27,30],我们得到

这促进了基于插值和恢复的前向非迭代方法。这种方法分为三个阶段:1)低分辨率图像配准; 2)非均匀插值得到Z和 3)去模糊和噪声去除得到X。图1.4显示了这种方法的过程。首先通过一些图像配准算法[77]将低分辨率帧对准至子像素精度。然后将这些对齐的低分辨率帧放在高分辨率图像网格上,其中非均匀插值方法用于填充HR图像网格上的那些缺失像素以获得Z。最后,Z被任何经典去卷积算法去除噪声实现X。Keren等[48]提出了一种基于全局平移和旋转模型的SR重建的早期两步方法。Gross等人 [101]利用Yen [109]和后来的Papulis [64]的广义多通道采样定理,提出了一组空间位移的低分辨率图像的非均匀插值,然后进行去模糊。Nguyen和Milanfar [62]通过利用低分辨率数据中的交错采样结构,提出了一种有效的基于小波的插值SR重建算法。Alam [1]提出了一种基于加权最近邻的有效插值方案,然后使用Wiener滤波来去模糊。着眼于SR重建的特殊情况,其中观测由纯平移、空间不变模糊和加性高斯噪声组成,Elad和HelOr [27]提出了一种计算效率非常高的算法。[52]提出了一种基于三角测量的方法,用于内插不规则采样数据。然而,三角测量方法对于实际应用中通常存在的噪声不稳健。基于归一化卷积[50],Pham等 [71]为多项式小平面模型提出了鲁棒的确定性和结构自适应适用性函数,并将其应用于不规则采样数据的融合。最近,武田等 [91]提出了一种自适应转向核回归,用于在高分辨率图像网格上进行插值,其中低分辨率图像被记录和映射到这个网格上。

影像超分辨率:历史回顾和未来的挑战_第5张图片
图1.4 基于对齐和去模糊后处理的插值SR方法。

这些插值恢复前向方法直观、简单且计算效率高[30],[18],假设观察模型简单。然而,逐步前进的方法不能保证估计的最优性。配准错误很容易传播到后面的处理中。而且,在没有考虑噪声和模糊效果时,插值步骤是次优的。此外,在没有HR图像先验作为适当的正则化,基于插值的方法需要对有限观察进行特殊处理以减少混叠。

1.3.4 统计方法

与插值-恢复方法不同,统计方法将SR重建步骤随机地与最优重建相关联。低分辨率输入中的HR图像和运动可以被视为随机变量。设M(ν, h)表示由运动矢量ν和模糊核h定义的退化矩阵,SR重建可以转换为完整的贝叶斯框架:

影像超分辨率:历史回顾和未来的挑战_第6张图片

注意,XM(ν, h)在统计上是独立的[35]。这里Pr(Y_|X, M(ν, h))是数据似然,Pr(X)是期望的高分辨率图像上的先验项,Pr(M(ν, h))是运动估计的先验项。公式1.3中的V_通常代表加性噪声,假设为零均值和白高斯随机向量。因此,

Pr(X)通常使用指数形式的吉布斯分布来定义

其中A(X)是非负势函数,Z只是归一化因子。由于对运动估计的积分,方程式1.8中的贝叶斯公式很复杂且难以评估。如果M(ν, h)预先给出或者被估计(表示为M),则等式1.8可以简化为

1.3.4.1 最大似然

如果我们给X假设一个单值先验,则等式1.11简化为最简单的最大似然(ML)估计(假设运动估计为先验)。ML估计器仅依赖于观测值,通过最大化p(Y_|X)寻找最可能的观察的,给出

将方程1.12对X进行微分并将导数设置为零给出了经典的伪逆结果

如果MTM是奇异的,那么问题是不适定的,并且由于M的零空间,存在无限多种可能的解。由于纯粹的代数观点,这自然导致了正则化项,这是唯一的解决方案,尽管可以在MAP框架中解释。对于计算,由于高维度问题,矩阵的直接逆作为MTM在实践中通常是禁止的。例如,如果低分辨率图像的尺寸为100×100并且要被放大到300×300的单个高分辨率帧X,则M的尺寸为90000×90000,需要反转尺寸为90000×90000的矩阵。因此,文献[111]中提出了许多用于解决这一大型稀疏线性方程组的实用方法的迭代方法。

Irani和Peleg提出了一种简单但非常流行的方法,基于计算机辅助断层扫描的误差反投影方案,在[39,40,41]中。该算法通过添加与反投影函数(BPF)卷积的扭曲模拟误差来迭代地更新当前估计:

其中c是常数,hbpf是反投影内核,S↑是上采样算子,Yk^是来自当前HR估计的模拟第k个LR帧。在[41]中,作者通过结合多运动跟踪算法来处理部分遮挡的对象,透明对象和一些感兴趣的对象,将这个想法应用于实际应用。反投影算法在处理具有不同退化过程的许多观察时是简单且灵活的。然而,反投影的解决方案并不是唯一的,这取决于初始化和反投影内核的选择。如[26]和[10]所示,反投影算法正是ML估计器。BPF的选择暗示了关于观察到的低分辨率像素的噪声协方差的一些潜在假设[10]。Tom等人将运动估计M(ν)估计为未知,在[98]提出了一种ML SR图像估计算法,用于同时估计子像素移位、图像噪声和HR图像。所提出的ML估计由期望最大化(EM)算法处理。

如在图像去噪和单图像扩展情况中那样,在SR中观察数量受限的没有正则化的直接ML估计器可能严重不适,特别是当变焦因子很大(例如,大于2)时。ML估计器通常对噪声,配准估计误差和PSF估计误差非常敏感[10],因此总是需要对可行解空间进行适当的正则化。这导致了基于MAP的主流SR重建方法。

1.3.4.2 最大后验

SR重建中的许多工作[46,84,15]遵循方程1.11中的MAP方法,其中技术随着不同的观察模型假设和用于期望解先验项Pr(X)而变化。在文献中已经提出了用于自然图像的不同种类的先验,但它们都没有突出作为主角。在下文中,我们列出了SR重建技术的三种常用图像先验。

  1. Gaussian MRF. 高斯马尔可夫随机场(GMRF)[37,33]采用以下形式

其中Q是对称正矩阵,通过其非对角线元素捕获图像中相邻像素之间的空间关系。Q通常被定义为ΓTΓ,其中Γ在图像X上充当一些一阶或二阶导数算子。在这种情况下,先验的对数似然性是

被大家熟知为Tikhonov正则化[95,26,63],这是对不适定问题进行正则化的最常用方法。Γ通常称为Tikhonov矩阵。哈迪等人[35]提出了一种联合MAP框架,用于利用HR图像的高斯MRF先验同时估计高分辨率图像和运动参数。Bishop等人[96]提出了一种简单的高斯过程先验,其中协方差矩阵Q由图像像素的空间相关构成。高斯过程先验的良好分析性质允许对SR重建问题进行贝叶斯处理,其中未知高分辨率图像被整合出来用于观察模型参数(未知PSF和配准参数)的稳健估计。尽管GMRF先验具有许多分析优势,但与超分辨率重建相关的常见批评是结果往往过于平滑,惩罚了我们希望恢复的尖锐边缘。

  1. Huber MRF. 通过使用比高斯尾部更重的分布对图像梯度建模,GMRF的问题可以得到改善,这导致流行的Huber MRF(HMRF),其中Gibbs势由Huber函数确定,

其中a是图像的一阶导数。这样的先验可以促进分段平滑,并且可以很好地保留边缘。Schultz和Stevenson [83]将这个Huber MRF应用于单张影像扩展问题,后来应用于[84]中的SR重建问题。许多后来关于超分辨率的工作使用Huber MRF作为正则化先验,例如[11,12,15,13,73,74]和[3]。

  1. Total Variation. 作为梯度罚函数的总变差(TV)范数在图像去噪和去模糊文献中非常流行[81,54,16]。TV标准惩罚图像中的总变化量,如通过梯度大小的l1范数所测量的

其中∇是梯度算子,可以由拉普拉斯算子[81]近似。TV标准中的l1范数有利于稀疏梯度,保留陡峭的局部梯度,同时鼓励局部平滑[13]。Farsiu等人[30]概括了TV的符号,并提出了所谓的双边TV(BTV),以实现稳健的正规化。

为了更好地比较这些通用图像先验对超分辨率的解的影响,可以进一步参考[10]和[25]。

1.3.4.3 联合MAP恢复(Joint MAP restoration)

多帧SR重建可以分为两个子问题:LR配准和HR估计。许多先前的算法将这两个过程视为两个不同的过程:首先进行配准然后通过MAP进行估计,这是次优的,因为配准和估计是相互依赖的。如果允许它们之间的相互作用,则运动估计和HR估计可以彼此受益。 在联合MAP恢复中,等式1.11扩展到包括运动和PSF估计作为对于推理的未知数:

影像超分辨率:历史回顾和未来的挑战_第7张图片

Tom等人 [98]将SR问题分为三个子问题,即配准、恢复和插值。他们不是独立地解决它们,而是通过使用期望最大化(EM)最大化可能性来同时估计配准和恢复。后来他们在框架中插入了插值,并在[97]中估算了使用EM的所有未知数。 [35]应用MAP框架同时估计高分辨率图像和平移运动参数(PSF作为已知的先验)。使用循环坐标下降优化过程估计高分辨率图像和运动参数。该算法收敛缓慢但很大程度上改善了估计。Segall等人[86,85]提出了一种联合估计应用于压缩视频的密集运动矢量和HR图像的方法。Woods等人 [105]将噪声方差,正则化和配准参数都视为未知数,并根据可用的观测值在贝叶斯框架中联合估计它们。 Chung等人[19]提出了一个联合优化框架,并显示出优于坐标下降法的性能[46]。他们处理的运动模型是仿射变换。为了处理SR设置中更复杂的多个移动物体问题,Shen等人 [87]通过将运动估计、分割和SR重建结合在一起的MAP公式解决了这个问题。优化是在类似于[46]的循环坐标下降过程中完成的。

1.3.4.4 贝叶斯处理(Bayesian Treatments)

由于有限的低分辨率观察,SR重建问题本质上是不适定的。运动参数,PSF和HR图像的联合MAP估计可能面临过度拟合的问题[96]。虽然通常难以对运动和模糊进行建模,但在许多情况下,由少数参数跨越的简单模型足以用于SR应用。然而,给定了低分辨率观察,通过在未知高分辨率图像上积分来估计这些参数是有用的方法。 Bishop [96]为SR提出了这种贝叶斯方法,其中未知的高分辨率图像被整合出来,边缘用于估计PSF和运动参数。为了使问题在分析上易于处理,使用高斯过程先验(GMRF)来模拟高分辨率图像。即使将不利的GMRF用于高分辨率图像,仍然可以非常准确地估计PSF和运动参数。然后,估计的参数是固定的,并且执行HR图像的MAP估计。在[53]中讨论了类似于盲解卷积的深入分析。这种贝叶斯方法优于1.3.4.3中的联合MAP方法,该方法很容易过度拟合PSF参数。然而,高分辨率图像上的积分在计算上很繁重,并且图像上的高斯先验导致最终重建走向过度平滑。Pickup等人并没有对未知的高分辨率图像进行边缘化,而是在他们最近的作品[73,74,72]中提出要整合未知的PSF和运动参数,如公式1.8所示,其动机是克服注册参数的不确定性[79]。预先估计配准参数,然后将其作为高斯变量处理,其中预估值作为模拟其不确定性的手段。在对观测模型参数进行积分之后,可以将HR图像估计与用于MAP估计的任何有利图像组合。如[73,74,72]中所报道的,与[96]相比,这种方法可以获得更清晰的结果。

通过边缘化未知物进行的这种贝叶斯处理证明了SR恢复的有希望的能力。然而,为了使积分易于处理,图像先验或配准参数必须采用简单的参数形式,限制这些模型处理可能在真实视频中发生的更复杂的情况。在实际应用中,计算也可能是这种算法的关注点。

1.3.5 基于实例的方法(Example-based approach)

先前的超分辨率方法依赖于聚合包含互补空间信息的多个帧。通常部署通用图像先验以正确地正则化解。当提供的测量数量不足时,正则化变得尤其重要,因为在极端情况下,仅观察到一个单独的低分辨率帧。在这种情况下,通用图像先验不足以作为SR的有效正则化[2]。最近出现的用于使不适定的超分辨率重建正则化的方法是使用示例,以打破由不充分的测量引起的超分辨率限制。 与先前处于以整个图像正则化的参数形式的先前方法不同,基于示例的方法通过从其他图像采样来开发先验,类似于[24],[38]以局部方式。

一系列基于实例的方法是直接使用这些实例,代表性工作是Freeman等人提出的[31]。这些方法通常通过维持两组training patches来工作,{xi}ni=1从高分辨率图像采样,并且{yi}ni=1相应地从低分辨率图像采样。每个patch对(xi, yi)通过观察模型yi = DHxi + v连接。然后将该高分辨率和低分辨率共生模型应用于目标图像,以基于patch的方式预测高分辨率图像,使用马尔可夫随机场(MRF)模型,如图1.5所示。观察模型参数必须已知为先验,并且训练集与目标图像紧密耦合。还应正确选择patch大小。如果patch尺寸非常小,则共生先验太弱而不能使预测有意义。另一方面,如果patch尺寸太大,则可能需要大量训练集来为当前观察找到接近的patch。

影像超分辨率:历史回顾和未来的挑战_第8张图片
图1.5 用于单帧超分辨率的MRF模型

使用这种耦合训练集进行超分辨率的一种单纯的方法是,对于低分辨率图像中的每个低分辨率patch,在{yi}ni=1中找到它的最近邻居y~,然后将相应的从{xi}ni=1得到的x~放置到高分辨率图像网格。不幸的是,由于噪声和超分辨率的不适定性,这种简单的方法会产生令人不安的伪像[25]。放宽最近邻搜索到k-最近邻居可以确保包括我们期望的接近patch。Freeman等人 [31]提出了一种基于上述MRF模型的置信传播[108]算法,以选择由k个最近邻居找到的最佳高分辨率补丁,其与临近patch具有最佳兼容性。Sun等人[90]使用sketch prior仅来增强图像中的边缘扩展了这个想法,旨在加速算法。然后将IBP [39]算法用作后处理步骤以确保整个图像上的数据一致性。Wang等人[103]进一步遵循这一工作,并提出了一个可以处理未知PSF的统计模型。

上述方法直接基于图像patch,需要大型训练集以包括测试中可能遇到的任何模式(pattern)。Chang等人[17] 提出了另一种基于邻居嵌入的简单但有效的方法[93],假设由低分辨率和高分辨率图像patch形成的两个流形之间的对应关系。对于来自测试图像(上标“t”区分测试patch和训练patch)的每个低分辨率图像patch ytk,算法从{yi}ni=1找到其k个最近邻居Nt,并通过邻居嵌入计算重建权重

影像超分辨率:历史回顾和未来的挑战_第9张图片

然后应用重建权重以生成相应的高分辨率patch。

影像超分辨率:历史回顾和未来的挑战_第10张图片
为了处理相邻patch之间的兼容性问题,在重叠区域中执行简单平均。即使使用比[108]更小的patch数据库,该算法也能很好地工作。但是,为每个低分辨率patch修复k可能会导致过度拟合或欠拟合。 Yang等人[107]提出了另一种基于patch的单帧超分辨率方法。该方法源于压缩传感理论,该理论确保高分辨率信号之间的线性关系可以从其低维投影中精确恢复[9], [22]。该算法将训练集建模为两个字典: D h = [ x 1, x 2, ..., x n]和 D l = [ y 1, y 2, ..., y n]。给定测试低分辨率图像patch y t k,该方法基本上通过l1最小化来寻求支持[23]

这可以用拉格朗日乘数重写为统计文献中称为Lasso的无约束优化问题[94]。通过xtk = Dhw^恢复相应的高分辨率patch。与具有固定k个邻居的邻居嵌入方法相比,Yang的方法自适应地选择最少的必要重建支持,避免过度拟合。此外,与前面提到的基于patch的方法相比,l1最小化方法对噪声更稳健。在后来的版本[42]中,通过学习耦合字典而不是使用原始patch来进一步扩展该方法,从而使算法更有效。

使用直接示例的前述方法的一个批评是对局部patch的操作不能保证估计的全局最优性。另一种基于示例的方法寻求在从示例采样的图像空间上利用局部先验执行MAP估计。Baker和Kanade [2]的开创性工作制定了明确的正则化,要求未知图像的空间导数与找到的例子的空间导数相近。这些示例由金字塔衍生的特征组(a pyramid derivative set of features)形成,而不是直接由原始数据生成。类似的方法应用于[75]中的文本超分辨率。Datsenko和Elad [21]提出了一种全局MAP估计,其中基于实例的正则化由二进制加权平均而不是最近邻居给出,绕过由于噪声引起的异常值。这项工作在[21]中进一步扩展和阐述,其中放宽了二进制加权方案。基于实例的方法的另一个值得注意的方法是Protter等人[78],从非局部均值去噪算法[8]推广。算法不是从其他训练图像中采样,而是探索图像(或序列)中的自相似性,并从目标图像(或序列)本身中提取示例块。Glasner等人最近的一项工作通过结合基于子像素位移的经典算法和基于从目标图像提取的patch对的基于实例的方法,进一步探索了SR图像中的自相似性。

在处理狭窄的图像族(例如文本和面部图像)时,使用示例可以更加有效。由于其在监视场景中的重要性,近年来出现了一组针对面部超分辨率的算法。在Baker和Kanade的早期工作之后,面部超分辨率通常被称为面部幻觉(face hallucination)[2]。Capel等人[14]提出了一种算法,其中PCA [45]子空间模型用于学习面部的部分。Liu等人[58],[57]提出了一种两步法来实现面部的超分辨率,其中第一步使用特征脸(eigenface)[100]生成中等分辨率面部,然后是非参数基于patch的方法[31]在第二步。这种基于特征脸的方法已经在后来的几个作品[32],[104]中进行了探索。Yang等人[106]提出了类似的两步法。[106]不使用整体PCA子空间,而是使用局部非负矩阵分解(NMF)[51]来模拟人脸,第二步中基于patch的模型从[107]中采用。Jia和Gong [43],[44]提出了张量方法来处理更多的面部变化,例如照明和表情。尽管这些面部幻觉算法的效果令人惊讶,但它们仅适用于正面,并且只有少数作品专门用于评估面部幻觉以进行识别[32],[36]。

当观测资料不足时,基于实例的正则化在我们的SR问题中是有效的。关于这种方法,我们仍然需要回答一些问题。首先,如何在给定目标图像的情况下选择最佳补丁大小。也许需要多分辨率处理。第二,如何选择数据库。不同的图像具有不同的统计,因此需要不同的数据库。用于对当前目标图像进行字典适应的有效方法可以提出一种出路。第三,如何更有效地使用基于示例的先验。计算问题可能是实际应用的难点。建议读者参考[25],对逆问题的基于实例的正则化进行更详细的分析。

1.3.6 集合理论重建(Set theoretic restoration)

除了如上所述从随机视图导出的优化方法之外,另一种方法流是通过众所周知的凸集投影(POCS)[110]。POCS方法通过将包含期望图像的多个约束凸集合作为集合内的点来处理SR问题。定义这样的凸集是灵活的,并且可以包含不同种类的约束或先验,甚至非线性和非参数约束。作为一个例子,我们在POCS方法中介绍了几种常用的凸集。数据一致性或重建约束可以建模为K凸集:

平滑约束可以定义为

其中p = 1, 2, ∞表示不同的范数。振幅约束也可以建模:

对于一组M个凸集,期望的解决方案在于这些集合的交集X∈Cs = ∩i = 1M Ci。POCS技术建议使用以下递归算法在给定初始猜测的情况下在交集中找到一个点:

其中X0是初始猜测,Pi是投射算子,它将点投射到闭合的凸集Ci上。

Stark等人提出了用于SR重建的早期POCS技术[88]。在[68], [67], [69]中提出扩展来处理空间变化的PSF,运动模糊,传感器模糊和混叠采样效应。许多超分辨率工作仅考虑非零光圈尺寸(镜头模糊,PSF),而不是有限光圈时间(运动模糊),这在真实的低分辨率视频中非常常见。[69]是基于POCS技术考虑视频SR重建中运动模糊的早期工作。由于由有限光圈时间引起的运动模糊通常将是空间变化,也可能是时变的,因此不能将其从SR恢复问题中分解出来并且作为单独的后处理步骤来执行。POCS技术可以方便地处理这些问题。延伸这种方法,Eren等人[28]提出了一种基于POCS的方法,用于稳健的基于对象的SR重建。所提出的方法采用有效性映射来基于具有不准确的运动估计的观察来禁用投影,以及用于基于对象的处理的分割图。 Elad等人[26]分析并比较了ML,MAP和POCS方法的超分辨率,并提出了一种混合方法。Patti [66]扩展了他们在图像观察模型中的早期工作,以允许高阶插值和修改的约束集来减少边缘振铃伪像。

POCS技术的优点在于其简单性可以包含任何类型的约束和先验,这些约束和先验可能对于那些随机方法而言是不可能的。然而,POCS因其繁重的计算和缓慢的收敛而臭名昭着。根据最初的猜测,解决方案并不是唯一的。POCS方法还假设运动参数和系统模糊。它们不能像随机方法同时估计那些配准参数和高分辨率图像。结合随机视图和POCS哲学的混合方法提出了一种有前景的方法。

1.4 超分辨率的挑战问题

在前面的章节中,我们讨论了SR重建的几种基本技术。尽管自引入SR概念以来已经提出了许多不同的方法,但大多数方法在小数据(toy data)上而不是在实际问题中工作得很好。在构建实用的SR系统时,仍然存在许多挑战问题,这些问题阻碍了SR技术的广泛应用。在下文中,我们列出了一些我们认为对SR技术的未来发展和应用很重要的挑战问题。

1.4.1 图像配准

图像配准对于多帧SR重建的成功至关重要,其中融合了HR图像的互补空间采样。图像配准是一个众所周知的不适定的基本图像处理问题。在SR设置中问题更加困难,其中观察是具有大的混叠伪像的低分辨率图像。随着观察的分辨率下降,标准图像配准算法的性能降低,导致更多的配准误差。由这些配准误差引起的伪像在视觉上比由单个图像的插值产生的模糊效果更令人讨厌。传统的SR重建通常将图像配准视为与HR图像估计不同的过程。因此,恢复的HR图像质量在很大程度上取决于前一步骤的图像配准精度。在文献[7,114]中已经提出了许多源自不同原理的图像配准技术。但是,罗宾逊等人[79]表明,即使对于最简单的全局平移,配准表现也是有限的。

LR图像配准和HR图像估计实际上是相互依赖的[80]。一方面,准确的子像素运动估计有益于HR图像估计。另一方面,高质量的HR图像可以促进精确的运动估计。因此,针对SR重建问题,LR图像配准可以与HR图像重建一起被处理,从而得到用于同时估计的联合ML [97]或​​MAP [35,87,76]框架。这些联合估计算法捕获LR图像配准和HR图像估计之间的依赖性,并且观察到性能改进。然而,在观察有限的情况下,对配准参数和HR图像的联合估计可能导致过度拟合。为了克服这种过度拟合问题,Tipping和Bishop [96]采用贝叶斯方法通过边缘化未知高分辨率图像来估计配准和模糊参数。该算法对于配准和模糊参数都显示出值得注意的估计精度,但是计算成本非常高。Pickup等人 [73,74,72]反而通过边缘化未知的配准参数以另一种方式应用贝叶斯方法,以解决图像配准固有的不确定性[79]。

将HR图像估计与图像配准相关联的随机方法确实展示了有希望的结果,然而这种参数方法在它们可以有效处理的运动模型中受到限制。通常,假设一些简单的全局运动模型。真实视频是复杂的,包括任意局部运动,其中运动模型的参数化可能是难以处理的。光流运动估计可以应用于这种情况。然而,局部运动估计的测量不足使得这些算法容易出错,这可能导致SR重建的灾难[112]。另一种有希望的SR重建方法是非参数方法,它试图绕过显式运动估计。Protter等[78]将非局部均值去噪算法扩展到SR重建,其中使用了基于块匹配的模糊运动估计。后来他们在[77]中提出了概率运动模型,这是一个类比[72]的非参数模型。 [78]和[77]都可以处理真实视频中的复杂运动模式。与基于光流运动估计的经典SR方法相比,Protter的方法通过在多个可能的候选者上的加权策略减少由未对准引起的误差。Takeda等人[92],另一方面,将早期工作[91]中提出的3-D转向核应用于视频,这也避免了显式运动估计,用于去噪和SR重建。3-D转向核捕获空间和时间结构,编码隐式运动信息,因此可以应用于具有复杂运动活动的视频的空间和时间SR。虽然没有显式运动估计的方法确实产生了对于SR技术的实际适用性的有希望的结果,但是进一步的改进可以包括计算效率,将自适应插值或回归与去模糊相结合,并且将观察模型泛化至视频中的3-D运动,例如,面外旋转。

1.4.4 计算效率

限制SR重建的实际应用的另一个难点是由于大量未知数而导致的密集计算,这需要昂贵的矩阵操作。实际应用总是要求SR重建的效率以具有实用性,例如,在监视视频场景中,人们期望SR重建是实时的。对于具有用户参与调整参数的SR系统,效率也是期望的。许多针对效率的SR算法属于先前讨论的插值恢复方法,例如[27], [1], [61]和[34]。在[34]中,Hardie展示了他的算法优于[1]和[61]中提出的先前有效算法的计算优势,并声称该算法可以与全局平移模型实时应用。然而,当非平移模型发生时,计算显着增加,这可以通过大规模并行计算来改善。其他人试图检查特定的建模方案以加速优化问题。Zomet [115]和Farsiu [30]直接研究了Dk,Hk和Fk的应用,作为下采样、模糊和移位的相应图像操作,绕过了明确构造矩阵的需要,带来了显着的加速。[6]结合了[27]和[30]的略微修改版本,并使用FPGA实现了实时SR系统,这是对SR实际使用的一种很好的尝试。

然而,这种算法需要精确的图像配准,这首先是计算密集型的。而且,这些算法到目前为止只能有效地处理简单的运动模型,远非真实复杂视频场景中的应用。对于具有任意运动的视频,[92]提出了寻求有效算法的有希望的方向。看到并行计算(例如GPU)和硬件实现如何影响SR技术的未来应用也是有趣的。

1.4.3 稳健性方面

由于运动误差、不准确的模糊模型、噪声、运动物体、运动模糊等,传统的SR技术容易受到异常值的影响。这些不准确的模型误差不能像高斯噪声一样被视为具有l2重建残差的通常假设。SR的稳健性是令人感兴趣的,因为不能完美地估计图像劣化模型参数,并且对异常值的敏感性可能导致视觉上令人不安的伪像,这在许多应用中是不可容忍的,例如视频标准转换。但是,没有足够的工作专注于这样一个重要方面。 Chiang和Boulte[18]使用中值估计来组合上采样图像以应对来自非平稳噪声的异常值。Zomet等人[116]以不同的方式抛出问题,其中使用稳健的基于中值的梯度进行优化以绕过异常值的影响。Farsiu等人[30], [82]将常用的“l2范数”改为“l1范数,用于类似于[18]的鲁棒估计和稳健正则化。[113]引入了同时具有Huber范数的超分辨率作为鲁棒正则化的先验。Pham等人[71]通过在双边滤波中使用相同的基于光度的加权方案,为每个相邻样本提出了用于内插未知数据的鲁棒确定性。在概率运动模型[77]中也使用类似的不确定性方案来处理基于块匹配的光流运动估计误差。这些算法中的许多都显示出对小数据假定的异常值的改进,其中需要更多的实验评估来确定稳健性努力可以使真实SR性能受益多少。

1.4.4 性能限制

SR重建自引入以来已成为一个热门的研究课题,成千上万的SR论文已经发展成为出版物。然而,没有太多的工作致力于基本理解这些SR重建算法的性能极限。这种性能限制的理解很重要。例如,它将阐明SR摄像机的设计,有助于分析模型误差、缩放因子和帧数等因素。通常,对所有SR技术的性能限制进行雄心勃勃的分析可能是难以处理的。首先,SR重建是一项复杂的任务,由许多相互依赖的组成部分组成。其次,对于SR任务,特别是对于基于实例的方法,仍然不知道什么是最具信息性的先验。最后,性能评估仍然需要一个很好的衡量而不是简单的MSE。已经认识到,具有较高MSE的估计不一定在视觉上更具吸引力。例如,与通过一些基于实例的方法恢复的那些相比,双三次插值通常实现更小的MSE [107]。

在过去的几年中,已经提出了几种尝试理解性能的作品。[2]分析了SR线性系统的数值条件,并得出结论,随着变焦因子的增加,一般图像先验对SR的帮助越来越少。[56]基于矩阵扰动导出了性能限制,但假设图像配准作为先验。使用简单的平移模型,Robinson和Milanfar在[79]中使用Cram'er-Rao(CR)界限来分析配准性能限制。他们在[80]中扩展了这项工作,通过运动估计、抽取因子、帧数和先验信息等因素对SR性能进行了全面分析。该分析基于MSE标准,并且再次假设运动模型是简单的全局变换。Eekeren等[102]评估了几种实际数据的SR算法,根据经验探索了几个影响因素。虽然这些关于理解性能限制的努力对于SR来说远远不够,但它们确实提出了让人们遵循的方法。

虽然很难为不同的SR技术得出一致的结论,但在性能评估方面,需要一些基准和现实的数据集来进行公平比较和算法理解。未来的研究应该进行更多的理论分析和绩效评估,以指导SR技术的发展。

你可能感兴趣的:(影像超分辨率:历史回顾和未来的挑战)