Abstract
对于给定的图像,我们希望生成具有更大像素和更高图像质量的更大尺寸的图像。这通常称为单图像超分辨率(SISR)问题。
这个想法是,有了足够的训练数据(相应的低分辨率和高分辨率图像对),我们可以学习一组过滤器(即映射),当将其应用于不在训练集中的给定图像时,会产生更高分辨率的版本,其中学习最好是低复杂度的。在我们提出的方法中,运行时间比目前可用的最佳竞争方法快一到两个数量级,同时产生与最新技术相当或更好的结果。
密切相关的主题是图像锐化和对比度增强,即,通过放大基本细节(宽范围的频率)来提高模糊图像的视觉质量。我们的方法还包括一种极其有效的方法,可产生比输入模糊图像清晰得多的图像,而不会引入诸如光晕和噪声放大之类的伪影。
I. INTRIDUCTION
单图像超分辨率(SISR)是估算低分辨率(LR)输入图像的高分辨率(HR)版本的过程。这是一个经过充分研究的问题,在许多应用程序中都会出现,例如静态图像和文本图像的放大,LR图像/视频到高清屏幕的转换等等。SISR问题的线性退化模型是由
其中z是输入图像,是未知的HR图像,两者均按字典顺序保存。线性算子对图像x进行模糊处理,然后在每个轴上以s的倍数进行抽取,这是乘以的结果。在SR任务中,目标是从已知度量z中恢复未知的基础图像x。注意,在现实世界中,降级模型可以是非线性的(例如由于压缩)或是未知的,并且还可以包括噪声。
放大单个图像的基本方法是线性插值器,包括最近邻,双线性和双三次[1],[2]。这些方法由于其简单性和低复杂度而被广泛使用,因为插值内核(放大滤波器)不适应图像的内容。但是,自然地,这些线性方法在重建复杂结构方面受到限制,通常会导致明显的混叠伪影和过度平滑的区域。在过去的十年中,开发了功能强大的图像先验,例如,自相似[3] – [6],稀疏[7] – [12]和高斯混合[13],从而导致高品质的恢复,但代价却是增加复杂。
在本文中,我们集中于基于示例的方法[8],[9],[11],[14] – [18],这些方法近年来引起了很多关注。 这些方法背后的核心思想是利用图像的外部数据库并学习从LR补丁到其HR对应的映射。在学习阶段,会合成LR-HR对图像斑块,例如,对于2倍放大,HR斑块的典型大小是6×6,合成缩小的LR斑块中的一个是3×3。然后,使用各种本地图像先验知识学习期望的映射并对其进行规范化。
稀疏模型就是这样的先验模型[8],[9],其中的学习机制导致在学习的字典上对LR和HR补丁对进行紧凑(稀疏)表示。换句话说,对于每个LR补丁,这些方法都会构建一个非线性自适应滤波器(以投影矩阵形式表示),该滤波器是一些最适合输入补丁的基本元素(学习的字典原子)的组合。应用针对LR补丁量身定制的滤波器会产生所需的放大效果。
锚定邻域回归(ANR)[10]保持[8]和[9]的高质量重构,同时在运行时实现了显着的加速。这可以通过用稀疏编码步骤代替,该稀疏编码步骤使用预先计算的投影矩阵(过滤器)集来计算学习字典上每个补丁的紧凑表示,这是岭回归问题的结果。因此,在运行时,ANR建议不要搜索稀疏编码,而是搜索与LR补丁最接近的原子,然后再乘以相应的预先计算的投影矩阵。一项称为A + [11]的后续工作不仅通过从最近的字典原子中学习回归变量,而且还从本地最近的训练样本中学习回归变量,从而提高了ANR的性能,从而实现了最新的恢复。
SRCNN [16]是另一种基于示例的有效方法,该方法基于深度卷积神经网络(CNN)[19],并学习了从LR图像到其HR对应物的端到端映射。请注意,与基于稀疏性的技术不同,SRCNN并未明确学习用于对补丁进行建模的字典。 在这种情况下,隐藏的卷积层会隐式学习模型。
上面提到的SISR方法导致了令人印象深刻的恢复,但是(相对)高的计算复杂性付出了代价。在本文中,我们提出了一个基于学习的框架,称为RAISR,该框架可产生高质量的恢复,同时比当前的领先算法快两个数量级,并且内存需求极低。
RAISR背后的核心思想是通过在图像块上应用一组预先学习的滤镜(由有效的哈希机制选择)来提高非常便宜(例如双线性)插值方法的质量。请注意,这些滤镜是根据LR和HR训练图像对配对学习的,而散列是通过估计局部梯度的统计数据来完成的。
作为最后一步,为了避免出现伪像,通过应用加权平均值将初始放大的图像及其滤波版本进行局部混合,其中权重是结构描述符的函数。我们利用Census 变换(CT)[20]来完成混合任务,因为它是图像结构的极其快速和廉价的描述符,可用于检测由于滤波步骤而导致的结构变形。
与SISR紧密相关的主题是图像锐化,旨在放大模糊图像的结构/细节。基本锐化技术在图像上应用线性滤波器,例如在锐化蒙版[21]或高斯差分(DoG)[22],[23]的情况下。 这些技术在复杂性方面非常有效,但是往往会引入诸如过度锐化,梯度反转,噪声放大等伪像。与SISR相似,依靠补丁先验可以获得更好的结果,其中对图像内容/结构的敏感度是无伪影增强的关键[24]-[28]。例如,与线性方法相比,随着复杂性成本的增加,边缘感知双边滤波器[29],[30],非局部均值[3]和导向滤波器[25]产生了令人印象深刻的锐化效果。
作为生成高质量清晰图像的一种方法,可以学习从LR图像到其锐化的HR版本的映射,从而“免费”获得内置的锐化/对比度增强效果。此外,学习阶段不限于线性降级模型(如式(1)中所示),因此,可以轻松地完成从压缩的LR图像到其锐化的HR版本的映射,从而实现“一体式” 这种机制不仅可以提高图像分辨率,还可以减少压缩伪像并增强图像的对比度。
受此观察结果的启发,我们也开发了一种锐化器,这是值得关注的。所提出的锐化器是高效的,并且能够增强图像的精细细节(高频)和图像的整体对比度(中低频)。所提出的方法具有与线性锐化器几乎相似的复杂性,同时可以与更复杂的技术竞争。建议的锐化器是基于在图像上应用DoG滤波器[22],[23],它们能够增强宽范围的频率。接下来,基于CT的结构感知混合步骤被用作防止由于增加的内容感知属性(与SISR上下文中所建议的机制相似)而导致伪影的方法。
本文的组织结构如下:在第二部分中,我们描述了全局学习和升级方案,并制定了RAISR的核心引擎。在第三部分中,我们通过将初始升级内核集成到学习方案中来完善全局方法。 在第四部分中,我们描述了整个学习和升级框架,包括哈希和混合步骤。锐化算法在第V部分中进行了详细说明。在第VI部分中进行了实验,将建议的放大和锐化算法与最新方法进行了比较。第七节给出了结论和未来的研究方向。
II. FIRST STEPS: GLOBAL FILTER LEARNING
给定训练数据库图像的初始(例如,在我们的情况下为双线性)升级版本,其中,我们的目标是学习一个d×d过滤器h,该过滤器最小化集合与所需训练HR图像之间的欧几里得距离。
其中表示矢量符号的滤波器; 是一个矩阵,由从图像yi中提取的大小为d×d的小块组成,每个小块在矩阵中形成一行。向量由来自xi的像素组成,对应于yi补丁的中心坐标。该框图展示了学习过程的核心思想,如图1a所示。
实际上,矩阵A可能非常大,因此我们采用两种单独的方法来控制估计滤波器的计算复杂度。 首先,通常并非所有可用补丁都需要使用以获得可靠的估计。实际上,我们通常通过从固定网格(K < 其中和。 注意,Q是一个小的d2×d2矩阵,因此需要相对较少的内存。 对V而言,与保存向量b相比需要更少的内存,这是相同的观察结果。此外,基于矩阵矩阵和矩阵向量乘法的固有定义,我们实际上避免将整个矩阵(和向量)保留在内存中。更具体地,可以通过对行的大块(例如,子矩阵,q << MN)求和来累积地计算Q,可以独立地相乘,然后进行累积步骤; 即 矩阵向量乘法也是如此 其中是向量b的一部分,对应于矩阵Aj。 因此,建议的学习方案在内存方面的复杂度非常低–大约是滤波器大小。此外,使用此观察,我们可以并行化和的计算,从而导致运行时加速。至于最小二乘求解器本身,由于Q是一个正半定矩阵,因此可以有效地使等式(3)最小化,这非常适合快速共轭梯度求解器[31]。 总而言之,学习阶段在内存需求和并行化能力方面都是有效的。如图1b所示,在运行时,给定LR图像(不在训练集中),我们首先使用与学习阶段相同的廉价升频方法(例如双线性)对其进行插值,从而生成其HR近似值,然后使用预学习的滤波器进行滤波。