Handheld Multi-Frame Super-Resolution论文理解

Handheld Multi-Frame Super-Resolution论文理解_第1张图片
以上为论文算法流程图:

a)RAW输入视频帧序列

b)提取图像局部梯度

c)高斯核回归

d)帧局部对齐采用HDR+算法

e)局部鲁棒性统计

f)运动鲁棒性

g)分颜色通道的贡献叠加

h)图像融合结果

总述:

本文包括多帧RAW图像的获取、图像配准、图像融合三个步骤。首先,获取多帧RAW图像(CFA Bayer),然后选择其中一帧作为基帧(base frame),剩下的图像都对该帧进行局部对齐。图像配准使用了HDR+中的配准策略,并对其进行了优化。该配准方法使用coarse-to-fine的金字塔结构,利用局部窗口搜索和块匹配的方式进行局部配准。为了进一步提高配准精度,使用Lucas-Kanade光流法做三次迭代,对块匹配得到的配准结果做进一步优化,在达到必要的精度同时保持较低的计算开销。其次,通过核回归估计每一帧对结果的局部贡献(contribution),然后分颜色通道将这些贡献叠加起来个g)。为了是算法更有鲁棒性,借助于图像局部特征对核形状进行调整,再次,利用鲁棒性模型对采样的贡献值进行加权。最后,对每个颜色通道进行归一化得到最后的RGB图像。

图像配准:

在四层高斯金字塔中,使用coarse-to-fine的策略分层配准。如下图所示,在每层金字塔中,使用基于块的对准方法,并使用上层配准好的结果作为初始估计值。具体操作可看链接HDR+中分层配准部分。
Handheld Multi-Frame Super-Resolution论文理解_第2张图片

图像融合

给定多帧有随机像素偏移的输入图像,文章使用核回归的方法进行拟合,重建连续信号。重建的连续性信号可以以任何等于或高于输入帧的分辨率进行重采样。文章使用了各向异性高斯径向基函数核(Radial Basis Function, RBF),其可以用于局部自适应细节增强或时空去噪。最后,使用提出的鲁棒性模型可以使得算法能在复杂运动场景中发挥作用,并在配准失败的区域退化为单帧图像上采样。

计算每帧像素贡献

对于每一个颜色通道,可以计算每帧像素的贡献,其可以通过下式计算:
Handheld Multi-Frame Super-Resolution论文理解_第3张图片
其中,(x,y)是像素坐标,n表示图像帧数,i表示局部邻域的像素数(文章中设为3×3。c_{n,i}表示RAW图的亮度值,w_{n,i}表示局部采样权重。Rˆn表示局部鲁棒性权重,如对于基帧来说,既然其不需要配准,则R为1,表示对它的局部采样值充分信任。

局部采样权重

对于局部采样权重w_{n,i},使用非归一化的各向异性径向基函数核。其定义为
在这里插入图片描述
其中,Ω是核的协方差矩阵,d_i是i点到目标像素的偏移向量:

在这里插入图片描述
对于每个3×3邻域中的九个最近邻采样使用相同的核函数,以此来实现快速的并行运算。

使用各向异性核的 一个重要原因是其可以增加算法对小的未配准区域以及边缘附近区域的鲁棒性。 包含边缘的区域更容易发生误配准。亚像素的误配准以及缺乏足够的采样会造成拉链效应(zipper artifacts)。通过拉伸核的形状,使其沿着边缘方向延伸,可以给不属于边缘的像素赋予更小的权重。如下图所示,对于不同的区域,核的形状也不同。橘黄色高斯核用于边缘,绿色高斯核用于细节,所以较小,蓝色的高斯核用于平坦无变化的区域。

Handheld Multi-Frame Super-Resolution论文理解_第4张图片

核的协方差计算

通过分析每一帧的局部梯度结构张量来计算核的协方差。为了提升运行速度和对噪声鲁棒性,对原始RAW图像中每个2×2Bayer图样的四个颜色通道(如RGGB)做平均得到单通道图像,然后计算该单通道亮度图像的梯度。为了估计局部梯度的强度和方向信息,使用梯度结构张量分析(类似于harris角点检测的方法)。
在这里插入图片描述
其中,I_x和I_y分别是水平和竖直方向上的梯度。在3×3窗口使用前向差分计算梯度,可以得到四个水平和垂直方向的梯度值。对局部结构张量做特征值分析,可以得到两个正交向量及其特征值:
Handheld Multi-Frame Super-Resolution论文理解_第5张图片
其中,特征值λ1和λ2控制着核在边缘方向或正交方向上的方差。使用主特征值λ1
的大小控制超分辨和去噪之间的平衡,使用λ1/λ2控制核的形状。最后,使用双线性插值对核的协方差矩阵值进行上采样以计算核权重。

局部鲁棒性权重

配准后的图像可能存在误配准、物体运动和遮挡等区域,这些区域可能会造成很强的artifacts。为此,文章引入鲁棒性掩膜(robustness mask)来指示像素值的置信度。其值为1表示该区域完全用于融合,其值为0表示完全排除该区域。

统计鲁棒性模型

文章计算局部标准差σ以及被配准帧与基帧之间的颜色差异d。那些颜色差异小于局部标准差的区域视为没有混叠可以被融合以用于时域降噪。颜色差异与标准差的预定比例接近的区域视为混叠区域可以被融合以用于超分辨。颜色差异大于该比例的很可能是误配准区域或运动物体,应该被舍弃掉。
通过上述分析,我们可以定义一个平滑的比较函数:
在这里插入图片描述
R即为置信度,其中,s和t是可以被调节的尺度和阈值参数。由于局部标准差σ和基帧之间的颜色差异d很容易受到噪声的,因此还需要对这两个值进行修正。

噪声修正的局部统计和颜色差异

首先,将RAW拆分成三通道的RGB图(两个G通道做平均)作为引导图。然后计算引导图每个像素在3×3邻域的颜色均值和标准差sigma_{ms}。颜色均值用于计算输入帧与基帧的局部颜色差异d_{ms}。由于这两个值都是由很小的局部邻域计算得到的,因此其容易受到噪声影响,需要进行修正。
为了将噪声模型进入到算法中,文章计算均匀亮度块的局部颜色差异d_{md}和标准差\sigma_{md}进行标定。通过一系列的蒙特卡洛模拟计算不同亮度水平的d_{md}和\sigma_{md}。以标定得到的\sigma_{md}作为\sigma_{ms}下限,并使用维纳收缩法(Wiener shrinkage)计算最终的σ和d:

Handheld Multi-Frame Super-Resolution论文理解_第6张图片

修正去除误配准区域或运动物体

文章发现对于相机运动和正确的配准, 配准域(即光流图)通常是比较平滑的,也就是附近大部分区域都配准是时候,光流图才会平滑,而不平滑区域则说明有很大可能性配准错误。 而对于有局部运动区域光流图会出现较大变化。因此可以结合该运动先验来去除artifacts。文章计算偏移向量值的局部跨度的长度来表示局部运动变化,将值比较大的区域视为不正确的运动区域排除掉。
Handheld Multi-Frame Super-Resolution论文理解_第7张图片
其中,v_x和v_y表示水平和竖直方向上的偏移量。M_x和M_y表示在3×3邻域内水平和竖直方向上的局部运动范围。M表示局部运动强度估计。如果M超过了一个阈值M_{th},可以将这些像素视为包含显著的局部运动或误配准。使用该信息调整鲁棒性强度s:
Handheld Multi-Frame Super-Resolution论文理解_第8张图片
最后,通过计算5×5邻域的最小置信度值做进一步优化:
在这里插入图片描述
通过以上两种手段来修正并得到最终的置信度矩阵。

总结

总结论文整个思想:
1)首先选取基帧,接着对多帧图像进行配准,采用高斯金字塔,coarse-to-fine的策略分层配准。
2)配准后,提取每一帧梯度图,通过高斯核回归的方式计算每一帧图像在基帧上的局部贡献权重,由于3x3邻域的梯度图是2x2,因此局部贡献权重矩阵最后要进行上采样。
3)由于多帧配准的策略存在误差,因此通过计算每一帧的置信度矩阵的方式,只在置信度高的地方进行超分辨率,在置信度低的地方还采用帧舍弃这一帧的信息,使用其他帧的信息来填充。
4)在计算贡献度权重矩阵和置信度矩阵后,进行融合,融合方式如上公式一,获得C(x,y)的值,完成图像融合。

你可能感兴趣的:(计算机视觉,计算机视觉)