图像拼接 | 《Coarse-to-fine Seam Estimation for Image Stitching》论文笔记

《Coarse-to-fine Seam Estimation for Image Stitching》

arXiv:https://arxiv.org/abs/1805.09578
发表时间:2018-05-24
编辑者:Amusi
编辑时间:2018-05-31
目的
创新点
名词翻译
摘要
1 引言
2 相关工作
3 由粗到细的缝估计
A 传统的缝切割
B Patch-point 估计算法
C 缝估计优化
D 提出由粗到细框架
4 实验
5 总结
参考文献


目的

find a nearly perception-consistent seam
  • 设计一个 Seam estimation方法,可以在给定的对齐假设(alignment hypothesis)下找到感知最佳的缝合线(perceptually optimal seam):即 coarse-to-fine seam estimation方法

创新点

  • 对 quality metric进行优化
  • 引入了 patch-point 评估算法

在本文中,我们提出了一种粗到细(coarse-to-fine)的图像拼接缝估计方法。 从接缝评估的角度来看,我们观察到感知上最优的接缝应该具有相对较小的质量测量以及接缝上像素的小变化(参见图3(d))。 我们由粗到细策略有两个主要步骤。在第一步中,给定对齐图像后,我们通过传统的切缝估计缝合缝,其中根据原始差异图计算能量函数。在第二步中,我们引入了 patch-point 评估算法来评估接缝上的像素,然后使用评估来重新计算差异图并重新缝合接缝。这两个过程迭代直到当前接缝相比之前的接缝变化可以忽略不计。 实验表明,我们的方法优于传统的切缝和其他接缝驱动方法。

我们观察到:感知上最佳的接缝应该具有相对较小的quality measure 以及接缝上像素的小变化/方差(variance)。

由粗到细(coarse-to-fine)策略有两个主要步骤:
第一步:在给定对齐的图像的情况下,我们通过传统的切缝估计缝合接缝,其中根据原始差异图(difference map)计算能量函数。
第二步:我们引入了 patch-point 评估算法来评估接缝上的像素,然后使用评估结果来重新计算差异图并重新缝合接缝。
上述两个过程迭代直到当前接缝相比之前的接缝变化可以忽略不计(接缝无优化)。 实验表明,我们的方法优于传统的切缝和其他接缝驱动方法。

注:解决不完美(imperfect)的图像序列拼接问题的两种方法:
  • alignment(image warping)
  • seam-driven(seam-cutting):本文着力点

注意:
alignment方法(如DHW、SVA、APAP、SPHP、APNAP和GSP)无法解决视差(parallax)问题;
seam-driven方法可以解决parallax问题(很关键)。

名词翻译

seam:缝或者接缝
seam-cutting:缝切割或者接缝切割
seam-driven:接缝驱动
alignment:对齐
misalignment:错位
smooth:平滑或滤波
patch-point:块-点

摘要


Seam-cutting 和 seam-driven 技术已被证明可有效处理图像拼接中不完美的图像序列。一般来说,seam-driven 是利用 seam-cutting 从一个或者有限的对齐假设中找到一个最好的接缝,这个假设是基于预定义的接缝质量度量(seam quality metirc)。然而,大多数方法中的质量度量被定义为测量接缝上像素的平均 performance,而不考虑它们之间的 相关性(relevance)和方差(variance)。这可能导致具有最小量度的 seam在人类感知中不是最佳的(感知不一致)。在本文中,我们提出了一种新颖的粗糙到细(coarse-to-fine)的缝估计方法,它以不同的方式应用评估。对于接缝上的像素, 我们提出一种 patch-point 评估算法 ,更多地关注它们的相关性和变化。然后使用评估重新计算重叠区域的差异图(difference map)并重新估计拼接缝合线。这个评估重新估计过程会迭代,直到当前接缝与之前的接缝相比可以忽略不计。实验表明,我们提出的方法可以在几次迭代之后最终找到几乎感知一致的接缝,这比传统的切缝和其他接缝驱动的方法更胜一筹。

注:seam-driven第一次在《Seam-driven image stitching》上提出,使用seam quality metric作为 minimal measure来估计/衡量最佳缝合线。
但这些 quality metircs方法都没有考虑缝合线上像素的 relevance 和 variance。

关键词:图像拼接,coarse-to-fine,seam-cutting,人类感知


1 引言

不完美图像序列的图像拼接是一个具有挑战性的问题,近年来取得了很大的进展[1],[2]。一般地,有两种解决该问题的方法。一种是提出对齐(alignment)技术(即 image warping),使得图像尽可能准确地对齐[3]-[7]。另一种方法称为 seam-driven(或者 seam-guided)方法是利用 seam--cutting[8][9] 从一个或者有限的对齐假设(alignment hypotheses)中找到重叠区域中来找到最不可见的seam[10]-[13]。第一种方法旨在生成几何准确的结果,当输入图像具有视差或者其他问题时可能会拼接失败。因此,seam-driven成为产生令人满意的拼接结果的关键方式。

Gao等人首先提出了接缝驱动(seam-driven)的图像拼接策略[10]。他们应用切缝(seam-cutting)来从有限对齐假设中估计多个接缝。然后定义一个接缝质量度量(seam quality metric)来评估这些接缝,最终结果由最小尺寸的接缝产生。许多其他接缝驱动方法采用这种 pipeline[11],[12]。然而, 它们的质量度量被定义为测量接缝上像素的平均性能,而不考虑它们之间的相关性和方差。这可能导致具有最小量度的接缝在人类感知中不是最佳的。图1显示了一个测量两个接缝的比较示例。值得注意的是,接缝上的像素有一些不准确的测量结果(false positives)。事实上,很难定义一个单一的质量指标来精确地评估缝合线,因为在接缝驱动策略中,尽管两个缝合线具有不同的质量指标,但两个缝合线在人类感知中同样具有说服力。这激励我们开发一种接缝估计方法,在给定一个对齐假设的情况下可以找到感知上最佳的接缝。

图1.两条拼接接缝之间的结果比较,根据[12]中定义的质量度量,接缝显示为热图(hot map)。输入图像来自[11]。(a)最后的结果和相应的接缝用较小的度量。(b)最后的结果和相应的接缝有更大的度量。

在本文中,我们提出了一种粗到细(coarse-to-fine)的图像拼接缝估计方法。 从接缝评估的角度来看,我们观察到感知上最优的接缝应该具有相对较小的质量测量以及接缝上像素的小变化(参见图3(d))。 我们由粗到细策略有两个主要步骤。在第一步中,给定对齐图像后,我们通过传统的切缝估计缝合缝,其中根据原始差异图计算能量函数。在第二步中,我们引入了 patch point 评估算法来评估接缝上的像素,然后使用评估来重新计算差异图并重新缝合接缝。这两个过程迭代直到当前接缝相比之前的接缝变化可以忽略不计。 实验表明,我们的方法优于传统的切缝和其他接缝驱动方法。


2 相关工作


近年来,为了解决图像拼接中复杂的场景和问题,许多人致力于 seam-cutting or seam-driven方向的工作。为了估计重叠图像之间的不可见的接缝,可以将图像无缝地融合在一起,提出了接缝切割(seam-cutting)来处理不完美图像序列。大多数切缝(seam-cutting)方法将接缝估算公式化为标签问题的能量最小化,并通过图形切割(graph cuts)使能量最小化[14]。后续工作设计了不同的能量函数(energy function)来解决特别的问题[7]-[9],[13],[15],[16]。我们的方法采用传统的 seam-cutting作为初始seam 估计方法。

Seam-driven方法在其框架中结合了 seam-cutting方法。Gao等人 [10]指出,感知上最好的结果不一定来自最佳的全局对齐。为了从多个接缝中找到最好的结果,他们定义了接缝质量度量(seam quality metric)来测量接缝。 Zhang和Liu[11]通过结合单应性和保留内容的waprs[17]来改进这一策略,以局部对准图像并生成更好的对齐假设(alignment hypotheses),其中将接缝成本(seam cost)用作质量度量。Lin等人 [12]提出通过基于超像素的特征分组(feature grouping)和 seam-guided structure-preserving warp来产生对齐假设,其中 warp 通过自适应特征加权被迭代地改善。他们还根据ZNCC(零均值归一化互相关)得分定义了一个质量指标,该指标也在[13]中使用。 所有这些 seam-driven 的质量指标被定义为评估接缝上像素的平均性能,这可能导致具有最小度量的接缝在人类感知中不是最佳的。

我们采用不同的方法进行seam 评估。我们没有定义一种可以从多条 seams中找到最佳性能的seam quality metirc,而是提出一种评估算法(evaluation algorithm),更多地集中在seam 上像素的相关性和变化(correlation and variation)。然后将这种评估应用到我们的 coarse-to-fine seam estimation策略中。


3 由粗到细的缝估计

A 传统的缝切割

对于两幅图像拼接,我们使用I0和I1表示对齐后的参考图像和目标图像,P 表示为两图的重叠区域,L={0,1}为标签集,然后,缝合线表示将标签 l p ∈ L赋值给每个像素p ∈ P,其中"0"对应于I0,"1"对应于I1。seam-cutting方法旨在找到一个labeling l(即从 P到 L的映射)使得能量函数最小化:

式中N ⊂ P × P 是像素的邻域。 平滑项(smoothness term)S p, q (l p ,l q )表示将一对标签(l p,l q) 赋值给一对像素(p, q) ∈ N的代价,被定义为:

式中,Id(·)表示色差图。 数据项(data term)D p(l p)测量将标签 l p赋值给像素p ∈ P的代价,我们可以参考文献[13]获得更多细节。
然后,通过图切(graph cuts)最小化能量函数(即公式(1))来获得 seam。


B Patch-point 估计算法

为了评估拼接缝,基于零归一化互相关分数(ZNCC,zero-normalized cross-correlation score)的方法由Seagull[12]提出并在[13]中进一步使用。对于接缝上的每个像素pi,他们提取以pi为中心的局部区块(path)并且计算目标图像I1中的局部区块与参考图像I0中的局部区块之间的ZNCC得分。接缝质量被定义为

其中N是接缝上的像素总数。 如图1所示,这种质量衡量这些像素的平均性能,而不考虑它们之间的相关性和方差。 这可能会导致具有最小量度的接缝在人类感知中不是最佳的。

尽管定义精确的接缝质量度量有困难,但我们仍然可以使用此策略评估接缝上的像素。通常,块(patch)差异具有良好的“连续性”(continuity)属性,而点(point)差异具有很好的“多样性”(diversity)属性(参见图2)。因此,我们将 patch 和 point 结合在一起来评估接缝。

1)块评估

由于错位(misalignment)伪影通常因为结构不一致性发生在重叠区域,我们使用SSIM(结构相似性)索引[18]代替ZNCC来比较两幅图像中的局部斑块。实验也显示了SSIM的优越鲁棒性。像素pi的 patch 评估被定义为

SSIM索引是-1和1之间的十进制值,如果两个局部 patch相同,则只能访问值1。因此,接缝上的错位像素通常具有相对较大的patch 评估值(因为patch不同时,SSIM=0,那么Epatch最大)。


2)点评估

对于不完美图像序列中的视差问题,单个patch 评估不足以提供接缝像素的精确评估。有时它会产生假阳性(false positives)(即把合法的判断成非法的,译为“误报),这会给一些良好对齐的像素带来相对较大的patch 评估值(参见图2(a))。我们为像素添加点(point)评估以改进评估算法。像素pi的点评估定义为:

其中pi和qi在重叠区域中相邻并且lpi != lqi。点评估测量接缝两侧像素之间的色差。因此,合理的接缝对接缝上(几乎)所有像素点的评估值都会相对较小。这可以避免补丁评估中的误报。

图2 Patch-point 评估算法。输入图像来自[11],接缝显示为热图。(a)seam和patch信号。(b)缝和点信号。(c)缝和patch-point信号。 信号的x轴是沿着接缝的像素的顺序,y轴是评估的值。


3)评估算法

为了研究这些像素之间的相关性和变化,我们将评估结果作为信号,其中x轴是沿着接缝上像素的顺序(见图2)。我们用小波去噪工具使信号平滑,消除不可见错位的影响。另一种方法是通过高斯滤波器使得初始对齐的图像平滑,我们通过实验发现小波去噪方式更有效。

通常,接缝上的错位的像素将同时具有较大的 patch评估值和点评估值。我们定义pi的评估E(pi)如下,

加入λ以维持评估的 scale。图2显示了拼接缝上我们的patch-point 评估算法的一个例子,其中每个像素pi的评估E(pi)被显示为热图。我们可以看到评估与人类感知几乎一致。

C 缝估计优化

然后我们利用 patch-point 评估来迭代地改进我们的接缝估计。一般而言,接缝上的未对齐/错位像素将具有较大的 patch-point评估值,相反,相对较大的 patch-point评估值通常意味着潜在的未对齐像素。因此,在接缝细化(seam refinement)中,我们通过修改差异图(difference map)来增加潜在错位像素的平滑成本。


然后,重叠区域的差异图变成


我们使用 N(seam) 来表示一个包含接缝的带状区域(banding area),它是通过在每t条边扩展接缝5个像素而生成的。对于像素p ∈ N(seam),E(p)被设置为接缝上其最近像素的 patch-point 评估(扩展的像素的 patch-point 等于相邻缝上像素的 patch-point值)。为了提高效率和鲁棒性,在带区重新计算差异图。

然后,我们用新的差分图重新计算能量函数,并重新估计拼接缝合线。评估过程重复进行,直至当前接缝与之前的接缝相比可以忽略不计。这里的“忽略不计”意味着当前接缝可以完全包含在之前的带状区域中。对于合理的初始接缝,此过程通常在5次迭代内终止。最后,我们得到一个拼接缝,最后的结果是通过在接缝上应用梯度域融合[19]产生的。

图3显示了接缝估计优化(refinement)的拼接示例,其中每次迭代中的接缝显示为热图(hot map)。初始估计接缝在穿过未对齐区域时会产生结构不一致性的伪影。经过几次迭代,我们可以获得一个感知上令人满意的接缝。

图3 Seam 估计优化。输入图像来自[12]。所有结果都为了布局而部分裁剪。(a)最初估计的接缝。(b)中间估计的接缝。(c)后者估计缝。 (d)最后估计的接缝。


D 提出由粗到细框架


我们在算法[1]中总结了从粗到细的缝估计框架
算法1 由粗到细 seam 估计
Require:两幅已对齐的图像 I0 and I1;
Ensure:最终拼接缝 S∗:
  1. 初始:带状区域 B = 0;
  2. 根据公式(3) 计算色差图 Id;
  3. 计算公式(2),并通过图切法(graph cuts)最小化公式(1),来获得拼接缝 S1;
  4. while S1 !⊂ B 时:
  5. 根据公式(5)(6)(7) 计算 patch-point 评估算法;
  6. 将 S1 扩展至 带状区域 N(S1),并根据公式(8)(9) 计算色差图 I~d;
  7. 根据公式(2)(9) 重新计算公式(1),并重新估计一条拼接缝 S2;
  8. 设置 B为 B [ N(S1),令 Id = I~d,S1 = S2;
  9. end while
  10. return S∗ = S1。




4 实验

在我们的实验中,patch 评估中的 patch 尺寸设置为21×21,公式(7)中的 λ 等于10,σ和∈在(8)中分别被设置为5和0:12。我们使用SIFT [20]和RANSAC [21]来查找输入图像之间的特征对应关系。然后估计全局单应性或其他可用的 warps[5],[12]以对齐图像。最后,我们采用粗到细的接缝估计方法来估计最终的接缝,最后的结果是通过融合梯度域方法融合对齐的图像产生的[19]。

我们将我们的方法与传统的切缝和其他接缝驱动(seam-driven)方法进行了比较[11],[12]。比较是在公开可用的数据集上完成的,包括Parallax [11]和SEAGULL [12]。所有比较结果都在补充材料中提供。

图4显示了不同拼接方法之间的一些比较。输入图像来自[11]。传统的接缝切割,SEAGULL和我们的方法采用由SEAGULL提供的相同图像对齐方式。如红色矩形所示,视差,SEAGULL和传统的切缝受到结构不一致性的视觉伪影的影响。我们的方法最终可以在人的感知上产生令人信服的结果。

图4 不同拼接方法之间的比较。图像数据集来自Parallax [11]。从上到下方法:Parallax,SEAGULL,传统切割(Conv)和Ours。


5 总结

在本文中,我们提出了一个粗到细的缝估计方法来处理图像拼接中的不完美图像序列。综合实验表明,我们的方法可以在几次迭代后最终找到接近感知一致的缝合缝,这比传统的缝纫切割和其他线缝驱动的方法性能更好。


参考文献

[1] R. Szeliski, “Image alignment and stitching: A tutorial,” Found. Trends Comput. Graph. Vis., vol. 2, no. 1, pp. 1–104, 2006.
[2] M. Brown and D. G. Lowe, “Automatic panoramic image stitching using invariant features,” Int. J. Comput. Vis., vol. 74, no. 1, pp. 59–73, 2007.
[3] J. Gao, S. J. Kim, and M. S. Brown, “Constructing image panoramas using dual-homography warping,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2011, pp. 49–56.
[4] W.-Y. Lin, S. Liu, Y. Matsushita, T.-T. Ng, and L.-F. Cheong, “Smoothly varying affine stitching,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2011, pp. 345–352.
[5] J. Zaragoza, T.-J. Chin, Q.-H. Tran, M. S. Brown, and D. Suter, “Asprojective-as-possible image stitching with moving dlt,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 7, no. 36, pp. 1285–1298, 2014.
[6] Y.-S. Chen and Y.-Y. Chuang, “Natural image stitching with the global similarity prior,” in Proc. 14th Eur. Conf. Comput. Vision, 2016, pp. 186–201.
[7] G. Zhang, Y. He, W. Chen, J. Jia, and H. Bao, “Multi-viewpoint panorama construction with wide-baseline images,” IEEE Trans. Image Processing, vol. 25, no. 7, pp. 3099–3111, 2016.
[8] V. Kwatra, A. Schodl, I. Essa, G. Turk, and A. Bobick, “Graphcut ¨ textures: image and video synthesis using graph cuts,” ACM Trans. Graph., vol. 22, no. 3, pp. 277–286, 2003.
[9] A. Agarwala, M. Dontcheva, M. Agrawala, S. Drucker, A. Colburn, B. Curless, D. Salesin, and M. Cohen, “Interactive digital photomontage,” ACM Trans. Graph., vol. 23, no. 3, pp. 294–302, 2004.
[10] J. Gao, Y. Li, T.-J. Chin, and M. S. Brown, “Seam-driven image stitching,” Eurographics, pp. 45–48, 2013.
[11] F. Zhang and F. Liu, “Parallax-tolerant image stitching,” in Proc. IEEE Conf. Comput. Vision Pattern Recognit., 2014, pp. 3262–3269.
[12] K. Lin, N. Jiang, L.-F. Cheong, M. Do, and J. Lu, “Seagull: Seam-guided local alignment for parallax-tolerant image stitching,” in Proc. 14th Eur.
Conf. Comput. Vision, 2016, pp. 370–385.
[13] N. Li, T. Liao, and C. Wang, “Perception-based seam cutting for image stitching,” Signal, Image and Video Processing, pp. 1–8, 2018, doi:
10.1007/s11760-018-1241-9.
[14] Y. Boykov, O. Veksler, and R. Zabih, “Fast approximate energy minimization via graph cuts,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 23, no. 11, pp. 1222–1239, Nov. 2001.
[15] A. Eden, M. Uyttendaele, and R. Szeliski, “Seamless image stitching of scenes with large motions and exposure differences,” in Proc. IEEE
Conf. Comput. Vision Pattern Recognit., vol. 2, 2006, pp. 2498–2505.
[16] J. Jia and C.-K. Tang, “Image stitching using structure deformation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 30, no. 4, pp. 617–631,
Apr. 2008.
[17] F. Liu, M. Gleicher, H. Jin, and A. Agarwala, “Content-preserving warps for 3d video stabilization,” in ACM Trans. Graph., vol. 28, no. 3. ACM,
2009, p. 44.
[18] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE Trans. Image Processing, vol. 13, no. 4, pp. 600–612, 2004.
[19] P. Perez, M. Gangnet, and A. Blake, “Poisson image editing,” ´ ACM Trans. Graph., vol. 22, no. 3, pp. 313–318, 2003.
[20] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” Int. J. Comput. Vis., vol. 60, no. 2, pp. 91–110, 2004.
[21] M. A. Fischler and R. C. Bolles, “Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography,” Commun. ACM, vol. 24, no. 6, pp. 381–395, 1981.

你可能感兴趣的:(图像拼接,论文精读)