【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography

文章目录

    • 一、论文翻译
      • 题目:从大基线深度单应性学习边缘保留图像拼接
      • 0摘要
      • 1引言
      • 2相关工作
        • A传统图像拼接
        • B深度单应方案
        • C深度图像拼接
      • 3方法
        • 3.1大基线深度单应
        • 3.2边缘保持变形网络
        • 3.3无尺寸拼接
      • 4实验
        • 4.1数据集和实现细节
        • 4.2和单应估计比较
        • 4.3和图像拼接算法对比
        • 4.4消融实验
      • 5结论
    • 二、论文总结

一、论文翻译

题目:从大基线深度单应性学习边缘保留图像拼接

0摘要

图像拼接是计算机视觉中一项经典而关键的技术,旨在生成具有宽视场的图像。传统方法严重依赖特征检测,要求场景特征在图像中密集且分布均匀,导致重影效果参差不齐,鲁棒性较差。学习方法通​​常受到固定视图和输入大小的限制,在其他真实数据集上缺乏泛化能力。在本文中,我们提出了一种图像拼接学习框架,该框架由大基线深度单应性模块和边缘保留变形模块组成。(首先,我们提出了一个大基线深度单应性模块来估计参考图像和目标图像在不同特征尺度下的精确投影变换。之后,设计了一个保边变形模块,学习图像从边缘到内容拼接的变形规律,尽可能消除重影效应。)特别是,所提出的学习框架可以拼接任意视图和输入大小的图像,从而有助于在其他真实图像中具有出色泛化能力的监督深度图像拼接方法。实验结果表明,我们的单应性模块在大型基线场景中明显优于现有的深度单应性方法。在图像拼接方面,我们的方法优于现有的学习方法,并显示出与最先进的传统方法相媲美的性能。

1引言

由于有限的视野 (FOV),单张照片无法显示完整的感兴趣区域 (ROI)。为了解决这个问题,可以通过拼接来自不同观看位置的图像来获得更宽视野的拼接图像,这在自动驾驶 [1]、[2]、沉浸式通信 [3]、虚拟现实(VR)[4],[5]。
传统的图像拼接方法遵循类似的步骤:特征检测和匹配、图像配准和图像融合。在这些步骤中,最重要的是图像配准,它估计从目标图像域到参考图像域的参数变换模型。通常采用单应变换,可以有效且简单地表示为一个 3×3 的矩阵。然而,单个单应性仅包含从一个平面到另一个平面的转换[6],而图像中的对象通常处于不同的深度级别。因此,仅使用全局单应性进行拼接经常会产生重影效果。
为了减轻重影效应,已经提出了1#空间变化的翘曲算法[7]-[19]来学习空间自适应翘曲。一幅图像可以被划分为不同的区域,每个区域对应一个唯一的参数变换。通过对目标图像应用自适应变形,图像的重叠区域可以在很大程度上对齐。另一类传统图像拼接是2#接缝驱动图像拼接[20]-[23]。这些方法通过最小化与接缝相关的成本来寻找最佳接缝切割,并通过缝切引导图像融合减少重影效应。然而,这些传统方法的性能在很大程度上取决于特征点密集且均匀分布在图像周围的条件,使得这些方法不够鲁棒。
最近,深度学习方法在光流估计[24]-[28]、单应性估计[29]-[32]等各种计算机视觉任务中的表现优于传统方法。然而,深度图像拼接仍在开发中。在深度图像拼接中,一些方法是1#专门为固定拍摄位置设计的[2]、[33]、[34],而一些方法是2#通过应用于特征检测的卷积神经网络(CNN)实现的[2]、[33]、[34] ,不能算是完整的深度图像拼接算法。此外,[35]中提出了一种无视图图像拼接网络(VFISNet),它首次在完整的深度学习框架中成功地拼接了具有任意视图的图像。但是,它具有固定输入大小和泛化能力弱的局限性。
考虑到上述传统和学习方法的局限性,我们提出了一种新颖的深度图像拼接框架,以灵活的学习方式拼接来自任意视图和输入大小的图像。(所提出的框架由大基线深度单应性模块和边缘保留变形模块组成。第一个模块实现单应性估计和图像配准,其余模块学习图像从边缘到内容的拼接变形规则。)
对于关键的单应估计阶段,我们发现现有学习方法中存在以下两个常见问题[29]–[32]:1)学习过程仅在单个级别上进行监督。上述方法仅利用最后一次卷积的特征来预测单应性,而忽略了其他卷积层学习到的不同层次的特征。因此,深度特征的利用不足,并且网络很难用单尺度特征估计精确的投影变换。2) 通过卷积层来学习特征的匹配关系效率低下,使得这些方法无法在大型基线场景中工作。在这些方法中,卷积层的感受野受到核大小的限制,而匹配特征之间的距离可以远远大于它。
为了解决上述问题,我们提出了一个大基线深度单应性模块。在这个模块中,(我们首先采用特征金字塔从粗到细提取多尺度特征。然后对全局到局部的特征匹配进行特征关联。我们的网络的感受野可以通过将特征金字塔与特征相关性相结合来显着扩展,使我们的方法能够估计单应性,尤其是在大基线中。)输入图像(图 1(a))可以使用这个估计的单应性进行扭曲。

随后,我们(设计了一个保留边缘的变形模块,将扭曲的图像(图 1(b))从边缘缝合到内容。)与旨在尽可能对齐图像的传统图像拼接方法不同,我们的方法使用边缘保留策略学习图像拼接的变形规则。因为我们的框架是使用无视差合成数据集以监督方式训练的,所以我们的框架学习仅从扭曲的参考图像生成拼接图像的重叠区域,因此在拼接图像中不会产生伪影。然而,如图 1 (d) 所示,仅从扭曲的参考图像中学习重叠像素会在扭曲的参考图像和扭曲的目标图像的非重叠区域之间的边缘产生不连续性。我们的边缘保留变形模块通过学习纠正边缘周围的不连续性来克服这个问题(图 1 (e)),有助于获得视觉上令人愉悦的边缘连续性缝合结果。
在实验中,我们评估了我们的方法的任务单应估计和图像拼接。实验结果表明,我们的方法在很大程度上优于以前的方法,证明了它在深度单应估计和深度图像拼接方面的鲁棒性和有效性。本文的贡献总结如下:
①我们设计了一个大基线深单应模型,首次同时采用特征金字塔和特征相关性。与现有的在小基线场景中估计单应性的深度方法不同,所提出的方法是专为大基线单应性估计而设计的,为深图像拼接奠定了坚实的基础。
②我们提出了一种边缘保持变形网络来缝合扭曲图像,消除了重影效应,同时保持了缝合图像的边缘连续性。
③在所提出的深度图像拼接框架中不可避免地存在完全连通的层的情况下,我们设计了一种灵活的机制,将图像缩放和单应性缩放相结合来拼接任意大小的图像。
本文的其余部分组织如下:第二节介绍了相关工作。第三节讨论了我们提出的大基线深单应模型和边缘保持变形模型。第四节和第五节分别给出了实验和结论。

2相关工作

在本节中,我们将回顾1#传统的图像拼接算法、2#深度单应估计解决方案和3#深度图像拼接方法。

A传统图像拼接

空间变化翘曲: 传统方案使用单个全局单应性拼接图像,导致明显的重影效果[6]。为了构建具有较少伪影的图像全景图,Gao 等人提出了一种双单应性方法(DHW)来分别表示前景和背景的翘曲[8]。为了对齐图像域中的不同区域,在 Zaragoza 等人[10]的工作中,计算空间自适应扭曲以尽可能投影地拼接图像 (APAP)。 APAP 将图片划分为密集网格,使用移动 DLT 计算空间自适应扭曲,以无缝桥接与投影模型不一致的图像区域。然而,假设相邻区域APAP的翘曲变化很小。事实上,相邻区域的深度可能会发生巨大变化,在物体边界附近仍可能出现视差伪影。Li等人提出了翘曲残差向量来区分来自不同深度平面的匹配特征[16]。通过使用相应的估计单应性扭曲不同的补丁,可以为具有大视差的图像实现更准确的拼接。
接缝驱动方法: 接缝驱动的图像拼接方法也有影响。在 Gao 等人[23]的工作中,提出了一种单应性的缝切损失来测量扭曲的目标图像和参考图像之间的不连续性。 选择具有最小切缝损失的单应性以实现最佳拼接。张等人[21] 引入了内容保留扭曲 (CPW) [36] 来对齐重叠区域以进行小的局部调整,同时使用单应性来保持全局图像结构。与对齐重叠区域的像素不同,Lin 等人[22]提出寻找一个局部区域来拼接图像,可以在拼接过程中保护曲线和线条。

B深度单应方案

单应估计是图像拼接的重要组成部分,而深度单应估计也是深度图像拼接的重要步骤。2016年[29]首次提出了深度单应解。在这项工作中,提出了一个深度单应合成数据集和一个预测参考图像顶点位移的学习解决方案。然后,Nguyen等人[30]提出了一种无监督的深度单应性解决方案,其中采用光度损失来测量扭曲目标图像和参考图像之间的像素误差。在[37]中,提出了一种级联LucasKanade网络来对齐图像,其中CNN用于提取多尺度特征,Lucas Kanade层用于查找运动参数。文献[32]提出了另一种多尺度方法,将图像金字塔和自我注意机制同时纳入学习框架。Zhang等人[31]提出了一种内容感知的无监督解决方案,在该解决方案中,可以学习一个掩码作为一个注意图来拒绝动态区域,同时选择可靠区域进行单应估计。该方法在小基线场景中实现了单应估计的最新性能。

C深度图像拼接

由于1训练数据集难以获取,2多任务集成拼接网络难以训练,因此深度图像拼接仍处于发展阶段。为了减少网络的学习负担,一些方法[2]、[33]、[34]设计了一种特定的拼接情况,如固定的摄像机拍摄位置,不能扩展到盲图像拼接。其他方法[38]、[39]在图像拼接的某个步骤(如特征检测)中采用了深度学习,不能严格地将其视为完整的深度图像拼接解决方案。除此之外,在[35]中提出了VFISNet,其中级联网络完全通过深入学习来自任意视图的缝合图像来实现。然而,这种在合成数据集上训练的无视图网络缺乏泛化能力,因此难以用视差拼接真实图像。

3方法

在本节中,我们将详细描述我们提出的方法。首先,我们在第III-a节中设计了一个大基线深单应模块,用来实现单应估计和图像配准。然后,在第III-B节中,我们提出了一个边缘保留变形网络,用于缝合具有边缘保留校正的图像。最后,第III-C节讨论了在深度图像拼接中释放图像大小限制的一些方案。

3.1大基线深度单应

尽管小基线深度单应性方法 [29]-[32]、[37] 的性能优于传统的单应性解决方案,但大基线深度单应性估计仍然具有挑战性。因为在大基线的场景中,图像之间的重叠率太低,CNNs的感受野明显受限。为了克服这一挑战,我们提出了一个大基线深度单应网络。在深度单应性领域,我们将特征金字塔和特征相关性结合到一个网络中,提高了特征图的利用率,同时扩大了我们模型的感受野。通过这种方式,我们的网络可以感知大基线中的相关信息,我们网络的详细架构如图2所示。
【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography_第1张图片

特征金字塔: 将图像送入我们的网络后,它们将由8个卷积层进行处理,其中每层的滤波器数量分别设置为64、64、128、128、256、256、512和512。每两个卷积层采用一个最大池层,将多尺度特征表示为F、F1/2、F1/4和F1/8。如图2所示,我们选择F1/2、F1/4和F1/8以形成三层特征金字塔。利用金字塔中每一层的特征来估计单应性,并将上层估计的单应性传输到下层,以不断提高估计的精度。通过这种方法,我们可以在特征水平上从粗到细地预测单应性。
特征相关性: 为了在大基线情况下提高单应估计的精度,这里使用特征相关层来明确地加强特征匹配。形式上,参考特征 FlA ∈ Wl×Hl×Cl 与目标特征 FlB ∈ Wl×Hl×Cl 之间的关联 c 可以计算为:
在这里插入图片描述

其中 xlA、xlB 分别是 FlA 和 FlB 中的二维空间位置。将搜索半径指定为 R,我们通过等式获得 c ∈ W l × H l × (2R + 1)2。 1. 具体来说,我们通过设置R等于Wl来计算全局相关性,当R小于Wl时我们计算局部相关性(假设Wl = Hl)。通过将全局相关性和局部相关性应用于我们的网络,我们预测从全局到局部的单应性。
在提取金字塔特征并计算特征相关性之后,我们采用一个简单的回归网络,该网络由三个卷积层和两个完全连接层组成,以预测能够唯一确定单应性的八个坐标偏移。更具体地说,我们三层金字塔的每一层都预测剩余偏移量 ∆i, i=1,2,3。金字塔中的每个特征相关性仅在扭曲的目标特征和参考特征之间计算,而不是在目标特征和参考特征之间计算。这样,金字塔中的每一层只学习预测剩余的单应性偏移,而不是完整的偏移。而 ∆i 可以计算为:
【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography_第2张图片

其中 H4pt 是估计来自参考特征图和扭曲目标特征图的残余偏移的操作。W 使用单应性扭曲目标特征贴图,DLT 将偏移转换为相应的单应性。我们指定 ∆0=0,这意味着所有预测偏移均为0。最终预测偏移量可按如下方式计算:
在这里插入图片描述

然后,通过求解单应矩阵和扭曲输入图像来实现图像配准。
目标函数:我们的大基线深层单应性是以监督方式训练的。根据真实值偏移∆w×h,我们设计了以下目标函数,
【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography_第3张图片

式中,w1、w2 和 w3 表示三层金字塔中各层的权重。

3.2边缘保持变形网络

用全局单应性缝合图像很容易产生伪影。为了消除重影效应,我们设计了一个边缘保持变形网络来学习从边缘到内容的图像拼接变形规则。学习过程与传统方法有很大不同。如图1(d)(e)所示,该学习方法首先以边缘不连续性为代价消除所有伪影,然后学习以边缘保留策略纠正不连续性。
【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography_第4张图片

边缘变形分支: 与RGB图像中丰富的颜色、纹理、内容等信息相比,边缘仅包含图像中物体的轮廓。因此,缝合边缘可能比缝合RGB图像更容易实现。受此启发,我们设计了一种高效的边缘提取方法,并使用边缘变形分支来缝合边缘。灰度图像G的边缘映射E可以通过如下计算相邻像素的差来获得,
在这里插入图片描述

其中 i 和 j 是水平和垂直坐标。采用固定核的卷积层可以实现边缘提取。最后,我们将 Ei,j 剪裁在0和1之间。至于边缘变形分支,我们使用编码器-解码器架构实现它,如图3(中间)所示。在该分支中,每两个卷积层采用最大池或反卷积,卷积核数分别设置为64、64、128、128、256、256、512、512、256、256、128、128、64、64和1。在这些卷积层中,除最后一个卷积层外,所有内核的大小都设置为3×3,激活函数设置为ReLU。在最后一层,我们将内核大小设置为1×1,并将激活函数设置为Sigmoid以生成缝合边缘。此外,为了防止梯度消失问题和训练中的信息不平衡[40],采用跳过连接以相同的分辨率连接低层和高层特征。
【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography_第5张图片

图像变形分支: 我们还设计了一个图像变形分支,在拼接边缘的引导下生成拼接图像。图像变形分支与边缘变形分支具有相似的架构,如图 3(顶部)所示。为了启用边缘保留拼接的图像变形分支,我们使用解码器阶段边缘变形分支学习到的边缘特征来指导学习。具体而言,我们将边缘变形分支中通过反卷积获得的每个特征图与图像变形分支中的相应特征图从低级到高级连接起来。此外,还设计了一个融合块,将边缘变形分支中的最后一个特征图与图像变形分支中的相应特征图相融合,如图 4 所示。
目标函数:与我们的深单应性相似,我们以有监督的方式训练我们的缝合网络。为了使缝合的边缘接近从地面真值图像I提取的地面真值边缘E,采用 L1损失如下:
在这里插入图片描述

其中,W和H定义缝合边的宽度和高度。
受[41]的启发,我们定义了一个内容损失,以鼓励我们的图像变形分支生成感知自然缝合的图像。具体而言,我们使用VGG-19[42]中的第9个卷积层作为图像内容的表示。设 Φj 表示 VGG-19 的第 j 层,我们将内容损失定义如下:
在这里插入图片描述

其中Wj、Hj和Cj分别表示特征地图的宽度、高度和通道号。
考虑到边缘和内容的约束,我们最终得出目标函数如下:
在这里插入图片描述

其中λe和λc分别表示边缘损失和内容损失的平衡因子。

3.3无尺寸拼接

通过用卷积层替换全连接层[43],可以轻松实现无尺寸图像拼接。然而,由于特征相关层,输入图像大小的增加将显着增加内存消耗。以全局相关性为例,当输入图像的大小扩大 λ 倍时,所需的内存可以扩大 λ4 倍。为了更清楚,我们将内存消耗的变化显示如下,
在这里插入图片描述

显然,采用全卷积网络(FCN)并不能解决这个问题。为了减少无尽的内存消耗,我们设计了一种替代方案来实现无尺寸拼接。
当我们调整图像大小时,我们可以按照图5所示的规则更改相应的偏移量。注意到图像大小调整和偏移量调整之间的关系,我们分三步实现了无尺寸图像拼接,如图2所示:1)我们将输入图像从 W × H 调整为 w × h,并保存宽度和高度的比例因子σW,σH。2)我们预测了 w × h 图像的偏移量。3) 我们按照图5所示的规则使用 σW 和 σH 调整偏移量,使其对应于 W×H 的图像。简言之,我们使用图像调整大小和偏移量调整大小之间的关系完成无尺寸单应性估计,而无需额外内存消耗。由于保留边缘的变形模块可以视为FCN,因此我们的深度图像拼接框架可以处理任意大小的输入。

4实验

在这一部分中,我们进行了实验来验证我们的方法的有效性。我们首先在第IV-A节中介绍了我们的数据集和实现细节。然后,在第IV-B节和第IV-C节中分别进行了单应估计和图像拼接的对比实验。最后,消融实验在第IV-D节中进行。

4.1数据集和实现细节

数据集: 深度单应性和深度图像拼接是两个不同的任务,但我们采用相同的数据集将它们一起训练。我们遵循 [35] 的策略从 Microsoft COCO [44] 生成看似无限的图像拼接数据集。我们将此大型基线数据集称为 Stitched MS-COCO,我们在图 6 中展示了一些样本。具体而言,除了图像块中四个顶点的随机扰动 [−ρ,ρ] [29] ,添加随机平移[−τ,τ] [35],以模拟图像拼接中基线大、重叠低的特点。 Stitched MS-COCO的格式可以描述为一个四元组(IReference, ITarget,∆, Label),其中 Ireference 和 Itarget 分别表示参考图像和要拼接的目标图像,Δ 表示这四个的8个坐标偏移量顶点来估计单应性,标签是拼接结果的基本事实。具体来说,当从真实图像 (W × H) 生成四元组时,我们将要输入网络的图像块的大小 (PW × PH ) 设置为 W/2.4 × H/2.4,即最大平移 (τW × τH ) 为 0.5PW ×0.5PH ,最大扰动 (ρW ×ρH ) 为 0.2PW ×0.2PH 。此外,Δ 可以通过添加平移和扰动来计算。我们从 MS-COCO train2014 生成 50,000 个四元组作为训练集,从 test2014 生成 5,000 个四元组作为测试集。
实现细节: 训练过程分为两个步骤:深度单应模块和深度变形模块。我们的深层单应网络由Adam优化器[45]训练,训练时间长达100个时代,学习率呈指数衰减,初始化为10−4,衰减阶跃为12500,衰减率为0.95。根据每个金字塔层对单应预测的不同影响,我们将w1、w2 和 w3 设置为1,0.25和0.1。我们采用了一些数据增强技术来增强光照鲁棒性,例如在训练图像中人为地插入随机亮度偏移。随后,我们在单应网络参数固定的情况下训练拼接模块。除了将最大训练历元设置为25外,训练策略与单应模块相同。平衡因子 λe 和λc 设置为1和2e−6.此外,两个训练步骤的批量编号设置为4和1。我们框架的输入大小 W×H 是任意的,缩放大小 w×h 设置为128×128,这与[29]–[32]一致。该框架的所有组件都在TensorFlow上实现,训练过程在一台NVIDIA RTX 2080 Ti上执行。

4.2和单应估计比较

传统的单应估计根据不同的特征描述符和不同的异常值剔除而有所不同。特征描述符可以是SIFT[46],ORB[47],等等。异常值剔除算法可以是RANSAC[48],MAGSAC[49],等等。由于SIFT和RANSAC的组合可以达到比其他组合更好的精度[30],[31],我们选择这种组合作为传统解决方案的代表进行比较。此外,我们还将我们的方法与深度单应算法进行了比较,包括DHN[29]、UDHN[30]和CA-UDHN[31]。当比较估计的单应与基础真值时,我们采用了[30]中相同的评估指标,即4pt单应RMSE。
Warped MS-COCO: Warped MS-COCO 仅包含四个顶点的随机扰动 [−ρ,ρ],是最广泛认可的用于深度单应性估计的合成数据集。我们首先在这个数据集上进行了一个对比实验,ρ = 32,其中图像块的每个角落最多可以被总图像大小的四分之一扰动。结果如表一所示,其中 I3×3 指的是一个 3×3 单位矩阵作为“无翘曲”单应性供参考。传统单应性解决方案的性能很大程度上依赖于特征匹配的质量,这表明当匹配的特征数量较少或匹配精度较低时,该方法可能会失败。为了避免这个问题,我们将估计的单应性设置为单位矩阵。如表 I 所示,结果分为几个部分来说明每种方法的各种性能概况。具体来说,SIFT 和 RANSAC 的方法在所有测试集中的 60% 中表现良好,而在最差的 40% 中它通常无法捕获足够的匹配特征来估计单应性。 UDHN 和 DHN 实现了相似的性能,偏移量的误差始终控制在几个像素。 CA-UDHN 在小基线场景中实现了最先进的性能,而在大基线场景中其性能接近 I3×3。这种方法行不通,因为它的感知场有限,无法感知两幅图像的对齐信息。我们的大基线深度单应性解决方案始终以很大的优势优于所有比较的深度解决方案和传统方法。
Stitched MS-COCO:在图像拼接中,图像之间的基线通常比扭曲的MS-COCO中的基线大。在这里,现有的单应估计解的性能随着基线的增加而急剧下降,而我们的方法仍然是鲁棒和准确的。我们在缝合的MSCOCO数据集上验证了这一观点,该数据集更具挑战性,因为位移更大,重叠率更低。为了与翘曲的MS-COCO一致,我们在本实验中将EFERNCEANDIT ARGETO调整为128×128。与监督解决方案DHN相比,非监督解决方案UDHN需要图像块周围的额外信息,以防止在训练过程中产生歧义[30],[31]。然而,缝合的MSCOCO仅由图像块和相应的单应偏移组成,这使得UDHN无法在此数据集上进行训练。因此,我们使用在扭曲MS-COCO上训练的模型测试UDHN。结果如图7所示。随着重叠率的降低,所有方法的准确度都在继续下降,其中SIFT-RANSAC、DHN和UDHN的准确度下降速度明显快于我们的方法。重叠率越低,三种方法的性能越接近 I3×3,这表明当重叠率特别低时,这些方法可能无法工作。相反,我们的方法可以保持良好的精度,即使在较低的重叠率,这为图像拼接奠定了坚实的基础。
通过对Warped MS-COCO和Stitched MS-COCO的对比实验,可以观察到我们的大基线深度单应性优于现有的深度解和传统解,尤其是在大基线场景中。通过将特征金字塔和特征相关性相结合,可以从粗到细、从全局到局部精确估计单应性。

4.3和图像拼接算法对比

大多数深度图像拼接算法都是专门为特定任务设计的[2]、[33]、[34],或者不能被视为一个完整的深度学习框架[38]、[39]。因此,将我们的算法与它们进行比较既不公平也不令人信服。相反,我们选择VFISNet[35],一个完整的无视图图像拼接网络,作为深度图像拼接的代表进行比较。由于其输入大小为128×128,我们将其与双三次插值相结合,以生成任意大小的缝合结果。对于传统的方法,我们将我们的方法与四种经典的图像拼接算法进行了比较:全局单应、(SPHP[11]、APAP[10]和鲁棒ELA[15]代码均复现),其中前两种是具有全局变换模型的经典方法,而另两种是具有局部自适应拼接场的方法。在这四种方法中,我们使用SIFT、RANSAC和平均融合来实现全局单应。SPHP、APAP和robust-ELA的结果是通过使用我们的测试实例运行它们的开源代码获得的。这些方法分别在我们的合成图像和真实图像上进行了评估。
合成图像。 我们合成数据集中的拼接结果如图 8 所示。 Global Homography 的拼接结果中存在明显的伪影,因为特征点的不匹配影响了单应性估计的准确性。与 SPHP、APAP 和健壮的 ELA 相比,我们的解决方案在这些经典且令人信服的图像拼接作品中显示出具有竞争力的性能。在深度图像拼接方法中,我们的结果比 VFISNet+Bicubic 的结果在视觉上更清晰。
此外,我们的方法更具鲁棒性。传统方法在很大程度上依赖于特征检测和特征匹配的质量。但是,特征点很容易受到各种环境的影响。我们用全局单应和我们的方法在我们的测试集中测试了1000对图像。实验结果表明,超过30对使用全局单应失败,而所有的工作在我们的方法。图9显示了我们的合成数据集中传统方法的一些失败案例。对于其他基于特征的方法,故障次数可能是全局单应的几倍,因为它们通常对特征点的分布或数量有更严格的要求。例如,在为多结构数据生成假设时,APAP需要更多的特征点来找到有效的点子集[50]。我们的方法的鲁棒性得益于CNN强大的特征提取能力,这已在其他类似领域得到证明,如光流估计[24]–[27]。
真实图像。 除了合成图像之外,我们还在具有明显视差的真实图像上测试了我们的模型。尽管我们的方法仅在没有视差的合成数据集上进行训练,但即使在真实图像中,它也可以产生感知自然的拼接结果,从而有助于具有出色泛化能力的监督深度图像拼接方法。它受益于我们的学习框架,其中第一个模块学习粗略地对齐图像,第二个模块学习生成没有伪影的拼接图像。
如图10所示,前5个示例来自现有传统图像拼接方法中广泛使用的经典图像拼接案例,后5个示例是具有明显视差甚至我们自己拍摄的运动对象的挑战性案例。箭头突出显示工件。由于GPU内存的限制,我们将输入图像的最大大小限制为不超过512×512。从图10所示的结果中,我们可以观察到:
(1) 学习图像拼接方法(VFISNet和ours)可以消除几乎所有的伪影,而传统方法(全局单应、SPHP、APAP、robustela)不能在各种拼接场景中实现。这可以解释为不同的缝合策略。为了消除伪影,传统的解决方案尽量将参考图像和目标图像对齐。然而,缝合质量严重依赖于特征点的数量和分布,无法消除不同场景中的重影效果。对于所提出的深度图像拼接,网络倾向于从参考图像中学习重叠区域,忽略了目标图像,并且没有伪影。虽然这种学习倾向可能会使边缘不连续,但我们的网络将学会修改它,使其看起来平滑自然。
(2) 我们的方法优于现有的深度图像拼接方法。虽然深度解可以消除伪影,但也带来了另一个问题:缝合图像的非重叠区域模糊且不连续。在VFISNet双三次曲线的结果中可以明显地观察到这个问题,而我们的方法通过逐步学习从边缘到内容的图像拼接来缓解这个问题。
(3) 在包含移动对象的场景中,学习方法的性能优于传统方法。图10的第7行示出了包含移动的人的一对图像。我们可以看到,全局单应、SPHP、APAP和鲁棒ELA不能处理这个移动的人,而学习方法可以成功地处理它。

4.4消融实验

我们进行消融实验以验证我们提出的框架中每个部分的必要性。
特征金字塔。 特征金字塔在我们的方法中用作多尺度特征提取器。为了减少参数,我们将每个卷积层的内核大小设置为 3 × 3。但是,3 × 3 内核的感受野明显受限。为了缓解这种矛盾,采用特征金字塔在不同金字塔级别上提取多尺度特征,并具有固定的内核大小。我们使用我们的合成数据集在单应性估计任务中评估特征金字塔的重要性。正如我们在图 11 中看到的,我们完整的金字塔模型比一层或两层模型的误差要小得多。【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography_第6张图片

特征相关。 特征相关层在我们的方法中起着特征匹配的作用。与其他通过学习卷积滤波器匹配特征的深度单应性估计 [29]-[32] 不同,我们的特征相关层通过充分利用卷积层提取的特征来匹配特征。除此之外,我们的全局到本地策略确保我们能够匹配所有特征图的特征。为了验证特征相关性的影响,我们尝试移除特征相关层,其中全局相关性和局部相关性都被消融了。结果如图 11 所示,其中 RMSE 在没有特征相关性的情况下大幅增加,尤其是在低重叠率的情况下。
边缘变形分支。为了验证边缘变形分支的有效性,我们对真实图像进行了烧蚀实验。我们在没有边缘变形分支的情况下重新训练变形模块。结果如图12所示,我们可以观察到:【论文精读】Learning Edge-Preserved Image Stitching from Large-Baseline Deep Homography_第7张图片

(1)无论有没有边缘变形分支,网络都可以学习消除重叠区域的伪影。
(2)消融该分支后,拼接图像的边缘不是不连续的,如图 12 (a) 所示。通过这个分支(图 12 (b)),网络进一步学习平滑不连续的边缘,有助于视觉上令人愉悦和边缘连续的缝合结果。

5结论

本文提出了一种新的深度图像拼接算法,该算法可以将任意视图的图像拼接成感知自然的图像。首先,提出了一个大基线深度单应网络来实现单应估计和图像配准,它在很大程度上优于现有的深度解和传统解。然后,我们提出了一个边缘保持变形模块,用于从扭曲的图像中学习图像拼接的变形规则。此外,我们还采用了一些方案,以使我们的网络能够在全连接层不可避免的情况下实现自由尺寸拼接。实验表明,我们的方法优于现有的学习方法,并显示出与最先进的传统方法具有竞争力的缝合性能。此外,作为一种仅在合成数据集中训练的学习方法,我们的方法具有良好的泛化能力,易于扩展到其他真实图像中。

二、论文总结

你可能感兴趣的:(图像拼接系列论文,机器学习,深度学习,windows)