【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)

一、论文简述

1. 第一作者:Gangwei Xu,Junda Cheng

2. 发表年份:2022

3. 发表期刊:CVPR

4. 关键词:端到端训练、代价体、注意力机制、3D聚合、回归

5. 探索动机:相关体和连接体的数据分布和特征有很大不同,前者通过点积得到相似度测体,后者是一元特征的连接。简单地连接两个体并通过3D卷积对其进行正则化很难充分发挥两个体的优势。因此,GwcNet仍然需要28个3D卷积来进行代价聚合。

6. 工作目标:连接体包含丰富但冗余的内容信息,度量左右图像特征相似性的相关体可以隐含地反映图像中相邻像素之间的关系,即属于同一类的相邻像素往往具有密切的相似性。这表明利用能够编码像素关系先验的相关体有利于连接体显着抑制其冗余信息,同时在连接体中保持足够用于匹配的信息。如何结合以上特点构建一种更有效的代价体形式,可以显着减轻代价聚合的负担,同时达到最好的准确性?

7. 核心思想:注意力连接体(ACV)是全新的代价体构建方法,该方法从相关线索中生成注意力权重,以抑制冗余信息并增强连接体中的匹配相关信息。还提出了多级自适应块匹配(MAPM),得到更好的注意力权重,以提升在不同视差甚至无纹理区域时匹配代价的独特性。ACV是一种通用的代价体表示,它可以无缝嵌入到大多数立体匹配网络中,生成的网络可以使用更轻体级的聚合网络,同时实现更高的精度。

8. 实现方法:

  • ACV的构建过程包括三个步骤:初始连接体积构建、注意力权重生成和注意力过滤。利用生成的注意力权重来过滤初始连接量可以抑制冗余信息并增强匹配相关信息,从而获得注意力连接体。
  • ACVNet由四个模块组成:一元特征提取、注意力连接体构建、代价聚合和视差预测。

9. 实验结果:应用我们的方法后PSMNet和GwcNet可以分别实现额外42%和39%的精度提升。ACV-Net在KITTI 2012和KITTI 2015基准测试中排名第二,在Scene Flow上排名第二, 在ETH3D基准(见图1)排名第三。ACVNet是在上述四个数据集中唯一同时排名前3的方法,展示了其对各种场景良好的泛化能力,在KITTI基准测试的前10种方法中ACVNet是最快的。同时,实时版本的ACVNet-Fast,它优于最先进的实时方法。

10.论文及代码下载:​​​​​​https://openaccess.thecvf.com/content/CVPR2022/papers/Xu_Attention_Concatenation_Volume_for_Accurate_and_Efficient_Stereo_Matching_CVPR_2022_paper.pdf

GitHub - gangweiX/ACVNet: ACVNet: Attention Concatenation Volume for Accurate and Efficient Stereo Matching (CVPR 2022)

二、论文翻译

Attention Concatenation Volume for Accurate and Efficient Stereo Matching

摘要

立体匹配是许多视觉和机器人应用的基本组成部分。信息丰富且简洁的代价体表示对于高精度和高效的立体匹配至关重要。在本文中,我们提出了一种全新的代价体构建方法,该方法从相关线索中生成注意力权重,以抑制冗余信息并增强连接体中的匹配相关信息。为了得到更好的注意力权重,我们提出了多级自适应块匹配(MAPM),以提升在不同视差甚至无纹理区域时匹配代价的独特性。我们提出的代价体称为注意力连接体(ACV),它可以无缝嵌入到大多数立体匹配网络中,生成的网络可以使用更轻体级的聚合网络,同时实现更高的精度,例如,对于GwcNet仅使用聚合网络的1/25的参数就可以实现更高的精度。此外,我们基于ACV设计了一个高度准确的网络 (ACVNet),在多个基准测试中它实现了最好的性能。

1. 介绍

立体匹配在一对校正立体图像中的像素之间建立密集对应关系,是许多应用(如机器人、增强现实和自动驾驶)的关键技术。尽管在该领域进行了广泛的研究,但如何同时实现很好的推断精度和效率对于实际应用至关重要,仍然具有挑战性。

近期,卷积神经网络在该领域表现出巨大的潜力。最先进的CNN立体模型通常由四个步骤组成,即特征提取、代价体构建、代价聚合和视差回归。为左图像素和可能对应的右图像素提供初始相似性度量的代价体是立体匹配的关键步骤。从该步骤得到信息丰富且简洁的代价体表示对于最终的准确性和计算复杂性至关重要。基于学习的方法探索了不同的代价体表示。DispNetC计算左右特征图之间的单通道全相关体。这种全相关体为度量相似性提供了一种有效的方法,但它会丢失很多内容信息。GC-Net通过在所有视差层级上连接左右特征图来构建4D连接体,以提供丰富的内容信息。然而,连接体完全忽视了相似性度量,因此需要大量的3D卷积来进行代价聚合,以便从头开始学习相似性度量。为了解决上述缺点,GwcNet将组相关体与小型简约的连接体连接起来,在最终的4D代价体中编码匹配和内容信息。但是,相关体和连接体的数据分布和特征有很大不同,前者通过点积得到相似度度量,后者是一元特征的连接。简单地连接两个体并通过3D卷积对其进行正则化很难充分发挥两个体的优势。因此,GwcNet仍然需要28个3D卷积来进行代价聚合。

这项工作目的是探索一种更高效且有效的代价体形式,可以显着减轻代价聚合的负担,同时达到最先进的精度。我们基于两个关键观察来构建我们的模型:首先,连接体包含丰富但冗余的内容信息;其次,度量左右图像特征相似性的相关体可以隐含地反映图像中相邻像素之间的关系,即属于同一类的相邻像素往往具有密切的相似性。这表明利用能够编码像素关系先验的相关体有利于连接体显着抑制其冗余信息,同时在连接体中保持足够用于匹配的信息。

考虑到这些客观事实,我们提出了一种注意力连接体(ACV),它利用相关体来生成注意力权重来过滤连接体(见图2)。为了获得可靠的相关体,我们提出了一种全新的多级自适应块匹配方法来产生更准确的相似性度量,该方法采用具有自适应权重的多尺寸块在不同特征层级上匹配像素。ACV可以实现更高的准确率,同时显着减轻代价聚合的负担。实验结果表明,用我们的ACV替换GwcNet的结合体之后,与使用28个3D卷积进行代价聚合的GwcNet相比,仅用4个3D卷积进行代价聚合就可以取得更好的精度。我们的ACV是一种通用的代价体表示,可以无缝加入到各种3D CNN立体模型中以提高性能。结果表明,应用我们的方法后,PSMNet和GwcNet可以分别实现额外42%和39%的精度提升。

基于所提出的ACV的优势,我们设计了一个精确的立体匹配网络ACVNet,在所有已发布方法中,在KITTI 2012和KITTI 2015基准测试中排名第二,在Scene Flow上排名第二, 在ETH3D基准(见图1)排名第三。值得注意的是, ACVNet是在上述四个数据集中唯一同时排名前3的方法,展示了其对各种场景良好的泛化能力。关于推断速度,在KITTI基准测试的前10种方法中ACVNet是最快的。同时,我们还设计了一个实时版本的ACVNet,名为ACVNet-Fast,它优于最先进的实时方法。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第1张图片

图1. KITTI 2012排行榜上的Out-Noc误差与运行时间以及KITTI 2015排行榜上的D1-all误差与运行时间。与其他最先进的立体模型相比,我们用红星表示的ACVNet实现了具有竞争力的性能。

2. 相关工作

最近,基于CNN的立体模型在大多数标准基准上都取得了令人瞩目的表现。他们中的大多数致力于提高代价体构建和代价聚合的精度和效率,这是立体匹配的两个关键步骤。

代价体构建。现有的代价体表示可以大致分为三种类型:相关体、连接体和将两个体连接起来的结合体。DispNetC利用相关层直接度量左右图像特征的相似性,形成每个视差层级的单通道代价体。然后,用2D卷积聚合上下文信息。这种全相关体需要很少内存和计算复杂度,但编码信息太有限(即通道维度中丢失太多内容信息),而无法达到令人满意的精度。GC-Net使用连接体,连接左右CNN特征以形成所有视差的4D代价体。这种4D连接体保留了来自所有特征通道的丰富的内容信息,因此在准确性方面优于相关体。然而,由于连接体没有明确地编码相似性度量,它需要一个深度的3D卷积堆叠从头开始聚合所有视差的代价。为了克服上述缺点,GwcNet提出了组相关体,并将其与小型的连接体连接起来形成结合体,以结合两个体的优点。然而,直接连接两种类型的体而不考虑它们各自的特征不会充分利用两种体的互补优点的。因此GwcNet仍然需要沙漏结构中的深层堆叠3D卷积进行代价聚合。

在4D组合代价体之后,级联代价体通过以粗糙到精细的方式构建代价体金字塔,进一步减少了代价体构建的内存和计算复杂度,以逐步缩小目标视差范围,并改进深度图。然而,这种从粗糙到精细的策略不可避免地会累积误差,即前一阶段的误差在后一阶段很难得到补偿,在某些情况下反而会产生较大的误差。而我们的ACV只调整不同视差的权重。因此,尽管注意力权重不完美,但包含丰富上下文的连接体可以通过后续的聚合网络帮助修正错误。

代价聚合。此步骤的目标是聚合初始代价体中的上下文信息以得出准确的相似性度量。现有的许多方法使用深层3D CNN从代价体中学习有效的相似性函数。但是,对于时间受限的应用来说,计算消耗和内存消耗都太高了。为了降低复杂度,AANet提出了一种尺度内和尺度间代价聚合算法来替代传统的3D卷积,该算法可以实现非常快的推断速度,但同时有明显的精度下降。GANet还尝试用两个引导聚合层替换3D卷积,使用与空间相关的3D聚合实现了更高的精度,但两个引导聚合层需要更多的聚合时间。甚至,他们最终的模型仍然使用15个3D卷积。

代价体构建和聚合是两个紧密耦合的模块,它们共同决定立体匹配网络的精度和效率。在这项工作中,我们提出了一种高效但信息量大的代价体表示,称为注意力连接体,通过使用相关体中编码的相似性信息来正则化连接体,因此只需要一个轻体级聚合网络即可实现全面的高效率和精度。

3. 方法

3.1. 注意力连接体

注意力连接体(ACV)的构建过程包括三个步骤:初始连接体构建、注意力权重生成和注意力过滤。

初始连接体构建。给定大小为H×W×3的输入立体图像对,对于每个图像,我们分别通过CNN特征提取获得左右图像的一元特征图fl和fr。fl (fr)的特征图大小为Nc×H/4×W/4 (Nc=32)。然后通过在每个视差层级上将fl和fr连接起来形成初始连接体,

连接体相应的大小为2Nc×D/4×H/4×W/4,D表示视差的最大值。

注意力权重生成。注意力权重目的是过滤初始连接体,以突出有用信息并抑制不相关信息。为此,我们通过从一对立体图像之间的相关中提取几何信息来生成注意力权重。传统的相关体是通过计算像素到像素的相似性获得的,由于缺乏足够的匹配线索,因此在无纹理区域相似性变得很不可靠。为了解决这个问题,我们通过多级自适应块匹配(MAPM)提出了一种更鲁棒的相关体构建方法。图3说明了MAPM的关键思想。我们从特征提取模块中获得了三个不同层级上的特征图l1、l2和l3,l1、l2和l3的通道数分别为64、128和128。对于特定层级的每个像素,我们使用具有预定义大小和自适应学习权重空洞块来计算匹配代价。通过控制膨胀率,我们确保块的范围与特征图层级相关,同时在中心像素的相似性计算中保持相同的像素数。两个对应像素的相似度是块中对应像素之间相关性的加权和(在图3中用红色和橙色表示)

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第2张图片

图3. 多级自适应块匹配。卷积核大小为3×3和不同膨胀率的Atrous块可以自适应地学习不同层级的权重。(a)、(b)和(c)分别是三级特征图,l1、l2和l3。利用大尺寸块包含更多上下文信息,以更好地区分高层级特征图的不同视差的匹配代价。

我们采用GwcNet的分组思想将特征分组并逐组计算相关图。l1、l2和l3三个级别的特征图连接起来形成Nf通道一元特征图(Nf =320)。我们将Nf个通道平均分为Ng组(Ng=40),因此前8组来自l1,中间16组来自l2,最后16组来自l3。不同层级的特征图不会相互干扰。我们将第g个特征组表示为flg、frg,多级块匹配体Cpatch计算为:

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第3张图片

其中Clk patch (k∈(1, 2, 3))表示不同特征级别k的匹配代价。〈·,·〉是内积,(x, y)表示像素的位置,d表示不同的视差层次。Ωk=(i, j) (i, j∈(−k, 0, k))是一个九点坐标集,定义了在k层特征图上块的范围(在图3用红色和橙色像素表示(k∈(1, 2, 3))。ωijk表示在k层特征图上的块中一个像素(i, j)的权重,并在训练过程中自适应地学习。通过连接所有层级的匹配代价Cl patch k (k∈(1, 2, 3)形成最终的多级块匹配体,

我们将推导出的多级块匹配体表示为C patch∈R Ng×D/4×H/4×W/4,然后我们使用两个3D卷积和一个3D沙漏网络来正则化C patch,然后使用另一个卷积层将通道压缩为1并获得注意力权重,即A∈R 1×D/4×H/4×W/4。

为了获得不同视差的准确的注意力权重来过滤初始连接体,我们使用真实的视差来监督A。具体来说,我们采用与GC-Net相同的soft argmin函数(在等式5中)从A来获得视差估计datt。我们计算datt和视差真实值之间的平滑L1 损失,指导网络的学习过程以获得准确的注意力权重A。

注意力过滤。在获得注意力权重A后,我们用它来消除初始连接体中的冗余信息,进而增强表示能力。通道i处的注意力连接体C ACV计算为:

其中⊙表示逐元素乘积,注意力权重A用于初始连接体的所有通道。

3.2. ACVNet结构

基于ACV,我们设计了一个准确高效的端到端立体匹配网络,命名为 ACVNet。图2展示了ACVNet的结构,它由一元特征提取、注意力连接体构建、代价聚合和视差预测四个模块组成。下面,我们详细介绍各个模块。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第4张图片

图2. 我们提出的ACVNet的结构。ACV的构建过程包括三个步骤:初始连接体构建、注意力权重生成和注意力过滤。利用生成的注意力权重来过滤初始连接量可以抑制冗余信息并增强匹配相关信息,从而获得注意力连接体。

特征提取。我们采用了类似于[7]中三层ResNet结构。对于前三层,使用步长为2、1和1且卷积核为3×3的三个卷积对输入图像进行下采样。然后,接着使用16个残差层以产生1/4分辨率的一元特征,即l1, 接着6个具有更多通道的残差层,以获得更大的感受野和语义信息,即l2和l3。最后,将所有1/4分辨率的特征图(l1、l2、l3)连接起来,形成通道数为320的特征图,用于生成注意力权重。然后用两个卷积将320通道特征图压缩为32通道特征图,以构建初始连接体,分别表示为fl和fr。

注意连接体构建。该模块用通道数为320的特征图生成注意力权重,并用fl和fr构建初始连接体。然后使用注意力权重过滤初始连接体以产生所有视差的4D代价体,如第3.1节所述。

代价聚合。我们使用预沙漏模块处理ACV,该模块由具有批归一化和ReLU 的四个3D卷积和两个堆叠的3D沙漏网络组成,3D沙漏网络主要由编码器-解码器结构中堆叠的四个3D卷积和两个3D反卷积组成,见图2。

视差预测。在代价聚合中得到三个输出,见图2。对于每个输出,延续GwcNet,使用两个3D卷积输出一个通道为1的4D卷积,然后我们将其上采样并在视差维度通过softmax函数转换为概率体。最后,通过soft argmin函数计算预测值,

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第5张图片

其中k表示视差层级,pk表示相应的概率。三个预测的视差图表示为d0, d1, d2。

3.3. ACVNet-Fast

我们还构建了一个实时版本的ACVNet,命名为ACVNet-Fast。ACVNet-Fast 采用与ACVNet相同的特征提取,但层数和视差预测模块更少。图4展示了ACVNet-Fast的结构,ACVNet-Fast和ACVNet的主要区别在于ACV的构建和聚合。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第6张图片

4. ACVNet-Fast的结构。

具体来说,我们基于1/8分辨率特征图构建多级块匹配体,然后使用两个 3D 卷积和一个3D沙漏网络对其正则化,以获得1/8分辨率的注意力权重,即Af∈R 1×D /8×H/8×W/8。为了在不牺牲太多精度的情况下实现实时性能,我们通过在预测视差df att∈R H/2×W/2附近采样h(h=6)假设来缩小视差搜索空间,该视差是通过以1/2分辨率上采样注意力权重获得的。这些假设Dhyp∈R h×H/2×W/2在(df att-h/2, df att+h/2) 的范围内均匀采样。根据这些假设,我们构造稀疏的连接体和采样注意力权重以获得稀疏的注意力权重。然后我们通过等式4构造稀疏注意力连接体Cs ACV∈R 2Ncf×6×H/2×W/2。

对于代价聚合,我们只使用两个3D卷积和一个3D沙漏网络来正则化Cs ACV。由于Cs ACV中包含非常有效的匹配信息,因此只需要一个非常轻体级的聚合网络。通过这种方式,我们实现了精度和速度很好的平衡。

3.4. 损失函数

对于ACVNet,最终损失由下式给出,

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第7张图片

其中datt是通过第3.1节中的注意力权重获得的。λatt表示预测datt的系数,λi表示第i个预测视差的系数,dgt表示真实视差图。对于ACVNetFast,最终损失由下式给出,

其中df是ACVNet-Fast的最终输出。SmoothL1是平滑L1损失。

4. 实验

在本节中,我们进行消融实验以探索ACV的不同设计,分析计算复杂性并证明ACV的通用性。最后,我们在多个数据集上评估提出的模型,例如Scene Flow、KITTI和ETH3D。

4.1. 数据集和评估指标

Scene Flow是合成立体数据集的集合,提供35454个训练图像对和4370个测试图像对,分辨率为960×540。该数据集提供密集视差图作为真实值。对于Scene Flow数据集,我们使用了广泛使用的评估指标端点误差 (EPE) 和视差离群值百分比D1,离群值定义为视差误差大于max(3px, 0.05d∗)的像素,其中d∗表示真实视差。

KITTI包括KITTI 2012和KITTI 2015KITTI 2012和2015是真实世界驾驶场景的数据集。KITTI 2012包含194个训练立体图像对和195个测试图像对,而KITTI 2015包含200个训练立体图像对和200个测试图像对。这两个数据集都提供了使用LIDAR获得的稀疏真实视差。KITTI 2015的分辨率为1242×375,KITTI 2012的分辨率为1226×370。

ETH3D是来自室内和室外场景的灰度立体对的集合。它包含27个训练和20个测试图像对,带有稀疏标记的真实值。它的视差范围正好在0-64的范围内。公布误差大于2个像素(bad 2.0)和1个像素(bad 1.0)的像素百分比。

4.2. 实施细节

我们使用PyTorch实现我们的方法,并使用NVIDIA RTX 3090 GPU进行实验。对于所有实验,我们使用Adam优化器,β1 = 0.9,β2 = 0.999。对于ACVNet,四个输出的系数设置为λatt=0.5, λ0=0.5, λ1=0.7, λ2=1.0。对于ACVNet-Fast,两个输出的系数设置为λf att=0.5,λf=1.0。我们首先将注意力权重生成网络在Scene Flow上训练64个epoch,然后将剩余的网络再训练64个epoch。最后,我们训练完整网络64个epoch。初始学习率设置为0.001,在epoch为20、32、40、48和56之后下降2倍。对于KITTI,我们将预训练的Scene Flow模型在混合的KITTI 2012和KITTI 2015训练集上微调500个epoch。然后分别在KITTI 2012/2015 训练集上训练另外500 个epoch。初始学习率为0.001,在第300个epoch时降低一半。

4.3. 消融实验

多级自适应块匹配。我们提出的多级自适应块匹配是一种通用方法,可以应用于大多数现有的基于相关体的立体模型。在本研究中,我们以GwcNet作为基准,将基于原始点匹配的相关构造方法替换为普通的块匹配和我们的多级自适应块匹配,得到三种比较方法,即表1中的GwcNet、GwcNet- p和GwcNet-mp。普通块匹配使用固定大小的块 (3×3) ,块中所有像素的权重相等。结果表明,与原始GwcNet相比,GwcNet-p只能取得轻微的改进,但多级块匹配有非常显着的提高。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第8张图片

表1. ACV在Scene Flow上的消融实验。p表示具有相同膨胀率(rate=1)和相等权重的普通块。mp表示多级自适应块(图3),对于三级特征图它有不同的膨胀率和自适应权重。

注意力连接体。我们在Scene Flow上评估了构建ACV的不同策略。我们仍然以GwcNet作为我们的基准,用我们的ACV替换它的结合体,并保持后面的聚合和视差预测模块相同。图5展示了构建ACV的三种不同方式。图5(a)直接在通道维度上平均了多级块匹配体,并将其与连接体相乘,表示为GwcNet-mp-att。如表1所示,仅仅这种简单的方法就可以显着提高准确性。显然,在使用多级块匹配体过滤连接体时,多级块匹配体的准确性至关重要,并且很大程度上影响网络的最终性能,因此我们使用3D卷积的沙漏结构对其进行聚合,即表示为 GwcNet-mp-att-hg,如图5(b)所示。表1中的结果表明,与GwcNet-mp-att相比,GwcNet-mpatt-hg将D1和EPE分别提高了7.9%和8.7%。为了在训练过程中进一步明确约束多级块匹配体,我们使用softmax和soft argmin函数进行回归以获得预测的视差,并使用真实值来监督视差,表示为GwcNet-mp-atthg-s,如图5(c)。与GwcNetmp-att-hg相比,GwcNet-mp-att-hg-s在推断阶段没有增加计算代价的情况下,D1和EPE分别提高了17.1%和11.5%。总体而言,通过用我们的ACV替换GwcNet中的结合体,与GwcNet相比,我们的GwcNet-mp-att-hg-s模型的D1和EPE分别提高了42.8%和39.5%,证明了ACV的有效性。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第9张图片

图5. 构建注意力连接体 (ACV) 的不同方法的图示。

4.4. 计算复杂度分析

一个理想的代价体应该需要很少的参数用于后续的聚合网络,同时能够实现令人满意的视差预测精度。在本小节中,我们根据聚合网络和相应的精度所需要的参数来分析ACV的复杂性。我们使用GwcNet作为基准。在最初的GwcNet中,它使用三个堆叠的沙漏网络进行代价聚合。我们首先用我们的ACV替换原始 GwcNet中的组合体,其他部分保持不变。对应的模型在表2中表示为Gwc-acv-3。结果表明,与GwcNet相比,Gwc-acv-3将D1和EPE分别提高42.8%和39.5%。我们进一步将沙漏网络的数量从3个减少到2个、1个和0个,相应的派生模型表示为Gwc-acv-2、Gwc-acv-1和Gwc-acv-0。表2中的结果表明,随着聚合网络中参数数量的减少,预测误差略有增加。更重要的是,使用我们的ACV后,没有任何沙漏网络的立体模型,即Gwcacv-0,甚至优于GwcNet。为了实现高精度和高效率,我们选择Gwc-acv-2作为我们的最终模型,我们将其表示为ACVNet。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第10张图片

表2. Scene Flow上计算复杂度和精度的分析。

4.5. ACV的通用性和优越性

为了证明我们ACV的通用性,我们将ACV加入到三个最先进的模型中,即GwcNet、PSMNet和CFNet,并比较了使用我们的ACV后的模型和原始模型的性能。具体来说,我们将应用我们方法后的模型分别表示为GwcNet-ACV、PSMNet-ACV和CFNet-ACV,并分别进行比较。如表3所示,GwcNet的EPE降低了39.5%,PSMNet降低了42.2%,CFNet降低了14.4%。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第11张图片

表3.在Scene Flow上ACV通用性的研究。

我们通过实验将ACV与级联方法进行比较。我们将[6]提出的两阶段级联方法应用于GwcNet,相应的模型表示为Gwc-CAS。如表4所示,我们的ACV优于级联方法。我们认为ACV优于级联方法的性能是因为后者可能会遭受不可逆的累积误差,因为它会直接丢弃超出预测范围的视差。然而,我们的ACV只调整不同视差的权重。因此,尽管注意力权重不完善,但包含丰富上下文的连接体在一定程度上可以通过之后的聚合网络帮助修正错误。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第12张图片

表 4. ACV和级联体方法的比较。

4.6. ACVNet性能

Scene Flow如表5所示,我们的方法取得了最好的表现。我们可以观察到, ACVNet将EPE准确率提高了38.4%,同时与先进方法LEAStereo相比具有更快的推断速度,即0.2s对0.3s。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第13张图片

表 5. Scene Flow和 ETH3D的定量评估。粗体:最佳,下划线:次佳。

KITTI如表7和图1所示,我们的ACVNet优于大多数现有已发布的方法,在KITTI 2012和KITTI 2015排行榜中排名第二。值得一提的是,ACVNet也是KITTI基准排行榜前10种方法中最快的。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第14张图片

表7. KITTI 2012和KITTI 2015的定量评估。对于KITTI 2012,我们公布了非遮挡(x-noc)和所有区域 (x-all)中误差大于x视差的像素百分比,以及EPE中非遮挡 (EPE-noc)和所有像素(EPE-all)。对于KITTI 2015,我们公布了背景区域 (bg)、前景区域 (fg)和所有区域的D1指标。粗体:最佳,下划线:次佳。

ETH3D如表5所示,我们的ACVNet优于最先进的方法HITNet和CFNet。

综上所述,ACVNet在上述四个数据集上表现出色,值得一提的是,ACVNet也是唯一一个在四个数据集中同时排在前五的方法,这表示了我们的方法对各种场景具有良好泛化能力。当前最好的方法在某些特定场景下总是表现不佳,例如在Scene Flow上LEAStereo的准确性较差;在现实世界场景(KITTI和ETH3D)中HITNet的性能远不如ACVNet。

4.7. ACVNet-Fast性能

为了证明ACVNet-Fast的出色性能,我们在Scene Flow和KITTI基准上将其与当前经典的实时网络进行了比较。如表6所示,我们的方法在推断时间和准确性之间取得了很好的平衡。

【论文简述及翻译】ACVNet:Attention Concatenation Volume for Accurate and Efficient Stereo Matching(CVPR 2022)_第15张图片

表6. 在场景流和KITTI上ACVNet-Fast的性能。

5. 结论

在本文中,我们提出了一种新的代价体,称为注意力连接体(ACV),它基于相似性度量生成注意力权重以过滤连接体。我们还提出了一种全新的多级自适应块匹配方法,即使在无纹理区域也能产生准确的相似性度量。基于ACV,我们设计了一个高精度网络(ACVNet),在KITTI 2012& 2015、Scene Flow和ETH3D四个公共基准测试中表现出优异的性能。

你可能感兴趣的:(立体匹配,图像处理,分类,cnn,神经网络,论文阅读)