目录
摘要
1. 介绍
LiDAR vs Stereo:
Why high-res?
Challenges:
Approach:
Data:
贡献:
3.方法
1.Hierarchical Stereo Matching (HSM) Network
设计原则:
特征金字塔编码器
Feature Volumes
特征卷解码器
多尺度的损失函数
3.2 立体数据增强
y-disparity augmentation:
不对称增色度
不对称掩码
3.3.高分辨率的数据集
4.实验
结论
提出问题:
探索了高分辨率图像上的实时立体匹配问题。由于内存限制或速度限制,许多最先进的(SOTA)方法很难处理高分辨率的图像。
方法:
提出了一个端到端框架,它在一个粗到细的层次结构上增量地搜索对应关系。由于高分辨率立体数据集比较罕见,我们引入了一个具有高分辨率立体数据对的数据集来进行训练和评估。
激光雷达是户外深度传感器的常见选择。然而,激光雷达在空间密度上是有限的,特别是对于光传感。在交叉发生之前,只有这么多的光束和探测器可以聚集在一起。原则上,人们可以通过缓慢的扫描来增加密度,但这就引入了延迟和滚动快门效果,这对动态场景可能是毁灭性的。传感器测量的密度对于识别范围内的物体和分割物体至关重要。高分辨率、global shutter stereo有潜力解决这些限制。
人们普遍认为,立体声对于远程深度传感[24]并不可靠:
深度误差随深度呈二次增加,这意味着立体声将提供不稳定的远场景深估计。但这对于中等速度的导航也很重要(参见停止距离轮廓的补充)。虽然人们可以尝试调整其他因素来减少误差,但高分辨率(大f)似乎是最有前途的途径:CMOS和CCD传感器技术的创新允许为高分辨率相机提供高质量市场的低成本解决方案。
虽然高分辨率立体声匹配是可取的,但有几个实际的挑战:基于优化的立体声方法是准确的,但在运行时间和内存开销方面都不能扩展到高分辨率。
我们提出了一个端到端框架,通过层次结构有效地搜索对应关系。我们的模型以粗到细的方式解释,灵感来自于立体和光流[1,18,39]的通信估计的经典工作。粗分辨率的图像被用来估计大的差异,然后被用来偏置/预扭曲的细尺度视差估计。虽然效率相当高,但粗到细的方法很难与在粗糙分辨率[3]下“消失”的薄结构相匹配。相反,我们的模型计算了一个高分辨率的编码器特征,用粗到细(解码器)特征卷处理,分辨率逐渐增加。至关重要的是,初始粗体积可以在整个管道完成之前产生大视差物体的粗略估计。这使得我们的网络能够按需生成近距离对象的报告,这对快速的实时导航至关重要。
高分辨率立体工作是缺乏培训和评估的基准数据。我们收集了两个高分辨率校正立体声对的数据集,包括来自自动驾驶车辆的真实数据和来自城市模拟器的合成数据。有趣的是,我们表明,合成数据是训练深度立体网络的宝贵工具,特别是对于高分辨率的视差估计。在高分辨率下,真实的校正和校正变得具有挑战性,通过数据增强引入真实的校准误差在训练过程中非常重要。
1.我们提出了一种层次结构的立体匹配架构,它可以扩展到高分辨率的图像,同时能够实时执行按需计算。
2.我们收集了两个高分辨率的立体声数据集,用于训练和测试。
3.我们引入了一套立体增强技术,以提高模型对校准误差、曝光变化和相机遮挡的鲁棒性。
4.我们在Middlebury和KITTI上实现了SOTA精度,同时运行速度非常快。
粗到细的设计是关键,
1.利用空间金字塔(SPP),特征感受野增大。
2.视差的维度上3D卷积,可以有效处理高分辨率的成本量
3.多尺度的损失函数
我们使用一个特征金字塔编码器来提取从粗到细匹配的描述符。为了在维护粗尺度信息的同时有效地提取具有不同细节级别的特征,我们采用了一种具有跳过连接的编码器-解码器架构。我们的特征编码器由具有4个残余块的自定义ResNet主干网组成,然后是4个SPP层(同样,在有限的计算和内存的情况下增大感受野)。
构造四维特征体积:通道C、高度H、宽度W和视差D。
首先,让我们将一个conv3D“块”定义为带有残余连接的两个3D卷积。
1)特征卷由6个conv3D块过滤。
2)作为特征提取的情况,我们应用体积金字塔池(我们将SPP扩展到特征卷)来生成 捕获高分辨率输入的充分的全局上下文特征。
3a)输出trilinearly-upsampled到更高的空间(和视差)分辨率,以便它可以与金字塔中的下一个四维特征体积融合。
3b)为了报告根据当前比例尺度的按需视差,将使用另一个conv3D块处理输出,以生成三维输出成本卷。此成本卷可以在计算金字塔下游的后续特征卷之前直接报告差异。
不同的尺度进行预测
L1表示最细水平上的损失,L4是最粗水平上的损失。
大多数传统立体系统对目标和参考视图图像对做了几个假设,
1)这两种图像都处于相同的成像条件下,
2)相机都已校正
3) 没有遮挡,每个像素都可以找到一个匹配项。
然而,这些假设在现实场景中并不总是成立的。我们提出了3种非对称增强技术。
针对相机标定。大多数立体声系统假设相机是完美校准的,对应关系位于相同的水平扫描线上。完美地校正高分辨率的图像对是很困难的,特别是在温度变化较大和振动的情况下。这些错误会使得地面真实视差具有y方向分量。层次匹配通过在粗尺度上的偏置匹配来部分缓解了这一问题,其中校准误差没有那么严重。另一种方法是迫使网络在训练时间内学习对这些错误的鲁棒性。
为了模拟真实的校准误差,我们根据校准误差矩阵扭曲目标视图图像。为了进一步约束扭曲图像的空间,我们将H限制为刚性二维变换
立体相机在不同的照明和曝光条件下是不可避免的,例如,一台相机在阴影下。因此,出于安全考虑,使算法的鲁棒性对这种成像不对称性是至关重要的。通过对参考图像和目标图像应用不同的色度增强,希望我们的特征编码网络可以学习到对这种成像变体具有鲁棒性的表示。
大多数立体匹配算法假设对应关系总是在目标视图中存在。然而,当遮挡发生或对应关系很难找到时,这个假设并不成立。另一方面,单眼线索,如形状和连续性,以及上下文信息,都被发现有助于估计差异。为了迫使模型更多地依赖于上下文线索,我们应用了非对称掩蔽,它用整个图像的平均RGB值随机替换目标视图中的矩形区域。
在层次设计、高分辨率合成数据集和非对称增强技术的帮助下,我们的模型在Middlebury-v3 和KITTI-15上实现了SOTA性能,同时运行速度快得多。我们还能够在不同的尺度上进行按需视差估计,使实时对近距离物体进行精确的深度预测成为可能。