论文翻译(上):CNN-SLAM_ Real-Time Dense Monocular SLAM With Learned Depth Prediction

原文见我上一篇博客

摘要

随着卷积神经网络(CNN)在深度预测中取得了越来越多的进展,本文探讨了如何将卷积神经网络的深度预测用于高精度稠密单目SLAM系统中。我们提出了一种方法,CNN预测的稠密深度图与从直接单目SLAM获得的深度测量值自然融合在一起。我们的融合方案在单目SLAM方法效果不佳的图像位置进行深度预测具有优势,例如低纹理区域,反之亦然。我们演示了使用深度预测来估计重建的绝对尺度,克服了单目SLAM的主要局限之一。最后,我们提出了一个框架,该框架可以有效地融合从单个帧获得的语义标签和稠密SLAM,从而从单个视图产生语义一致的场景重构。在两个标准数据集上的评估结果表明了我们方法的鲁棒性和准确性。

论文翻译(上):CNN-SLAM_ Real-Time Dense Monocular SLAM With Learned Depth Prediction_第1张图片
图1.提出的单目SLAM方法(a)可以估算出比现有技术(b)好得多的绝对尺度,这对于许多SLAM应用(例如AR)是必需的,骨骼被增强到重建中。 c)我们的方法可以从单一角度融合3D和语义重建。

1.介绍

SfM和SLAM都是计算机视觉和机器人技术领域非常活跃的研究领域,其目的是实现3D场景重建以及通过3D和成像传感器进行相机姿态估计。最近,与移动深度传感器所获得的深度图融合在一起的实时SLAM方法得到了越来越广泛的应用,因为它们可用于从移动机器人到无人机以及从导航到机器人的多种类型的自主导航与建图,同时也适用于许多增强现实和计算机图形学的应用。除了导航和建图外,体积融合方法(例如Kinect Fusion [21]以及基于RGB-D数据的稠密SLAM方法[30,11])还可用于高精度场景重建。但是,这种方法的主要缺点是深度相机有一些局限性:尽管不是不可能在室外环境中工作,但的确大多数相机的工作范围有限,并且基于主动感应的相机无法在阳光下工作(或表现不佳),从而使重建和制图的精度降低。

通常,由于深度相机不如彩色相机普遍存在,因此许多研究兴趣集中在单个相机的稠密和半稠密SLAM方法上[22,4,20]。这些方法通过对相邻帧对进行短基线立体匹配来估计当前视点的深度图,从而实现实时单目场景重建。前提假设是,相机会随着时间在空间中平移,因此可以将成对的连续帧视为一个整体。 而匹配通常是通过灰度不变性或关键点提取和匹配来进行的。
单目SLAM方法的主要局限性是对绝对尺度的估计。实际上,即使相机位姿估计和场景重建准确执行,这种重建的绝对尺度本质上仍然是不精确的,这限制了单目SLAM在增强现实和机器人技术领域的大多数应用场景(如图1中b)。 一些方法提出将场景与一组预定义的3D模型进行匹配并通过目标检测来解决问题,基于估计的目标大小来恢复初始比例[6],但是在场景中缺少已知尺度的情况下该方法会失败。单目SLAM的另一个主要局限在于——在相机纯旋转运动下,由于缺乏立体基线,因此无法使用立体估计,从而导致追踪失败。

最近,出现了一种新的研究方法,该方法通过学习的方法解决了单个图像的深度预测问题。特别是,以端到端的方式使用深度卷积神经网络(CNN)[16、2、3]证明了即使在缺少单目所需条件(纹理,重复图案)的情况下,也能有相对较好的方法和良好的绝对精度,从而使深度图具有回归的潜力,来完成深度估计任务。深度学习方法的一个优势是,可以从例子中学习绝对尺度,从而可以从单个图像进行预测,而无需基于场景的假设或几何约束,这与[10,18,1]不同。 这种深度学习的主要局限性在于,尽管全局准确,但深度边界往往会局部模糊:因此,如果像[16]中那样将深度学习融合在一起进行场景重建,则重建的场景将总体上缺少形状细节。

与此相关的是,尽管提出了几种用于单视图深度预测的方法,但迄今为止,深度预测在更高级别的计算机视觉任务中却被大多数人所忽视,文献[16]中给出了几个例子。本文工作的主要思想是,从两种方法中汲取优点,并提出一种单目SLAM方法,该方法将深度网络和直接单目深度估计融合在一起,进行深度预测,从而进行稠密场景重建,同时具有精确的绝对尺度和鲁棒的追踪能力。为了恢复模糊的深度边界,将CNN预测的深度图作为稠密重建的初始估计,并通过类似于[4]中的短基线立体匹配的直接SLAM方案逐步完善。重要的是,边缘区域往往很模糊,而短基线立体匹配则具有在预测深度图像上细化边缘区域的能力。同时,从CNN预测的深度图获得的初始估计可以提供绝对尺度信息来进行位姿估计,因此在绝对尺度方面,与单纯的单目SLAM相比,CNN估计的位姿轨迹和场景重建更加精确。图1的a展示了一个例子,该示例说明了使用本文中提出的精确绝对尺度方法进行场景重建的有效性。此外,由于CNN预测的深度不会受到上述纯旋转问题的影响,因此可以使追踪更加鲁棒,因为它是在单个帧上单独进行估计的。再者,由于可以在同一架构的不同计算资源(GPU和CPU)上同时执行CNN的深度预测和深度细化这两个过程,因此该框架可以实时运行。

近期关于CNN的另一个研究方面是,相同的网络结构可以用于不同的高维回归任务,而不仅仅是深度估计:一个典型的例子是语义分割[3,29]。我们根据这一点作为我们框架的扩展,该框架使用像素级标签来将语义标签与稠密SLAM有效地融合在一起,从而从单个视图获得语义连贯的场景重建(如图1所示)。值得注意的是,就我们所知,语义重建仅在近期才有所发展,并且在单目情况下仅基于立体[28]或RGB-D数据[15]的方法还从未提出过。
我们使用两个针对单目SLAM和深度预测的公开数据集来评估我们的方法,重点是位姿估计和重构的精确性。由于CNN预测的深度取决于训练过程,因此我们展示的实验中,训练集是从与评估基准中完全不同的环境和RGB传感器中选取的,以证实我们的方法(特别是实用性)可用于新环境中。我们也展示了在真实环境中联合场景重建和语义标签融合的测试结果。

2.相关工作

在本节中,我们回顾了我们在框架内集成的两个领域(即SLAM和深度预测)的相关工作。

SLAM

关于SLAM有大量文献。 从要处理的输入数据类型的角度来看,方法可以分为基于深度相机的[21、30、11]和基于单目相机的[22、4、20]。 相反,从方法论的角度来看,它们被分类为基于特征的特征点法[12、13、20],和直接法[22、5、4]。在本文中,我们将集中讨论单目SLAM方法。

对于基于特征点法的单目SLAM,ORB-SLAM [20]是高精度位姿估计方面的最新成果。该方法从输入图像中提取稀疏ORB特征,以进行场景的稀疏重构以及估计相机姿态,还采用了局部BA优化和图优化。对于直接单目SLAM,[22]的稠密追踪和建图(DTAM)通过使用短基线多视图立体匹配和正则化方法在GPU上实时进行稠密重构,因此在在图像中的低纹理区域的深度估计更加平滑。此外,大规模直接SLAM(LSD-SLAM)算法[4]提出了使用半稠密地图表示的方法,该表示仅在输入图像的梯度区域上追踪深度值,这就有足够的效率在CPU上来实现实时直接SLAM。LSD-SLAM的扩展是recent Multi-level mapping(MLM)算法[7],该算法提出了在LSD-SLAM的基础上使用稠密方法以增加其密度并提高重建精度。

单视图深度预测

深度学习取得了越来越多的进展,从单一视图进行深度预测已在计算机视觉领域引起了越来越多的关注。经典的深度预测方法采用手工选取的特征和概率图形模型[10,18]来生成规则化的深度图,通常对场景的几何形状有很强的假设性。在深度估计精度方面,最近开发的深度卷积结构明显优于以前的方法[16、2、3、29、19、17]。有趣的是,[16]的工作展示了将深度预测作为一个模块用于稠密SLAM。特别的,预测的深度图被用作Keller基于点的融合RGB-D SLAM算法的输入[11],这表明尽管缺乏形状细节,但基于SLAM的场景重建可以通过深度预测获得,这主要是由于通过CNN的收缩,上述模糊投影与空间信息丢失。

你可能感兴趣的:(论文翻译(上):CNN-SLAM_ Real-Time Dense Monocular SLAM With Learned Depth Prediction)