每天一篇论文 365/365 Visual Odometry Revisited: What Should Be Learnt?

Memory-Efficient Implementation of DenseNets

Visual Odometry Revisited: What Should Be Learnt?

Code

摘要

在这项工作中,我们提出了一个单目视觉里程计(VO)算法,利用基于几何的方法和深入学习。大多数具有优异性能的现有VO/SLAM系统都基于几何学,必须针对不同的应用场景进行精心设计。此外,大多数单目系统都存在尺度漂移问题。最近的一些深度学习工作以端到端的方式学习VO,但是这些深度系统的性能仍然无法与基于几何的方法相比。在这项工作中,我们回顾了VO的基础知识,并探索了将深度学习与极线几何和透视n点(PnP)方法相结合的正确方法。具体地说,我们训练两个卷积神经网络(CNNs)来估计单视角深度和作为中间输出的双视角光流。在深度预测的基础上,我们设计了一种简单而稳健的帧到帧VO算法(DF-VO),其性能优于纯深度学习和基于几何的方法。更重要的是,我们的尺度一致的单视角深度CNN系统不受尺度漂移问题的影响。在KITTI数据集上的大量实验表明了系统的鲁棒性,详细的研究表明了系统中不同因素的影响。

贡献

在这项工作中,我们回顾了基于几何的VO的基础知识,并探索了将深度学习融入其中的正确方法。提出了一种简单、鲁棒的帧到帧VO算法,称为DF-VO,它结合了深度预测(图1)。我们的系统与深度学习方法和几何方法进行了广泛的比较。

方法

每天一篇论文 365/365 Visual Odometry Revisited: What Should Be Learnt?_第1张图片

本文在深度估计和光流估计的基础上提出了将两者结合并进行几何的三角极线计算,最后得到[R,t]
每天一篇论文 365/365 Visual Odometry Revisited: What Should Be Learnt?_第2张图片
**外极几何:**给定一个图像对(I1, I2),估计相机相对位姿的基本方法是求解基本或本质矩阵,E.当形成2D2D像素对之间的对应(p1,p2)时,采用外极约束求解本质矩阵。因此,可以恢复相对位姿[R,t]
在这里插入图片描述
其中K是摄像机的内参。通常,二维像素对应要么通过提取和匹配图像中的显著特征点,要么通过计算光流来形成。然而,求解相机姿态的基本矩阵存在一些众所周知的问题。•尺度模糊度:从本质矩阵中恢复的转移矩阵是符合尺度的。•纯旋转问题:如果相机的运动是纯旋转,恢复R将变得不可解决。•不稳定的解决方案:解决方案是不稳定的,如果摄像机平移量小。
透视n点法(PnP)是一种经典的基于3D-2D对应关系的相机姿态求解方法。假设已知观察到的三维视点1和观察到的投影2 (X1,p2),则可以使用PnP通过最小化重投影误差来求解摄像机姿态
在这里插入图片描述
深度预测
给定深度CNN预测(Di)和(Pi,Pi−1),可以建立2D2D和3D-2D对应。我们可以通过求解PnP (3D-2D)或基本矩阵(2D-2D)来求解相对相机位姿。遗憾的是,目前最先进的单视图深度估计方法仍然不足以恢复准确的三维结构,以进行准确的相机姿态估计
另一方面,光流估计是一项较为通用的任务,现有的SOTA深度学习方法精度高,泛化能力强。因此,我们可以使用2D-2D匹配来解决基本矩阵和恢复相机运动。然而,正如我们在第三- a节中所提到的,从两种观点求解本质矩阵会带来一些众所周知的问题。我们表明,我们可以通过利用深度预测来避免/解决这些问题。

结果

每天一篇论文 365/365 Visual Odometry Revisited: What Should Be Learnt?_第3张图片
每天一篇论文 365/365 Visual Odometry Revisited: What Should Be Learnt?_第4张图片

你可能感兴趣的:(每天一篇论文 365/365 Visual Odometry Revisited: What Should Be Learnt?)