【论文笔记】SD-VIS A Fast and Accurate Semi-Direct Monocular Visual-Inertial SLAM

关键词:视觉惯性;半直接 SLAM;多传感器融合

一、摘要:

问题: 如何权衡准确率和计算效率

方法: 半直接法。基于特征法的 MVG 进行初始化、后端优化和回环检测;滑动窗口优化

结果: 实现准确度和速度的均衡

二、结论

文章缺陷:

课题构思(如何一步步得到结论):

  1. 直接法追踪非关键帧并加速算法
  2. 特征法回环检测,解决长期运行问题

未解问题: 扩展算法以支持多传感器融合

三、粗看图表

数据来源: EuRoC 数据集

重要指标: RMSE、平均时间、关键帧数量及计算耗时、平移绝对位姿误差

四、引言

研究原因: 现有传感器单独使用时缺点明显:立体相机只能在有限深度范围估计准确;雷达存在户外玻璃表面反射的问题;IMU 有偏移和噪声;单目相机具有尺度不变性。特征法和直接法有明显缺点(前面文章已总结)。

课题阶段(染色为当前阶段):

【论文笔记】SD-VIS A Fast and Accurate Semi-Direct Monocular Visual-Inertial SLAM_第1张图片

主要贡献: 多传感器融合的视觉惯性导航系统(VINS)、SD-VIS

理论假设: 主要研究基于多传感器融合的单目视觉惯性导航系统(VINS)

五、实验过程

模型步骤,每个步骤的结论

  • 系统框架总览:

【论文笔记】SD-VIS A Fast and Accurate Semi-Direct Monocular Visual-Inertial SLAM_第2张图片

  • IMU 测量和视觉惯性对齐

    1. 符号说明

    2. IMU 预积分

    3. 视觉惯性对齐

      IMU 测量值与可视图像对齐完成初始化。VINS-Mono 方法重参数化重力矢量

  • 视觉测量:

    1. 三种关键帧选取策略(满足其一即可):

      ​ ① 跟踪特征点,滑动窗口中最后一帧中的跟踪点数小于最小跟踪点阈值的70%;

      ​ ② IMU 预积分计算出的滑动窗口最后两相邻帧间的平移距离超过阈值;

      ​ ③ 最后一帧和倒数第二帧特征点的平均视差超过阈值。

    2. 关键帧的追踪

      ​ 关键帧使用快速特征检测器在滑动窗口最后一帧添加新特征点,KTL 稀疏光流算法追踪。RANSAC 和基本矩阵模型消除异常值。

    3. 非关键帧的追踪

      直接图像对齐估计相对位姿,最小化图像块之间的光度误差优化位姿

  • 基于滑动窗口的紧耦合优化框架

    结合 IMU 残差,视觉重新投影误差,先验信息和重新定位信息,再次优化姿态和3D点位置。

    1. 边缘化策略

      若当前帧为关键帧,则该帧将保留在滑动窗口中,最旧的帧被边缘化,丢弃特征点,删除视觉和惯性测量值;

      若当前帧不是关键帧,则滑动窗口中的最后一个帧将被边缘化,与该帧相关的所有视觉度量移除。

    2. 重定位(消除累积误差)

      DBoW2 闭环检测,有环路时对齐滑动窗口

  • 实验:

    ​ 评估 EuRoC 数据集上 SD-VIS 的准确性、鲁棒性和实时性能,将SD-VIS方法与最新的视觉SLAM方法进行比较。

    1. 对 SD-VIS 的准确性和鲁棒性进行评估。实验结果表明,该方法的准确性和鲁棒性达到了与最新技术相同的水平
    2. 评估实时性能,该方法在精度和实时性能之间达到了良好的平衡
    3. 评估了闭环检测能力并验证了SLAM系统的总体可行性

六、文章总结:

问题: 如何权衡准确率和计算效率。现有传感器单独使用时缺点明显,特征法与直接法各有显著缺点

方法: 直接法追踪非关键帧并加速算法+特征法回环检测,解决长期运行问题。基于特征法的 MVG 进行初始化、后端优化和回环检测;滑动窗口优化。

论证过程:

  1. 提出目前纯特征法和直接法的缺点以及传感器单独使用的缺点;
  2. 利用特征法+直接法(半直接法)提出 SLAM 新的解决方案并形成系统;
  3. 介绍系统中关键部分的方法;
  4. 最后通过数据集验证方法的有效性。

七、引言部分文献的深入研究

  1. Visual simultaneous localization and mapping: a survey

    视觉 SLAM 指使用图像作为外部信息的唯一来源,以便在环境中同时确定机器人、车辆或运动相机位姿的问题。将视觉作为唯一的外部传感器,用于动态、复杂和大规模环境的 SLAM 是研究的活跃领域。视觉SLAM 中采用的计算机视觉技术(例如,显着特征检测、描述和匹配,图像识别和检索等)仍易于改进。本文的目的是为视觉 SLAM 领域的新研究人员提供有关最新技术的简短而易懂的评论。

  2. Simultaneous localization and mapping (SLAM): part II

    讨论了 SLAM 问题的递归贝叶斯公式,其中获得了地标和车辆姿态的绝对或相对位置的概率分布或估计。本文着重于三个关键领域:计算复杂性、数据关联和环境表示

  3. Stereo DSO: Large-Scale Direct Sparse Visual Odometry with Stereo Cameras

    文章提出了立体直接稀疏里程表(Stereo DSO),用于从立体相机中对大规模环境进行高精度的实时视觉里程表估计,对活动窗口内所有模型参数优化。将静态立体的约束整合到时间多视立体的束调整管道中。通过从具有足够强度梯度的图像区域均匀采样像素来实现实时优化。固定基准立体声解决了音阶漂移问题,降低了对大光通量和滚动快门效应的敏感性。跟踪准确性和鲁棒性方面,拟议的立体声 DSO 优于现有的最新视觉测距方法,度量3D重建更精确,同时提供了比基于特征方法重建密度更高的方法。

  4. Detecting glass in Simultaneous Localisation and Mapping

    具有激光扫描测距仪的最新室内 SLAM 为移动机器人平台(例如 PR2 机器人)提供准确的实时定位和地图服务。由于户外玻璃面板的透明性,激光测距仪无法产生准确读数,导致 SLAM 无法正常工作。本文提出了简单有效的解决方案,基于玻璃发出的激光束的镜面反射来识别玻璃面板:检测在垂直于玻璃面板入射角附近的反射光强度分布。将这种方法与 SLAM 算法集成,实时检测和定位玻璃障碍物。测试表明该方法可以检测出约 95% 的所有玻璃板,而不会出现假阳性。

  5. Strapdown Inertial Navigation Technology

  6. MonoSLAM: Real-Time Single Camera SLAM

    提出一种实时算法,可恢复单目相机的 3D 轨迹,并在先前未知的场景中快速移动。该 SLAM 方法论称为 MonoSLAM,是从移动机器人技术到单个不受控制的摄像机“纯视觉”领域的首次成功应用,实现实时但无漂移的性能,这是运动方法无法实现的。方法的核心是在概率框架内在线创建稀疏但持久的自然地标地图。文章的贡献包括:主动进行映射和测量的方法,使用通用运动模型进行平滑的相机运动以及单眼特征初始化和特征方向估计的解决方案。本文还介绍了 MonoSLAM 在高性能全尺寸人形机器人和手持摄像机实时增强现实的实时 3D 定位和地图绘制中的应用。

  7. A Monocular Vision Sensor-Based Efficient SLAM Method for Indoor Service Robots

    本文提出一种使用前视单目视觉传感器进行高效同时定位和制图的新方法。可实时应用于室内服务机器人的低成本嵌入式系统。本文中使用消失点的方向直接估计机器人方向,将机器人位置和线界标的估计模型导出为简单线性方程,通过局部地图校正方法有效地校正相机的姿势和地标位置。

  8. Tightly-coupled monocular visual-inertial fusion for autonomous flight of rotorcraft MAVs

    本文为自主旋翼飞机 MAV 提出一种基于紧密耦合非线性优化的单目 VINS 估计器。

  9. Keyframe-based visual–inertial odometry using nonlinear optimization

    非线性优化准确性高,由于底层问题的稀疏性,其复杂性易于处理。本文制定严格的概率成本函数,结合了标和惯性项的重投影误差。通过将优化限制在关键帧的有限窗口中(通过边缘化),使问题易解,确保实时操作。

  10. ORB-SLAM: A Versatile and Accurate Monocular SLAM System

    本文介绍 ORB-SLAM,这是一种基于特征的单目 SLAM 系统,可在大小型室内外环境中实时运行。该系统对运动混乱具有鲁棒性,可实现宽基线闭合和重新定位,包括全自动初始化。基于近年来的出色算法设计了一个新颖的系统。选择合适的重建点和关键帧的优胜劣汰策略具有鲁棒性,并生成紧凑可跟踪的地图,仅当场景内容发生变化时,地图才会增长,实现终身运营。

  11. Direct Sparse Odometry

    直接稀疏里程表(DSO)是基于新颖、高度精确的稀疏、直接结构和运动公式的视觉里程表方法,将最小化光度学误差与所有模型参数的一致、联合优化相结合,包括几何图形。省略先验平滑度,在整个图像中均匀采样像素实时实现。因不依赖于关键点检测器或描述符,可从具有强度梯度的所有图像区域中采样像素。模型集成了完整的光度校准,考虑了曝光时间,镜头渐晕和非线性响应功能。

  12. Direct Visual-Inertial Odometry with Stereo Cameras

    文章提出了一种立体照相机直接视觉惯性测距方法。通过最小化光度和惯性能量功能的组合,同时估算摄像机的姿态、速度和 IMU 偏差,利用视觉和惯性数据的互补性。与现有视觉惯性方法相比,该方法完全直接:以半密集深度图(而不是手动设计的稀疏关键点)估算几何形状。深度信息既可通过静态立体(与立体摄像机的固定基线图像相关)获得,也可以从时间立体(与同一相机在不同时间拍摄的图像相关)获得。该方法提供了环境的高保真度半密集、度量重建,并在CPU上实时运行。

  13. A Review of Visual-Inertial SLAM from Filtering-Based and Optimization-Based Perspectives

    视觉惯性同时定位和制图(VI-SLAM)由于鲁棒性高,在定位和地图绘制领域应用广泛,包括在移动机器人、自动驾驶汽车、无人驾驶飞行器和自动驾驶水下航行器。文章提供有关 VI-SLAM 的全面调查,从基于过滤和优化的角度回顾了 VI-SLAM 技术。总结了基于后端方法,相机类型和传感器融合类型的最近十年的最新研究;介绍了关键的 VI-SLAM 技术,例如特征提取和跟踪,核心理论和闭环;对代表性的 VI-SLAM 方法和著名的 VI-SLAM 数据集的性能进行了调查。对 VI-SLAM 方法的比较研究有助于了解其工作原理的差异。基于优化的方法定位精度高、内存利用率较低,而基于过滤的方法消耗计算资源少。本研究还提出 VI-SLAM 的未来发展趋势和研究方向。

  14. DTAM: Dense Tracking and Mapping in Real-Time

    DTAM 是用于实时摄像机跟踪和重建的系统,不依赖于特征提取,依赖于每个像素的密集方法。RGB 相机在静态场景中,估计选定关键帧处的详细纹理深度图,产生具有百万顶点的表面拼凑而成。使用视频流中可用图像提高简单光度数据项质量,并在非凸优化框架中最小化全局空间正则化能量函数。通过针对整个密集模型对整个图像进行帧速率对齐来精确跟踪相机的 6DOF 运动。算法高度并行化,使用 GPU 硬件可实现实时性能。与使用特征的最新方法相比,密集模型在快速运动下跟踪性能出色;并且还展示了密集模型在增强现实应用程序中用于实时场景交互的其他有用性。

  15. An iterative image registration technique with an application to stereo vision

    提出一个图像配准技术,利用空间强度梯度信息寻找匹配位置,适用于两图像已经近似匹配的场景。

  16. Parallel Tracking and Mapping for Small AR Workspaces

    本文提出了一种估计未知场景中相机姿态的方法,专门用于在小型 AR 工作区中跟踪手持摄像机的系统。将跟踪和建图划分为两个单独的任务以并行线程处理:一个线程处理跟踪不稳定的手持运动的任务,另一个线程根据之前的任务生成点特征的 3D 地图观察到的视频帧。使用通常不与实时操作关联的、计算量大的批处理优化技术:生成具有数千个地标的详细地图,可以以帧速率进行跟踪,准确性和鲁棒性高。

  17. ORB-SLAM2: An Open-Source SLAM System for Monocular, Stereo, and RGB-D Cameras

    介绍 ORB-SLAM2,这是一个用于单目立体声和 RGB-D 相机的完整 SLAM 系统,包括地图重用,闭环和重定位功能。该系统可在各种环境中的标准中央处理器上实时工作。后端基于单目和立体观测的光束调整,可使用公制尺度进行精确轨迹估计。系统包括轻量级的本地化模式,该模式利用视觉测距法跟踪未建图区域,并与允许零漂移本地化的地图点匹配。

  18. VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State Estimator

    本文介绍 VINS-Mono:一种健壮且通用的单目视觉惯性状态估计器。一种紧密耦合的、基于非线性优化的方法通过融合预积分的 IMU 测量值和特征观测值来获得高精度的视觉惯性里程表。回路检测模块与我们紧密耦合的公式相结合,可用最少的计算量实现重定位。执行 4-DOF 姿态图优化增强全局一致性。系统可以保存和加载地图来重用地图。当前和先前的地图可通过全局姿势图优化合并。

  19. PL-VIO:Tightly coupled monocular visual inertial odometry using point and line features

    为解决估计照相机轨迹的问题并基于惯性测量和视觉观察构建结构三维地图,本文提出了点线视觉惯性里程表(PL-VIO),即紧密耦合的单目视觉–利用点和线特征的惯性里程计系统。与点要素相比,线提供了更多几何结构信息。为紧密有效地融合惯性测量单元(IMU)和视觉传感器的信息,通过最小化成本函数优化状态,函数将预积分的 IMU 误差项与点和线的重新投影误差项组合窗口优化框架。

  20. A General Optimization-based Framework for Local Odometry Estimation with Multiple Sensors

    本文提出了一种基于通用优化的里程计估算框架,支持多个传感器集。框架中每个传感器被视为一个普遍因素,共享共有状态变量的因素被加在一起以构建优化问题。

  21. LSD-SLAM: Large-scale direct monocular SLAM

    本文提出一种直接单目 SLAM 算法,算法允许构建大规模、一致的环境图。除了基于直接图像对齐的高精度姿势估计外,还可以实时重建 3D 环境作为具有相关的半密集深度图的关键帧的姿势图。两个关键的新颖性:(1)一种在 sim(3) 上运行的新颖直接跟踪方法,显式检测比例漂移;(2)一个概率解决方案,将嘈杂深度值的影响纳入跟踪。可在 CPU 上实时运行。

  22. LDSO: Direct Sparse Odometry with Loop Closure

    本文提出了将直接稀疏测距法(DSO)扩展到具有闭环检测和位图优化(LDSO)的单目视觉 SLAM 系统。DSO 利用具有足够强度梯度的任何图像像素,在无特征的区域中保证鲁棒性。LDSO 保留鲁棒性,同时通过支持跟踪前端拐角特征确保点的可重复性,使用 BoW 方法检测候选闭环。通过几何验证闭合候选者,通过共同最小化 2D 和 3D 几何误差项估算 Sim(3) 相对姿态约束,并与从 DSO 的滑动窗口优化中提取的相对姿势的可见性图融合。

  23. SVO: Fast Semi-Direct Monocular Visual Odometry

    本文提出了一种半直接单目视觉测距算法,精确、可靠、速度快。半直接方法消除了用于运动估计的特征提取和鲁棒匹配技术。直接对像素强度进行操作,从而在高帧速率下产生亚像素精度。使用显式建模离群值测量的概率映射方法来估计 3D 点,减少离群点。精确和高帧速率的运动估计可在重复和高频纹理的场景中提高鲁棒性。算法适用于 GPS 受限的环境中的微型航空器状态估计。

  24. Loosely-coupled semi-direct monocular slam

    本文提出了一种半直接法,用于单目 SLAM,方法结合了直接方法和基于特征的方法的互补优势。拟议中的管道将直接测距法和基于特征的 SLAM 松散耦合以执行三个级别的并行优化:1)联合优化局部结构和运动的光度束调整(BA),2)精炼关键帧姿势和相关特征图点的几何BA,3)在存在回环闭合的情况下进行姿态图优化以实现全局地图一致性。

  25. Feature based visual odometry prior for real-time semi-dense stereo slam

    本文提出了一种使用立体相机的视觉测距和 SLAM 的两层方法,可以实时运行,并将基于特征的匹配与半密集直接图像对准相结合。根据通过快速但可靠的基于关键点的方法跟踪的运动来初始化半密集深度估计,消耗计算资源。方法可处理较大的帧间运动和光照变化。

  26. Autonomous flight with robust visual odometry under dynamic lighting conditions

    本文提出的立体声 VO 在光变环境方面实现了鲁棒性。在优化过程中加入了基于特征的立体视觉测距法的运动,获得更高的准确性和稳定的运动估计。对于基于特征的方法和直接 VO 方法的收敛速度和线性指数的分析支持了运动先验知识的使用有效性。

  27. Semi-direct monocular visual and visual-inertial SLAM with loop closure detection

    本文提出了一种半直接单目视觉 SLAM 系统,保持直接方法的快速性能以及基于特征的方法的高精度和闭环能力。该系统提取并匹配关键帧中的 Oriented FAST 和 Rotated Brief 特征,通过直接法跟踪非关键帧,无需提取和匹配特征。关键帧用于全局或局部优化和回环闭合,非关键帧用于快速跟踪和本地化。还提出了将惯性测量数据与视觉 SLAM 融合的单目视觉惯性 SLAM 系统,成功恢复了度量标准规模。

你可能感兴趣的:(#,视觉SLAM)