大多数现有的基于视觉的SLAM系统及其变体仍然假设观测是绝对静态的,无法在动态环境中表现良好。在这里,我们介绍了 Dynam-SLAM (Dynam),这是一种双目视觉惯性 SLAM 系统,能够在高动态环境中实现稳健、准确和连续的工作。我们的方法致力于将双目场景流与惯性测量单元(IMU)松耦合,用于动态特征检测,并将动态特征和静态特征与IMU测量紧耦合以进行非线性优化。首先,对测量噪声引起的场景流不确定性进行建模,推导出地标的准确运动可能性。同时,为了应对高度动态的环境,我们还基于检测到的动态特征构建了虚拟地标。然后,我们构建了一个紧密耦合的非线性基于优化的 SLAM 系统,通过融合 IMU 测量和特征观察来估计相机状态。最后,我们评估了所提出的动态特征检测模块 (DFM) 和各种基准数据集的整体 SLAM 系统。实验结果表明,通过使用DFM,动态几乎不受影响,并且在静态 EuRoC 数据集中表现良好。在自收集的动态数据集中,Dynam 在准确性和鲁棒性方面优于当前最先进的视觉和视觉惯性 SLAM 实现。动态基准数据集中Dynam的平均绝对轨迹误差比VINS-Fusion低约90%,比ORB-SLAM3低约84%,比Kimera低约88%。
关键词:动态特征检测、SLAM、状态估计、视觉惯性SLAM
在本文中,我们介绍了 Dynam-SLAM,这是一种双目 VISLAM 系统,能够在高度动态的环境中鲁棒、准确和连续的工作。该系统首先将双目场景流与IMU相结合,检测动态特征。对测量噪声引起的场景流的不确定性进行建模,以准确检测动态特征。此外,为了使该方法能够处理高度动态的环境,我们基于检测到的动态特征构建虚拟地标,并将它们融合进紧密耦合的非线性优化过程中。我们评估了Dynam-SLAM在多个基准数据集上的性能。实验结果表明,我们的方法可以有效地检测各种相机运动和动态场景下的动态特征。此外,相比于最先进的VSLAM和VIslam实现,该动态SLAM,在数据集中的准确性和鲁棒性方面明显优秀。最后,Dynam-SLAM在具有挑战性的室外场景中得到了验证,证明了它能够可靠地有效地在未知动态情况下执行定位任务。
所提出的 Dynam-SLAM 仍然存在局限性。DFT通过IMU测量的预积分来检测动态特征。因此,在某些情况下,IMU数据的质量使得区分静态和动态特征变得困难。例如,车辆在长期车辆行进过程中的振动和IMU偏差仍然导致IMU测量的低信噪比,最终导致动态特征的误检。这个问题的一个可能的解决方案是通过使用减少相机振动和IMU噪声的方法来提高IMU的数据质量。另一方面,动态特征检测依赖于光流估计的准确性,可能会受到运动模糊或遮挡的影响。因此,在未来,我们将把硬件配置扩展到具有高采集频率和多个摄像机的全局快门相机。
此外,我们计划对丰富类型特征(例如线和平面)的场景流进行复合建模。这些有望增强动态特征检测和整个 slam 系统对快速相机运动和遮挡的鲁棒性。当前的方法也不能很好地处理经历非刚体变换或亮度变化的动态场景,因为这些情况可能会导致光流和视差计算中的错误。尽管有其局限性,但这项研究确实表明,通过将双目场景流和 IMU 耦合来进行动态特征检测是一种可行的方法。此外,在高动态环境中,基于识别动态特征的紧耦合 slam 系统的性能得到了很大提高。这些也是我们工作的主要贡献。
1. 动态特征检测评估
我们在各种相机运动和动态场景下执行不同的动态特征检测方法,以确定其有效性。
表一表明,在多个自收集的数据集中,我们使用经典分类系统的评估指标召回率 (R)、精度 (P) 和 F1 分数 (F1) 来定量比较三种方法的动态特征检测结果: RANSAC、归一化模和具有不同分位数阈值的不确定性模型。最终结果表明在检测动态特征时,不确定性建模方法不受摄像机和动态目标运动的影响,在各种动态场景中表现良好。
图1:不同基准数据集上多种评估方法的动态特征检测效果。(a) s/static 数据集。(b) k/static 数据集。(c) c/h 数据集。左手边到右手边的方法是RANSAC、归一化模量、分位数阈值0.95的不确定性模型和分位数阈值0.99的不确定性模型。为了便于检测结果的观察和比较,我们将人持有的棋盘和ArUco校准板作为上述实验数据集中的动态目标。实验视频可以在多媒体附件中找到。最好以彩色观看。
2. 在静态基准数据集中的评估
为了证明所提出的方法不受 DFT 的严重影响,并且在静态场景中也表现良好。采用EuRoC数据集,其由11个双目惯性数据集组成,这些数据集是用在三个不同的静态场景中飞行的微飞行器(MAV)收集的;考虑到基于飞行动力学、纹理、照明、e的不同挑战,将11个数据集分为简单组、中等组和困难组。
如表 II 所示,所提出的pipelines w/ 和 w/o DFT 成功地运行了所有数据集并在所有 EuRoC 数据集中表现良好。与其他方法相比,Dynam w/o DFT 在 11 个数据集中的 10 个中具有最低的 RMSE ATE,除了 ORB3-SI。尽管 ORB3-SI 在所有 11 个数据集中具有最低的 RMSE ATE,但与 VINS-SI 和 Kimera 相比,Dynam w/o DFT 在平均值方面最接近 ORB3-SI。
3. 在不同难度动态数据集中的评估
我们进一步评估了所提出的管道在具有挑战性的动态场景中 w/ 和 w/o Kaplan 以及其他相关的最先进的 VSM 和 VISH 系统的性能。我们的主要目的是验证不同级别的动态复杂性对 slam 系统的影响,并证明了所提出的方法在准确性和鲁棒性方面与其他最先进的方法相比的优越性。
图2:动态数据集收集的硬件配置
综合考虑现动态对象的比例、运动速度和摄像机频率(动态出现频率)的主要现实动态因素。基于动态对象的小/大比例、慢/快速度和低/高相机频率,我们记录8个不同的数据集,如表III所示,可分为三个难度组(简单、中、困难)。
表 III 和表 IV 分别比较了提出方法与最先进的 VSLAM 和 VISLAM 方法在具有不同难度级别的基准数据集上的 绝对轨迹误差(ATE)和 相对位姿误差(RPE)。
值得注意的是,由于 DFT 的实用性,Dynam 在 RMSE ATE 和 RPE 中大大优于所有比较方法。
图2:动态数据集中各种方法的ATE图
4. 大规模场景的室外定位
图3:室外定位实验的配置设定
图4:在充满人的室外场景的动态特征检测的实验图
图5:Dynam-SLAM(红色)、ORB2-Stereo(绿色)、VINS-SI(蓝色)、ORB3-SI(橙色)和GPS(黄色)估计的机器人轨迹比较。图中的缩写与表 III 中的相同。
1.过去几十年,SLAM被广泛调查;单、 双目、RGB-D和事件相机等视觉传感器在尺寸、功率和成本方面优于雷达;
2.基于视觉的多传感器融合SLAM已经应用于很多领域且实现了很好的性能;
3.但这些都是假设观测环境完全静止,可动态物体无处不在且不可避免。
4.因此,必须采用更鲁棒的算法确保基于视觉的SLAM在动态环境实时工作
5.因此,我们提出该slam系统
我们的贡献总结如下:
1)我们提出了一种新的 slam方法,该方法将双目场景流与 IMU 松耦合以进行动态特征检测,并将动态和静态视觉特征与 IMU 测量紧密耦合以构建非线性优化。
2) 对测量噪声引起的场景流的不确定性进行建模。基于不确定性模型,使用马氏距离来准确确定地标的运动可能性。
3) 基于检测到的动态特征,我们构建了虚拟地标。静态地标、虚拟地标和 IMU 测量值在滑动窗口中紧密耦合,以估计动态环境中相机的高精度状态。
4)我们提供了一个完整的 slam系统,在不同的基准数据集中已验证,实验结果表明在高动态环境中准确性和鲁棒性已优于当前最先进的VSLAM和VISLAM
1.文章分类:动态环境中的状态估计方法总体分两类;
(1)纯视觉:语义分割方法、几何约束方法等;
(2)多传感器融合:上文所提及那些等,可以减少动态图像带来的影响。
2.语义分割方法
用深度学习去识别和检测图像像素的运动属性;
Yu等人提出的:DS-SLAM---Caffe-based SegNet
Scona等人提出的:the Staticfusion for robust and dense RGB-D SLAM in dynamic environments---其检测运动目标并重建背景结构
3.几何约束方法
该技术是使用在在多视角几何、运动相似性和自运动中定义的特定几何规则的几何约束去分割静态和动态特征。这些几何规则可以从极线、三角化、基本矩阵估计或重投影误差中导出。
Kundu等人提出的:通过轮速计构建的极线和"flow vector bound"约束去检测动态特征;
Zou等人提出的:通过三角化方法区分静态和动态特征;
Narayana等人提出的:将概率模型定义为光流方向的相似性度量,这自动估计了观测到的独立运动的数量;
4.几何和语义融合方法
Xiao等人提出的:Dynamic-SLAM---紧耦合语义和几何信息消除动态特征;
Bescos等人提出的:DynaSLAM---通过多视图几何、Mask R-CNN或两者的组合组检测运动物体
5.基于视觉的多传感器融合方法
多传感器融合方法通过其他类型的传感器提供的信息对视觉特征或目标进行动态识别。
Kim等人提出:使用IMU对图像帧进行旋转补偿,并将两帧之间特征的变换定义为相应的运动矢量。然后,使用速度传感器过滤运动向量以获得静态地标。
Xu等人提出:OD-SLAM---使用车轮里程计获得静态特征,最后估计更准确的位姿。
Chavez-Garcia等人提出:融合来自激光雷达、雷达和相机的输入,以检测和跟踪动态特征。
6.相关文献总结
语义分割方法可以得到动态对象所在的像素区域,直接分离动态特征和静态背景。然而,这种方法往往无法识别不完整的轮廓(例如,靠近相机的人或物体)和不属于训练类别的动态对象。几何约束方法只关注视觉特征,导致计算速度快,理论模型相对简单。该方法一般先估计摄像机运动,然后利用随机样本一致性(RANSAC)算法确定动态特征的去除。然而,当经历高动态环境时,初始变换估计将由主导动态特征决定。前面的分析表明,当运动物体占图像的很大一部分时,基于视觉的方法无法正确估计相机位姿。大多数以视觉为中心的多传感器融合方法不能有效地在高度动态的环境中使用动态特征,使得算法由于约束不足而难以收敛。
在本文中,我们使用相机和IMU的融合来估计高动态环境中的机器人状态。高频IMU提供的平移速度和定向速度的精确预积分值可以有效地区分动态特征,视觉重投影约束可以抑制IMU零偏移引起的散度和累积误差。
1 工作流程
图1:Dynam-SLAM系统概述,执行四个主要线程
四个并行线程:测量预处理、动态特征检测和处理、局部视觉惯性BA和回环检测。
(1)测量预处理:处理视觉和IMU测量数据,包括图像特征提取和跟踪、双目匹配和IMU预积分
(2)动态特征检测和处理:用于场景流计算、动态特征检测和虚拟地标构建。
(3)局部视觉惯性BA:将视觉特征与IMU数据紧密耦合,优化滑动窗口中的所有状态变量。
(4)回环检测:通过检索特征对应关系对整个 KF 轨迹执行闭环约束。