Semantic Visual Simultaneous Localization andMapping: A Survey 语义视觉同步定位与映射研究综述 粗翻

2021

摘要

视觉同步定位与映射(vSLAM)在计算机视觉和机器人领域取得了巨大进展,并已成功应用于自主机器人导航和AR/ VR等许多领域。然而,vSLAM无法在动态和复杂的环境中实现良好的本地化。近年来,许多出版物报道,通过将语义信息与vSLAM相结合,语义vSLAM系统具有解决上述问题的能力。然而,还没有关于语义vSLAM的全面调查。为了填补这一空白,本文首先回顾了语义vSLAM的发展,明确强调了它的优势和差异。其次,我们探讨了语义vSLAM的三个主要问题:语义信息的提取和关联,语义信息的应用,以及语义vSLOM的优势。然后,我们收集并分析了当前最先进的SLAM数据集,这些数据集已广泛用于语义vSLAM系统。最后,我们讨论了为语义vSLAM的未来发展提供蓝图的未来方向。

1

仿真定位与地图(SLAM)是机器人自主探索环境的基础。人类可以快速地将自己定位在陌生和复杂的环境中,并通过空间感知重建环境。这种能力可以通过后天训练得到增强,并在人类认知和运动控制发展中起着至关重要的作用。同样,如果移动代理和机器人配备不同的传感器并运行SLAM算法,它们也可以估计有关其运动和环境的信息。在过去几十年中,SLAM逐渐成为机器人的代名词。在理论和实践方面,SLAM现已建立了一套完整的技术解决方案。SLAM技术已广泛应用于许多领域,如医疗服务机器人[1]、自动驾驶[2]、无人机[3]、增强现实[4]和虚拟现实(VR)。

有多种SLAM技术方法,但由于设备成本高或应用场景有限,大多数方法难以推广。基于视觉传感器的SLAM,又称为视觉SLAM(vSLAM),由于其硬件成本低、在小场景中精度高以及能够获取丰富的环境信息,近年来已成为一个热门的研究方向。必须指出,vSLAM的缺点也非常明显。一方面,在应对照明变化、动态对象移动和缺少纹理的环境方面仍然存在许多挑战。另一方面,该系统计算量大,所构建的几何地图难以应用于路径规划和导航。

近年来,深度学习技术的兴起使研究人员能够解决传统的SLAM问题。基于深度学习技术,研究人员提取特征点、描述符和语义信息,并进行姿势估计。语义信息与传统vSLAM的集成提高了对图像特征的理解,并构建了高度准确的语义图,这在早期的工作中得到了验证[5]-[8]。与传统的vSLAM相比,语义vSLAM不仅可以获取环境中的几何结构信息,还可以提取独立对象的语义信息(例如位置、方向和类别)。在本地化中,语义vSLAM通过语义约束提高了本地化的准确性和鲁棒性。在映射中,语义信息提供丰富的对象信息来构建不同类型的语义映射,例如像素级映射[9],对象级映射[10],[11]。因此,语义vSLAM可以帮助机器人提高准确感知和适应未知复杂环境以及执行更复杂任务的能力。

当前的几篇调查论文广泛讨论了SLAM算法和系统。早期SLAM发展情况已在[12]、[13]中进行了很好的总结。当然,也有涉及特定领域的调查,例如多机器人协作SLAM[14]、基于关键帧的单目SLAM[15]和动态环境的SLAM[16]。与此同时,[17]中最近进行了一项视觉SLAM调查,调查范围从2010年到2016年,缺乏语义方面的新前沿。值得注意的是,[18]详细回顾了SLAM社区取得的巨大进展,并考虑了未来的方向。虽然这项调查对深度学习方法进行了简短的讨论,但并没有对这一领域提供全面的概述,尤其是过去七年来的研究爆炸式增长。因此,[19]结合深度学习方法介绍了当前的SLAM。

Semantic Visual Simultaneous Localization andMapping: A Survey 语义视觉同步定位与映射研究综述 粗翻_第1张图片

然而,它并没有总结语义数据处理和关联方法。[20] 提到了语义SLAM的概念,但没有强调语义的重要性,特别是近年来语义vSLAM的快速发展所做出的贡献。值得注意的是,已有论文[17]-[20]详细介绍了与SLAM相关的工作,但目前还没有调查系统地介绍语义vSLAM的发展历史。因此,本调查详细概述了语义vSLAM的现有工作,重点是语义信息提取、语义应用程序、SLAM数据集,以及语义vSLAN与传统vSLAM之间的比较。据我们所知,这是第一篇全面全面概述语义vSLAM的调查论文。

本文剩余部分的结构如图1所示。第二节介绍了语义vSLAM中语义信息的提取和关联方法。第三节介绍了语义可视化SLAM的当前应用。第四节介绍了现有的SLAM数据集。第五节阐述了传统vSLAM和语义vSLAM之间的区别,列出并比较了最近的语义vSLAMworks。第六节介绍了语义vSLAM技术目前存在的问题和未来的发展方向。第七节总结了语义vSLAM。

二、语义信息

近年来,SLAM已经开始与语义信息相结合,语义信息包括环境中物体的位置、方向、颜色、纹理、形状和特定属性。与以往的SLAM方法相比,语义vSLAM不仅可以在映射过程中获取环境中的几何结构信息,还可以识别环境中的对象并获取语义信息,以适应复杂的环境并执行更智能的任务。传统的vSLAM方法通常基于静态环境的假设,而语义vSLAM可以预测动态环境中对象的移动属性。语义vSLAM中的类似对象知识表示可以共享,通过维护共享的知识库提高SLAM系统的操作和存储效率。此外,Semantic vSLAM可应用于智能路径规划和导航,例如服务器机器人选择交付供应品的最佳路径。

语义vSLAM的框架大致可以分为语义信息提取模块和vSLAM模块,如图2所示。此外,语义vSLAN方法的关键是准确识别环境中的对象。对于语义提取的过程,我们可以将其视为识别图像中感兴趣的对象并获取有关对象的信息。多年来出现的深度学习技术是最有前途的语义提取方法。语义对象提取的研究正逐步从传统的机器视觉算法转向深度神经网络,如CNN和R-CNN。它们的语义提取精度和实时性能够满足SLAM的要求。语义vSLAM提取语义信息常用的方法有三种,即对象检测[21]-[28]、语义分割[29]-[32]和实例分割[33]。此外,语义对象关联的处理也是至关重要的。下面我们将描述语义信息的提取和关联。

A、 语义信息提取

1)对象检测:语义vSLAM中的对象检测模块可以帮助SLAM系统从图像中获取对象。通过将其与SLAM相结合,我们可以构建对象级语义图,提高对环境的理解。目前语义vSLAM中使用的对象检测方法主要分为两类:一阶段方法和两阶段方法。

语义vSLAM通常采用SDD[21]或YOLO系列(YOLOv1[22]、YOLO2[23]、YOLOv3[24]、YLOOv4[25])作为一级对象检测方法。SSD[21]是第一个基于DNN的实时目标探测器,在PASCAL VOC数据集[34]中达到70%以上的mAP,在TitanX中达到40 FPS。SSD也是一种单级目标检测检测器,能够很好地平衡速度和精度。因此,多个语义vSLAM工作[35]–[38]部署SSD作为探测器模块。[36]–[38]利用SSD检测静态对象,而不考虑动态对象,但Zhong等人[35]认为大多数语义vSLAM作品在动态和复杂环境中表现不佳。为了应对这些挑战,他们通过SSD检测器检测潜在的移动对象(例如,人、车辆、动物),并剔除其区域,以消除动态对象对姿势估计的影响。实验结果表明,该系统有助于机器人在未知动态环境中可靠、高效地完成任务。然而,在猛烈移除潜在动态对象时,不可避免地要将非动态区域识别为动态区域。

YOLOv1[22]检测器比SSD更早,但其速度和检测性能与SSD相当,因此它也应用于语义vSLAM中的对象检测[39]。Soon Redmon等人提出了YOLOv2[23],它在识别类型、检测精度、速度和定位精度方面比YOLOv和SSD有了很大的改进。考虑到其良好的性能足以满足语义vSLAM需求,一些人成功了[11]、[40]–[42]尝试使用YOLOv2作为语义vSLAN的检测器。Bavle等人[40]提出了一种基于室内环境语义信息的粒子过滤器定位方法。它们将语义信息融合到先前的地图中,帮助空中机器人精确定位。在室外语义vSLAM中,[41]、[42]分别使用YOLOv2检

你可能感兴趣的:(深度学习,机器学习,人工智能,python,算法)