这是一篇就激光与视觉SLAM、传感器融合、深度学习等现有算法进行总结并提出6G的一些设想的论文。我的关注点是激光,视觉的细节可以自行阅读原文。部分总结成了思维导图,这篇文章可以当做学习SLAM的一个词典,节省了很多查阅文献的时间。深夜整理,如有错误欢迎留言~
摘要:
本文综述了激光雷达SLAM、视觉SLAM及其融合技术。对于Lidar或visual SLAM,本次调查阐述了传感器的基本类型和产品、开源系统的种类和历史、嵌入式深度学习、面临的挑战和未来。此外,还补充了视觉惯性里程计。对于激光雷达和视觉融合SLAM,重点介绍了多传感器标定、硬件、数据、任务层的融合。最后对6G无线网络的开放性问题和前瞻性思考进行了展望。
本文的贡献可以概括为:本文提供了一个高质量、全面的SLAM综述。对于新的研究人员来说,掌握大满贯的发展和学习它是非常友好的。同时,本文也可以作为有经验的研究者寻找新的兴趣方向的词典。
SLAM是同步定位和建图的缩写,它包含定位和建图两个主要任务。这是移动机器人学中一个重要的开放性问题:要精确地移动,移动机器人必须有一个精确的环境地图;然而,要建立一个精确的地图,移动机器人的感知位置必须精确地知道**[1]**。这样,同时建立地图和定位就可以看到一个问题:先是鸡还是蛋?(地图还是运动?)
1990年,文献[2]首次提出使用扩展卡尔曼滤波(EKF)来逐步估计机器人姿态上的后验分布和标志点的位置。事实上,机器人从未知环境的未知位置出发,在运动过程中通过反复观察环境特征来定位自身的位置和姿态,然后根据自身位置建立周围环境的增量地图,从而达到同步定位和地图建设的目的。定位是近年来一个非常复杂和热门的话题。定位技术依赖于环境和对成本、精度、频率和鲁棒性的要求,可以通过GPS(全球定位系统)、IMU(惯性测量单元)和无线信号等来实现。但是GPS只能在户外工作,IMU系统有累积误差**[5]**。无线技术作为一种主动系统,无法在成本和精度之间取得平衡。近年来,随着激光雷达、摄像机、惯性测量单元等传感器的快速发展,SLAM技术应运而生。
从基于滤波器的SLAM开始,基于图的SLAM现在占据了主导地位。算法从KF(Kalman Filter)、EKF和PF(Particle Filter)发展到基于图的优化。单线程已被多线程所取代。随着多传感器的融合,SLAM技术也从最初的军用原型向后来的机器人应用转变。
本文的组织结构概括如下:第二节阐述了包括激光雷达传感器在内的激光雷达SLAM系统、开源激光雷达SLAM系统、激光雷达的深入学习、面临的挑战和未来。第三节重点介绍了视觉SLAM,包括摄像机传感器、不同的开源视觉SLAM系统、视觉惯性里程计SLAM、视觉SLAM的深度学习和未来。在第四节中,我们将展示激光雷达与视觉的融合,并为未来的SLAM研究指明几个方向。第五节说明了结合6G和SLAM的设想。结论见第六节,本文为SLAM的新研究者提供了高质量、全面的用户指南。
1991年,[1]使用多个伺服安装的声纳传感器和EKF滤波器为机器人装备了SLAM系统。从声纳传感器开始,激光雷达的诞生使SLAM系统更加可靠和鲁棒性。
A lidar sensor
激光雷达传感器可分为二维激光雷达和三维激光雷达,它们是由激光雷达的光束数决定的。从制作工艺上看,激光雷达还可分为机械式激光雷达、MEMS(微机电)混合式固态激光雷达和固态激光雷达。利用相控阵和flash技术可以制作固体激光雷达。
图片摘自https://blog.csdn.net/SLAMTEC/article/details/82841699?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158873722519724846417367%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=158873722519724846417367&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2blogfirst_rank_v2~rank_v25-2
具体激光雷达的简介可以参考上述链接
B. Lidar SLAM System
激光雷达SLAM系统在理论和技术上都是可靠的。文献[6] 阐述了基于概率的二维激光雷达同时定位与测绘的数学原理。文献[7]进一步对二维激光雷达SLAM系统进行了测量。
C. Challenge and Future
1) 成本和适应性
激光雷达的优点是它能提供三维信息,不受夜间和光线变化的影响。另外,视角比较大,可以达到360度。但激光雷达的技术门槛很高,导致其研制周期长,规模大,成本难以承受。今后,小型化、成本合理化、固态化、实现高可靠性和适应性是大势所趋。
2) 低纹理和动态环境
大多数SLAM系统只能在一个固定的环境中工作,但情况不断变化。此外,长廊、大管道等低质感环境也会给激光雷达的大范围激光扫描带来困难。[48]使用IMU协助2D SLAM解决上述障碍。进一步地,[49]将时间维融入到映射过程中,使机器人在动态环境中运行时能够保持精确的映射,如何使激光雷达SLAM对低纹理和动态环境更加鲁棒,以及如何保持映射的更新,都应该得到更深入的考虑。
3) 对抗性传感器攻击
深度神经网络容易受到对抗性样本的攻击,这在基于摄像机的感知中也得到了证明。但在基于激光雷达的感知中,它非常重要,但尚未被探索。通过中继攻击,[50]首先利用输出数据和距离估计中的干扰欺骗激光雷达。基于Velodynes VLP-16的新型饱和攻击使激光雷达完全不能感知某个方向。[51]探索了策略性地控制欺骗攻击以愚弄机器学习模型的可能性。**本文将任务作为一个优化问题,对输入扰动函数和目标函数分别设计建模方法,使攻击成功率提高到75%左右。**对抗性的传感器攻击将欺骗基于激光雷达点云的SLAM系统,因为它几乎找不到并且难以防御。在这种情况下,研究如何防止激光雷达SLAM系统受到敌方传感器的攻击应该是一个新的课题。
随着CPU和GPU的发展,图形处理能力越来越强。相机传感器变得更便宜,更轻,更通用。同时在过去的十年里,视觉障碍得到了迅速的发展。与激光雷达系统相比,使用摄像机的视觉冲击也使系统更便宜、更小。现在,可视SLAM系统可以在微型PC和嵌入式设备上运行,甚至可以在智能手机等移动设备上运行[52][53][54][55][56]。
**视觉SLAM包括传感器数据的采集,如摄像机或惯性测量单元、前端的视觉里程表或视觉惯性里程表、后端的优化、后端的环路闭合和映射[57]。**重新定位是稳定和准确的视觉冲击波的附加模块[58]。在视觉里程测量的过程中,除了基于特征或模板匹配的方法,或确定摄像机运动的相关方法外,还有一种依赖于Fourier-Mellin变换的方法[59]。[60]和[61]给出了在使用面向地面的相机时没有明显视觉特征的环境中的示例。
A. Visual Sensors
最常用的传感器,视觉SLAM为基础的相机,具体来说,摄像机可分为单目摄像机、立体摄像机、RGB-D摄像机、event摄像机等。
视觉传感器的产品和公司
B Visual SLAM System
利用图像信息的方法可以分为直接方法和基于特征的方法。直接方法导致半稠密和稠密结构,而基于特征的方法导致稀疏结构。接下来,将介绍一些可视化slam(ATAM7是面向初学者的可视化slam工具包[58]):
C. Challenge and Future
1)视觉障碍
仍然面临着光照条件、高动态环境、快速运动、剧烈旋转和低纹理环境等重要障碍。首先,全局快门代替滚动快门是实现精确相机姿态估计的基础。像动态视觉传感器这样的事件摄像机能够每秒产生100万个事件,足以在高速和高动态范围内进行非常快速的运动。其次,利用边缘、平面、曲面等语义特征,甚至减少特征依赖性,如用连接边跟踪、直接跟踪或机器学习相结合,都可能成为更好的选择。第三,基于SfM/SLAM的数学机制,精确的数学公式优于隐式学习的导航函数。
SLAM的未来可以预见,一种是基于智能手机或UA V(无人驾驶飞行器)等嵌入式平台的SLAM,另一种是详细的三维重建、场景理解和深度学习。如何平衡实时性和准确性是一个至关重要的开放性问题。有关动态、非结构、复杂、不确定和大规模环境的解决方案尚待探索[235]。
2) 多传感器融合
实际机器人和硬件设备通常不携带一种传感器,而往往是多个传感器的融合。例如,目前对手机VIO的研究将视觉信息和IMU信息结合起来,实现了两种传感器的优势互补,为SLAM的小型化和低成本提供了非常有效的解决方案。DeLS-3D[236]设计是一种融合摄像机视频、运动传感器(GPS/IMU)和三维语义地图的传感器融合方案,以实现系统的鲁棒性和效率。传感器列表如下,但不限于激光雷达、声纳、IMU、红外、摄像机、GPS、雷达等。传感器的选择取决于环境和所需的地图类型。
3) 语义抨击
事实上,人类认识物体的运动是基于感知而不是图像中的特征。SLAM中的深度学习可以实现目标的识别和分割,帮助SLAM系统更好地感知周围环境。语义SLAM也有利于全局优化、循环闭包和重定位。[237]:传统的同步定位和映射(SLAM)方法依赖于点、线(PL-SLAM[238],StructSLAM[239])和平面等几何特征来推断环境结构。语义SLAM可以实现大规模场景中的高精度实时定位,它教会机器人感知人类。
4) 软硬件
SLAM不是一种算法,而是一种集成的复杂技术[240]。它不仅依赖于软件,还依赖于硬件。未来的SLAM系统将着重于算法和传感器的深度结合。基于上图,特定领域的处理器而不是一般的处理器,集成传感器模块而不是像相机那样单独的传感器将显示出巨大的潜力。以上工作使得开发者专注于算法,加速了真实产品的发布。
A Multiple Sensors Calibration
其他工作,如SVIn2[263]演示了一个融合声纳、视觉、惯性和深度传感器的水下SLAM系统,该系统基于OKVIS。[264]提出了一种新的水下摄像机IMU标定模型,[265]利用语义图像分割技术检测水下障碍物。WiFi SLAM[266] 展示了一种新型的SLAM技术,其无线信号名为WiFi。[267]使用毫米波定位非直瞄机器人,并且[268][269]引入了更多借助无线信号的定位技术。KO Fusion[120]融合视觉和轮式里程表。[270]在视觉退化环境(如黑暗环境)中使用带IMU的热相机。
B. Lidar and Visual Fusion
数据层:
激光雷达具有稀疏、高精度的深度数据,相机具有密集但低精度的深度数据,这将导致基于图像的深度上采样和基于图像的深度修复/完成。
[271]提出了一种解决深度图像上采样难题的新方法。
[272]仅依赖基本图像处理操作来执行稀疏激光雷达深度数据的深度完成。随着深度学习的深入,
[273]提出使用单一的深度回归网络直接从RGB-D原始数据中学习,并探索深度样本数量的影响。
[274]考虑CNN在稀疏输入上运行,并应用稀疏激光扫描数据完成深度。
DFuseNet[275]提出了一种CNN,该CNN被设计用于基于从高分辨率强度图像中收集到的上下文线索对一系列稀疏距离测量进行上采样。其他类似的工作如下,但不限于[276][277]。LICFusion[278]融合了IMU测量、稀疏视觉特征和提取的LiDAR点。
Task layer:
[279]融合立体相机和激光雷达感知。
[280]融合雷达、激光雷达和照相机,以检测和分类移动物体。其他传统作品可以看到,但不限于[281][282][283]。
[284]可以通过深度信息(例如由RGB-D相机提供的信息)或来自与相机相关联的激光雷达的信息来增强VO,即使可用的信息很少。
V-Loam[285]提出了一个将视觉里程计和激光雷达里程计相结合的通用框架。在线方法从视觉里程计和基于扫描匹配的激光雷达里程计两个方面入手,同时改进了运动估计和点云配准。VI-SLAM[286]致力于开发一种系统,该系统将精确的激光里程估计器与使用视觉实现环路检测的位置识别算法相结合。
[287]针对SLAM的跟踪部分,采用RGB-D相机和二维低成本激光雷达,通过模式切换和数据融合,完成一次稳健的室内SLAM。VIL-SLAM[288]将紧密耦合的立体声VIO与激光雷达映射和激光雷达增强的视觉环路闭合结合在一起。
[289]将单目摄像机图像与激光距离测量相结合,以允许视觉冲击,而不会因尺度不确定性增加而产生误差。在深入学习中,许多方法可以检测和识别来自摄像机和激光雷达的融合数据,如PointFusion[290]、RoarNet[291]、VOD[292]、MV3D[26]、FuseNet[293]。其他类似的工作见[294]。
此外,[295]利用激光雷达和摄像机,以端到端可学习的架构执行非常精确的定位。[296]融合了3D激光雷达和单目相机。
C. Challenge and Future [297]
数据关联:SLAM的未来必须集成多个传感器。但不同的传感器有不同的数据类型、时间戳和坐标系表达式,需要统一处理。此外,还应考虑多传感器之间的物理模型建立、状态估计和优化。
集成硬件:目前还没有合适的芯片和集成硬件使SLAM技术更容易成为产品。另一方面,如果传感器的精度因故障、非标称条件或老化而降低,则传感器测量的质量(例如噪声、偏差)与噪声模型不匹配。应遵循硬件的健壮性和集成性。前端传感器应具备数据处理能力,从硬件层到算法层,再到功能层到SDK,再到应用层进行创新。
Crowdsourcing:分散式视觉SLAM是一个强大的工具,用于在绝对定位系统不可用的环境中的多机器人应用[298]。协同优化视觉多机器人SLAM需要分散的数据和优化,称为Crowdsourcing。分散数据处理过程中的隐私问题应引起重视。差分隐私技术[299][300]或许可以解决这一问题。
高清地图:高清地图对机器人至关重要。但是哪种类型的地图最适合机器人呢?密集地图或稀疏地图可以导航、定位和路径规划吗?对于长期映射,一个相关的开放性问题是多久更新一次映射中包含的信息,以及如何确定该信息何时过时并可以丢弃。
适应性、健壮性、可伸缩性:众所周知,现在没有一个SLAM系统可以覆盖所有场景。为了在给定的场景中正常工作,其中大部分都需要大量的参数调整。为了使机器人感知为人类,基于外观而不是基于特征的方法是首选的,这将有助于在昼夜序列之间或不同季节之间闭合与语义信息集成的回路。
抗风险和约束能力:完善的SLAM系统应具有故障安全性和故障意识。这不是关于重定位或循环闭包的问题。SLAM系统必须具有应对风险或故障的能力。同时,一个理想的SLAM解决方案应该能够在不同的平台上运行,而不管平台的计算约束是什么。如何在精确性、健壮性和有限的资源之间取得平衡是一个具有挑战性的问题[137]。
应用:SLAM技术有着广泛的应用,如:大规模定位、导航和三维或语义地图构建、环境识别与理解、地面机器人、UA V、VR/AR/MR、AGV(自动引导车辆)、自动驾驶、虚拟室内装饰、虚拟试衣间、沉浸式网络游戏等,抗震救灾、视频分割与编辑
**
**
如今,5G已经得到了广泛的发展,以实现更快速、更大规模的通信[269]。但对于机器人和自动驾驶汽车来说,SLAM技术需要更高的数据速率和更少的延迟,5G无法承受。与5G的100Gbps数据速率不同,6G可以提供更高的数据速率,这是由于频率在100GHz到3Thz(太赫兹)之间。至于与VLC的区别,6G与THz的通信不受光照变化和NLOS的影响。
A. The advantages of 6G Wireless Networks
随着无线通信系统的发展,业界和学术界对6G的研究越来越重视。介绍6G的一些优点[302]。
低延迟:端到端延迟小于1毫秒;
数据速率:高数据速率高达1 Tbps;
超高带宽:非常宽频带;
节能:非常高的能效;
无处不在的连接:能够连接全球网络,包括大量智能事物和智能表面与环境的出现比如墙壁、道路甚至整栋建筑。
智能网络:人工智能和RIS使其更加智能,超越了经典的大数据分析和边缘计算。在人工智能的帮助下,6G被认为是通信、计算和存储资源的平台[303]。它使社会完全连通和数字化。
B. 6G in Simultaneous Localization and Mapping
**SLAM可分为基于无线电的(如卫星定位、蜂窝和WiFi)和基于传感器的(如Lidar、IMU和相机)[304]。**利用无线技术,可以通过构建环境地图,投影到达的角度和时间来估计用户的位置,从而实现SLAM技术。使用基于AoA的定位或路径损耗和AoA的组合的传统mmWave方法,以及RSSI[268]。借助于可重构智能曲面(RISs),定位和建图可以提高精度和扩展物理覆盖范围。
很明显,即使在非直瞄环境中,6G加THz也能产生厘米级的精度,6G将提供一个感知和定位网络,而不是一个用于SLAM的独立源[305]。由于数据速率的提高,大量的计算可以在远程设备或10台机器上进行,从而减轻了机器人和自动驾驶汽车的计算机电源压力。
未来,太赫兹将使机器人和自动驾驶汽车具备新的气体传感、空气质量、健康检测、身体扫描等能力。此外,借助于THz,计算机视觉将得到增强,可以看到非直瞄视角,这将在救援和传感中发挥重要作用。在此基础上,将定位精度提高到亚厘米级,将周围环境的地图构建成无需任何标定和先验知识的三维地图,这是以往难以实现的。此外,在未来的数字社会中,6G和人工智能将在全互联需求下再次取得巨大成功。