[LiteratureReview]A survey of image semantics-based visual simultaneous localization and mapping: Application-oriented solutions to autonomous navigation of mobile robots
出处:International Journal of Advanced Robotic Systems 2020( IF = 1.714/Q4,算是和 Robotica一个等级的),Citations:24;作者主要来自东北电力大学,挂了一个澳大利亚伍伦贡大学的老师(材料领域),作者均不是SLAM领域研究者。
Paper:https://journals.sagepub.com/doi/pdf/10.1177/1729881420919185
简述: 语义VSLAM综述性论文,正文13面,参考文献117篇;(首先简述这个领域的优点)VSLAM本身受限于对于图像几何特征的理解,相比之下,语义VSLAM针对higt-level的环境感知可以有效应用位姿估计、闭环检测、构建3D地图等等;(再谈谈自己的工作)论文对语义VSLAM最新的工作进行了论述,主要包括:感知、鲁棒性和准确性等方面的处理方法,并初步提出:“semantic extractor" 的概念和“modern visual simultaneous localization and mapping”的框架;作者认为 多尺度地图表示(multiscaled map representation,是指更高high-level的map)、ObjectSLAM、和深度学习的SLAM是解决图像语义融合的有效方法。
Note:文章还注明了,2019年10月5号接收到论文,2020年2月23号接收发表的;比RAL的三个月时间稍微长一些。
该部分就正常介绍SLAM在一些应用场景下的作用、SLAM的历史、VSLAM和CV融合的趋势;其次引用了16年的那篇TRO"Past, present, and future of simultaneous localization and mapping: toward the robust-perception age"谈谈VSLAM在第三个阶段的重点方向,如图2;然后给了表1列举了SLAM的主要综述;最后谈到自己文章的outline。
作者将语义SLAM系统分为两块:语义提取器和现代V-SLAM框架,并将语义信息的提取分为:目标检测和语义分割。
Object detection和Semantic segmentation相比,Object detection轻量级;Semantic segmentation获取的是像素级的分类,精度更高。
作者认为“Modern V-SLAM system”分为以下几个部分:
数学上,前端任务和后端任务可以分别抽象为“数据关联”问题和“状态估计”问题。
Open-source V-SLAM system :常用的VSLAM系统:
作者认为语义SLAM的感知应该包括两个部分:理解环境和理解人类;一下是语义SLAM地图的部分工作
语义地图可以分为:object level 和pixel level。 这一点挺有意思的,并且我认为以后的趋势的object level和pixel level的融合。
主要分为:feature selection mechanism 和 optimized data association。
这里提到Salient DSO的工作,利用显著性区域提取特征点;利用信息熵的概念提取特征区域;以及动态特征的选择;
data association分为:短期的数据关联和长期的数据关联,短期的数据关联主要用于tracking,长期的数据关联主要用于回环检测。
主流语义SLAM方法通过选择特征或优化数据关联来提高VO的鲁棒性;这里提到CNN的特征提取器。
语义可以在SLAM各个 环境增强精度,比如:初始化、后端优化、重定位、回环检测等。如下表所示:
这里的两个工作如上表主要是通过目标检测引入真实的尺寸信息。
数据关联优化;这里提到VSO。
重定位和回环检测需要的技术是相同的,但是优化的方法不同。
这里提到深度学习端到端的方法,但是可解释性和泛化能力差。
上面讨论了VSLAM的perception、robustness、accuracy 的问题,以及给了一些开放性问题; 这一节是专门进行宏观的讨论,包括:多尺度地图表达、物体SLAM、弱监督和无监督学习SLAM。
这也是一个比较有意思的话题,time-scaled maps 是一个包含时间信息的4D地图;Multiscaled map expression更适合机器人的长期自主定位。
这里列举了Object SLAM的方法,包括SLAM++被公认的第一项Object SLAM的方法,和两个主流的方向:CubeSLAM和QuadricSLAM,整个3D目标检测在快速发展。
目前end-to-end的SLAM方法在现有数据集下表现较好,但是泛化和可解释性较差;而无监督学习是一个主要研究方向,以MonoDepth为例的方法。
总结了一下本文的工作;深度学习和语义SLAM(这里应该是深度学习和SLAM的结合吧,语义的提取本身大部分的方法都是用dl做的)的结合密不可分。