SOF-SLAM论文阅读笔记

SOF-SLAM:A Semantic Visual SLAM for Dynamic Environment 2019.10.22

论文出发点:

对于动态场景的SLAM系统,如今一般采用语义信息,要么利用几何信息,或者简单结合的方法进行动态物体检测。

针对问题:

高动态场景的语义地图建立。

方案:

基于RGBD视频流的ORBSLAM2模型,提出一种动态特征提取方法:语义光流法(Semantic Optical Flow—SOF)。
SOF具体作用方式:结合运动前的语义信息(由SegNet获得),辅助对极几何的计算,然后过滤掉真正的动态特征。将仅保留了剩余的静态特征送入跟踪优化模块,实现了动态环境下相机姿态的精确估计。

具体实现:

SOF-SLAM论文阅读笔记_第1张图片
整个系统与ORBSLAM区别就在于跟踪线程新增了SOF模块。接下来将介绍一下SOF,框图如下所示:

SOF-SLAM论文阅读笔记_第2张图片
语义的运动先验信息的含义是,根据物体的语义标签判断其潜在的动态可能性。比如人是潜在的动态可能性很高,椅子很低。因此语义的先验信息包括三种状态:静态,潜在动态,动态。根据其状态保留或者删除对应的特征点,但潜在动态难以处理。
对极几何约束:我们需要通过对极几何约束估计相机位姿;又需要通过相机位姿判断特征点是否满足对极几何约束(不满足则代表特征点是在移动的)。这个关系是矛盾的。
一般情况下,是根据两种判断结果取“或”来作为最终结果。这种当时在文章中被称为“lossely coupled ways" 松散的耦合方式。因此本文采用一种紧密的耦合方式。具体步骤如下:
1)首先采用SegNet获得运动先验信息,去除动态点之后,利用光流法计算两帧图像的相机位姿变化。解的本质矩阵F。
2)然后利用外极线约束寻找动态特征(本文采用偏离超过1个像素,便作为动态特征删除)。
3)最后运用经过两次动态特征剔除的最终版本特征点集进行计算,得到最终的本质矩阵。
效果图如下:
SOF-SLAM论文阅读笔记_第3张图片

可以看出效果比仅仅使用常规方法的好。论文最后和自己搭建的纯语义去除动态特征的SLAM系统做了比较。显而易见,肯定这个好。然后跟其他先进的系统在数据上进行了对比。

展望

1,采用更多帧
2,判断特征点是否动态采用一种概率框架,能提高准确性和鲁棒性。

思考

这篇文章的亮点在于解决这个外极线约束的时候逻辑关系的混乱,运用光流法,在运动先验信息的基础上计算位姿之后。用该位姿判断所有特征点的外极线约束。
系统整体结构并不复杂,融合语义和光流这个想法也比较新颖。所谓大道至简,作者利用该方法化解原方案的逻辑问题。

笔记中有哪些不准确的地方,还望大家指正。也请大家一起分享自己的心得,共同进步,互勉。

你可能感兴趣的:(SLAM论文阅读)