【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments

一、系统总览

这次的PLSLAM和之前的那个PLSLAM是两个东西,上一个PLSLAM相当于只有前端而没有后端,更多地是提出了一个前端的重投影误差,而这次的PLSLAM则是一个完整的PLSLAM框架,包括了制图、特征跟踪、局部制图以及回环检测等部分,大体框架如下:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第1张图片
制图部分中,地图包括一系列的关键帧、检测到的路标点、共视图和生成树。关键帧存储特征的描述子以及所在关键帧的3d位姿,路标点存储最具有代表性的描述子,点特征保存3d位置而线特征保存方向和端点的坐标。对于共视图,与orbslam类似,但是这里认为超过20个共视路标才是共视关系,而在关键图中,超过100个共视路标才视为关键图上存在边。
特征追踪的部分,通过最小化重投影误差来优化位姿,这个过程每次插入新的关键帧都会执行一次。
局部建图的部分在关键帧之间寻找特征的对应关系。
回环检测则是利用一个修改过的词袋模型进行回环检测。
下面展开来一一介绍每一个部分。

二、特征追踪

既然是点线SLAM,那么最基本的就是点特征和线特征的分别处理。

对于点特征,论文使用了ORB特征和BRIEF描述子去提取和匹配,在匹配过程中,使用了最优和次优匹配相结合的方法进行筛选,即当次优匹配的描述子距离的两倍比最优的描述子距离大的时候就认为是误匹配,这种方法与ORBSLAM类似,通过这种方式保证提取出来的匹配特征点更加准确。

对于线特征,首先使用LSD算法提取线段,之后利用LBD描述子对线段进行描述并且进行匹配,之后使用与点特征类似的最优与次优筛选去获得更加准确的线段匹配,最后再利用长度和方向,筛除在这两个方面差别较大的匹配,最后得到匹配的线段。

得到匹配的点线特征之后,就可以进行运动的估计了,主要的方法是将点线特征进行投影,利用高斯牛顿法最小化点线的重投影误差,从而得到帧间的位姿变化,最后我们可以得到一个增量式的运动估计,表示为:
在这里插入图片描述
其中,N内部的两项分别为估计的结果和估计的协方差。

确定好帧间的位姿变化之后,就涉及一个关键帧的选择,毕竟后面的操作都是利用关键帧来操作的。一般的slam方法都是选择距离足够远的两帧作为关键帧,在这篇论文中主要是用到了关键帧的熵,熵的计算方法为:
在这里插入图片描述
而关键帧的筛选则是利用到了熵的一个比例,即:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第2张图片
只有熵小于0.9就认为当前帧为关键帧,也就是说对于上一个关键帧KFi,如果当前帧的当前帧i+u的熵满足上面的式子,就认为i+u帧为关键帧,就会被加入到关键帧队列中。

三、局部建图

在上一步中,我们不断通过计算帧间点线特征的重投影误差,得到了每一帧的位姿,当熵的比值小于0.9的时候认为得到了一个新的关键帧,关键帧会被放到一个队列中,后面的操作就是针对于关键帧的了。

当有一个新的关键帧加入到队列中时,就需要修正当前关键帧和上一个关键帧之间的位姿关系,将视觉里程计计算的当前帧的位姿作为初试位姿,利用高斯牛顿法,最小化关键帧之间的重投影误差,从而优化得到当前关键帧的位姿,优化完成之后,就将新的关键帧加入到系统中去,包括三部分:给关键帧一个索引、关键帧的位姿和新检测到的路标点。

关键帧被加入到系统中后,就需要利用局部BA优化对地图做更新,新的关键帧包含的内容被加入到地图中去,利用BA优化去对关键帧的位姿、点特征的3d坐标以及线特征端点的3d坐标进行优化,目标式子为:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第3张图片
其中Ψ表示要优化的三项内容,Kl是所有的局部关键帧,Pl和Ll则表示局部的点特征和线特征,可以看出优化的内容实际上就是点和线的重投影误差的和,其中eij是一个矩阵,表示的是第i个关键帧中的第j个点的重投影误差,可以表示为:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第4张图片
同样地,对于线段的处理方法也是类似的,只不过由于一条线段有两个端点,所以矩阵的写法也会稍微发生变化:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第5张图片
其中Lik表示的是直线的方程,而线段的重投影误差实际上就是端点的投影到直线的距离。

利用最小化重投影误差,计算出一个增量值:
在这里插入图片描述
之后利用这个增量值,递归地进行优化:
在这里插入图片描述
最终得到一个优化后的结果,即校正之后的局部地图。经过校正之后,如果路标被观测的次数少于三次,就被认为意义不大,会被删去。

四、回环检测

在检测的过程中,一般的回环检测都是利用点去检测是否出现了回环,但是由于我们使用的是点线特征,所以线特征也可以加入到回环检测中,论文使用了一个相似度矩阵,去衡量两张图的相似程度:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第6张图片
矩阵中的每个位置都是一个相似度的结果,表示的是查询图和数据库中图的相似程度,可以看出,由于斜对角线上表示的是自己和自己的比较,所以相似程度是1,也就是红色,而越深的蓝色表示的是越不相似。上面这两张图,左边的a表示的是使用ORB作为特征点进行的相似度计算,而右侧的是用LBD描述子描述提取出的线段进行计算的相似度。论文的意思是说,如果产生了回环,那么不仅点会出现重复,而且线特征也会出现重复,只有点线同时产生重复,才能认为大概率出现了回环。

基于这种理论,论文用下面的公式去计算相似度:
在这里插入图片描述
其中sk表示点特征的相似度,而sl表示的是线特征的相似度,而wk和wl表示的是两个相似度的权值,加权求和后会作为当前帧查询的相似度,这两个权值是的计算采用的计算方法是:
在这里插入图片描述
其中nk和nl表示的是当前帧中提取到的点特征和线特征的数目。除了这两个值,还有两个值:
在这里插入图片描述
其中dk和dl表示的是xy坐标方向上的分散程度,点特征直接用于计算,而线特征则需要取中点进行计算。计算出这两个值之后用下面的公式计算:
在这里插入图片描述

除了计算相似度,对于错误检测的排除也需要进行筛选,也就是说要筛选掉错误的回环。对于这部分,首先利用前面使用的位姿变化计算方法去计算回环之间的位姿变化,之后利用下面三条去筛选:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第7张图片
协方差矩阵的特征值要小于0.001,内点率要高于0.5,位姿变化不能太大,满足这三点就可以认为是正确的回环检测,就进入到后面的回环修正的部分。

五、代码运行

运行这个代码大多数是参考这三个页面:
https://blog.csdn.net/Wenyue_Wang/article/details/82318484
https://blog.csdn.net/csdn330/article/details/86749921?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0.pc_relevant_antiscanv2&spm=1001.2101.3001.4242.1&utm_relevant_index=3
https://www.cnblogs.com/feifanrensheng/p/11593973.html
里面提到的内容能够解决大多数的问题。本人使用的是Ubuntu16.04,目前配置成功,除了上面博客中的内容,g2o库最好使用旧版本的,编译过程中出现的错换成旧版本就可以解决很多。数据集的格式一定要按照官方的来,程序会根据路径来加载图片,所以不要随便改程序的路径。

补充一下,如果出现了编译成功但是运行的时候显示找不到库,可以按照下面链接里的方法,手动连接:
https://cloud.tencent.com/developer/article/1432498

再次补充,运行过程中如果出现段错误,可能是因为代码写法的问题,具体表现为运行kitti数据集时,只要出现关键帧就会段错误然后停止运行,出现这个错后我按照代码的运行顺序一点一点排查,最后发现是在mapFeature这个文件夹下的addMapLineObservation函数,这个排查过程涉及一些c++的多线程,所以排查的时候需要分开去检查,对于出错的函数,主要是下面这句代码出现的问题:

    pts_list.push_back(pts_);

这句代码就是一个简单的vector的插入元素操作,问题在于插入的元素和向量的类型,是eigen库里面的Vector4d,如果将这一句话去掉,整个代码是可以运行的,但是相应地在回环检测的部分会出现问题,因为少保存了线段起点和终点的位置。回到错误本身,上网查了很久这个错的原因,最后终于找到了错误原因,是向量写法的问题,具体参考以下博客:
https://blog.csdn.net/Goretzka/article/details/118558984
按照这个博客的内容,需要将mapFeature.h里面的对pts_list的声明修改为:

vector< Eigen::Vector4d ,Eigen::aligned_allocator<Eigen::Vector4d> > pts_list;

这样段错误就可以解决了,代码能够正常运行:
【论文阅读】PL-SLAM: a Stereo SLAM System through the Combination of Points and Line Segments_第8张图片
目前出现了新错误,在用kitti07数据集运行的时候,总是会报double free or corruption (out) Aborted (core dumped)的错误,在运行到1070帧的时候就会出现这个错误,个人猜测是内存不足的问题,待解决。

六、代码结构

整个程序的主函数对应的cpp文件是pl-slam-master下面的app文件夹下的plslam_dataset.cpp,要看代码的话从这个文件开始即可,程序首先根据运行时输入的指令,将参数项和参数分别加载,对于不需要额外指定配置文件的情况下,相关的配置参数可以查看pl-slam-master下的src文件夹下的slamConfig.cpp文件和stvo-pl-master下src文件夹下的config.cpp,这两个cpp文件对应了默认的plslam配置信息,包括是否采用多线程、使用点特征还是线特征、是否使用基于网格的快速匹配等内容。

加载完配置文件,程序会初始化几个对象,分别为:
①cam_pin对象
存储相机的相关信息,可以实现投影和反向投影等内容。
②dataset对象
用于存储数据集中的相关内容,再后续用于提供每一帧的双目相机信息。
③scene对象
用于结果的可视化,打印显示plslam的结果路线。
④map对象
用于存储地图上的点和线段,相当于固定下来的路标点线。
⑤timer对象
计时器,用于计算中间过程中每一步的耗时。
⑥StVO对象
用于处理每一帧,如果是第一帧,就运行初始化程序,如果不是第一帧,就运行正常的slam程序,保存前后两帧的信息并计算位姿变化。这个对象在整个程序的过程中都是重复使用的。

完成一些基本对象的初始化之后,程序开始逐帧加载数据集中的双目相机的图像。加载过程中,如果是第一帧,也就是加载了第一对图片,那么就调用初始化的内容,否则正常运行plslam的内容。
在初始化的部分,由于没有上一帧的信息,就将当前这一帧作为第一帧,同时作为第一个关键帧,需要调用StVO对象的initialize函数,在这个函数中会根据设置的参数,对左右两帧图像分别提取特征点和特征线,并对左右两张图的特征进行匹配。匹配过程中使用了一个基于网格的窗口匹配机制,也就是将点和线分别划分到网格里面,那么在匹配时,就可以只选择临近网格进行匹配,而较远网格的就可以不参与考虑,对于点特征,代码选择横向的几个相邻网格,这主要是因为行驶过程中双目相机一般都是水平存在光心上的差别,而在垂直方向上一般没有,对于线特征,代码也才用类似的思想,横向提取线段相邻的网格,将经过相邻网格的线全部纳入匹配的范围内,对于匹配的特征信息,利用视差等方法,恢复特征的3d信息,存储在相应的数据结构中,同时只保存左边摄像头拍摄下来的信息,也就是说双目摄像机的作用主要就是计算深度信息,而恢复之后就当作单目继续使用。左右两帧图像的匹配代码对应在stvo-pl-master下src文件夹下的stereoFrame.cpp中。初始化之后,将这第一帧作为第一个关键帧,初始化一个关键帧对象,并将第一个关键帧插入到地图map对象中,同时将第一帧放入可视化场景中。

对于非第一帧,则正常运行slam的程序。首先对StVO对象插入新的一帧,相当于这个对象保存了当前帧和上一帧,对新插入的当前帧做特征提取和匹配,同时采用相同的方法恢复地图信息。不同之处在于,在正常运行slam的情况下,接下来还会有一步特征跟踪,所谓特征跟踪,本质上还是特征匹配,只不过将匹配的两帧换成了前后两帧,在特征跟踪的过程中,并没有使用网格匹配,个人猜测是因为汽车的运行过程中,匹配的点并不是一种简单的位置变化,固定一个点来看,在下一个时刻它出现的位置并不一定是水平或者竖直范围内,很可能是一个椭圆形的区域,而对于这个区域,并不好用网格来表示,所以程序干脆采用了暴力匹配的方法。
特征跟踪之后,我们得到了前后两帧的特征匹配关系,接下来就调用optimize函数来进行位姿的优化,这一部分会根据配置文件中的特征选择,选择对应的特征,默认情况是点线都纳入优化,利用高斯牛顿法对位姿进行优化,最后得到当前帧的位姿。
之后会调用needNewKF函数来判断是不是关键帧,如果是关键帧,就利用当前帧初始化一个关键帧对象,同时向地图中插入新的关键帧。

重复上面的步骤,直到所有的图像都遍历一遍。之后进入到全局优化的部分,通过地图对象调用全局优化的函数,最后再在可视化场景中对结果做一遍重新的打印。

上面所述的是明面上的程序,再初始化的时候,其实是进行了一个多线程的操作,在初始化map对象的时候就开启了多线程的操作,多线程的内容在pl-slam-master下的src文件夹的mapHandler.cpp程序中,可以看见在initialize函数的最后,调用了startThreads函数,这个函数就开启了三个并行的线程:局部建图、回环检测和关键帧的获取。关于多线程和信号量的内容,都是考研时操作系统的基本内容了,但是实际体现在代码上还是第一次见,一些用到的函数可以参考下面的博客:
https://blog.csdn.net/qq_34915586/article/details/103180245
https://blog.csdn.net/fengbingchun/article/details/78638138/

handlerThread线程对应的是获取前后两个关键帧,在这个线程中,只要收到了新关键帧插入的信号,就发出相关的信号量通知其它线程可以继续操作了。

localMappingThread现场对应的是局部建图,在这个线程中主要是依托了四个函数:
①lookForCommonMatches
进行点线匹配,包括关键帧之间的匹配和关键帧与地图之间的匹配
②formLocalMap
修正共视关系
③localBundleAdjustment
进行局部的ba优化
④removeBadMapLandmarks
删除过旧的地图中的点线信息

loopClosureThread对应的是回环检测线程,在这个线程中会对于新增加的关键帧,进行相似度的计算,填充相似度矩阵,填充好后利用这个矩阵,通过lookForLoopCandidates函数去选择是否有新的候选回环关键帧,如果检测到了回环的候选,就利用isLoopClosure函数检测是否是真的回环,如果通过了检测,那就说明真的是回环,就会存储回环信息,修改一个信号量,让handlerThread在下次被唤醒时执行回环矫正的操作。

整体的代码大概就是这个结构,其中大量的矩阵运算没怎么看,属实是数学拉胯了。另外在匹配过程涉及了很多帧间的索引的修改之类的东西,由于不是很好表达,上面就省略了,在多线程的部分记录得也比较简单,具体的内容还需要深入去看。

你可能感兴趣的:(视觉SLAM,算法,计算机视觉,机器学习)