研究生SLAM论文阅读汇总(一)

论文

  • 前言
  • 1、 Efficient LiDAR Odometry for Autonomous Driving
  • 2、 Efficient Surfel-Based SLAM using 3D Laser Range Data in Urban Environments
  • 3、 IMLS-SLAM: scan-to-model matching based on 3D data
  • 5、 Provably Good Moving Least Squares
  • 6、 MULLS: Versatile LiDAR SLAM via Multi-metric Linear Least Square
  • 7、Structure-SLAM: Low-Drift Monocular SLAM in Indoor Environments
  • 8、 RGB-D SLAM with Structural Regularities
  • 9、 ManhattanSLAM: Robust Planar Tracking and Mapping Leveraging Mixture of Manhattan Frames

前言

  最近准备写一篇论文,发现写论文跟码代码完全不是一件事啊,写着写着就不想写了,于是想着去把之前看的论文整理一下吧,顺便看看别人的造句啥的。这个系列就是随便写写想法,粘贴一些句子,很多论文我也没看懂,一知半解的(有啥不对的勿喷,马上就改),如果有人看的话,大家也可以讨论讨论。
研究生SLAM论文阅读汇总(一)_第1张图片
  大概有个一百多篇的,暂时也没想好怎么去分类,看的很杂,主要还是雷达SLAM,还有一些UWB,视觉啥的。我主要做LiDAR-based SLAM的,所以跟这方面比较相关的可能写的比较多,其他的就随缘吧。先这样吧,一个博客写个大概十篇文章,写一点发布一点,let’s go!

1、 Efficient LiDAR Odometry for Autonomous Driving

  再看一遍觉得这篇文章里面有不少句子很不错,可以借鉴,前面的related work可以说是很好的对SLAM这一块的各个模块做了很好的一个总结了。
  这篇论文主要是针对自动驾驶这种室外场景长时间运行做了一个优化。首先就是对三维点云投影到一个柱形二维图像和一个俯视图像。俯视图可以更好的将地面点找到从而对z轴、滚转和俯仰角进行约束,柱形二维图对剩下来的x、y轴和偏航进行约束。估计这篇论文是在imls这篇论文的框架基础上改进的,位姿估计这一块与imls一致,另一个比较有意思的创新点就是地图管理了,也就是他实现memory efficiency的关键。对柱形二维图的vertex map和normal map更新,对俯视图的vertex map更新,由于都是二维图像,相较于三维点云图可以省下大量内存。然后做了很多实验,看起来应该确实是速度很快,很节省内存,精度准的原因我感觉还是针对这种自动驾驶场景地面点找的准的缘故。
  对几个点进行鞭尸:Range Adaptive Normal Estimation那里就是一个简单的max min函数,没有那么高大上;位姿估计那一块应该就是imls那一套换了一种说法;地图管理那一快有一部分说了一通也就是关键帧的策略。那个地图更新那里按照原文的意思是不断把之前累计的地图转换到当前帧,这个操作应该是为了融合图像的缘故,如果是三维点云,直接存全局点就行了,所以这样的操作应该存在一个问题就是会不停的把10s内的二维图像一直变换到下一帧去,这个很快吗?maybe。

2、 Efficient Surfel-Based SLAM using 3D Laser Range Data in Urban Environments

  suma这篇我也没完全看懂,感觉把一篇论文完全看懂也太难了,要是真得都懂了还是得看源码,不过这个工作也开源了。这篇论文的总体思路就是用面元当做model,这种区别去传统点云的方法难点应该是地图更新那一块吧,怎么把新得到的面元与之前的地图融合起来。里程计估计那一块是真不知道说的是什么,可能做视觉的对这方面比较懂吧,是说传统点云去在地图里面找最近的五个点去拟合一个平面出来,但是这个方法地图存的直接就是平面方程吗?
  又看了一遍,越看越觉得不对啊,这个跟传统点云SLAM完全不一样啊,这个是把三维点云投影到二维,只是索引最近点的时候没有用kdtree用的是像素点周围的几个点,位姿估计那里用的是point to plane,但是不是在应该全局图或者局部地图上做的registration,这个像是一种前后两帧图像之间的帧间匹配,不过这个“前面帧”是存在一个不断累计迭代的过程的。
  然后在那个回环检测那一块,看的迷迷糊糊的,说是重新构建了vertex map和normal map去让地图残差最小而不是单纯的看里程计误差,但是没有get到这是怎么做到的。论文说是这个重构后的地图是包含当前帧和loop candidates的,是不是这就是关键点所在,正是因为把当前帧也加进去
  知乎上这篇关于KinectFusion的文章可能有点帮助,码住

3、 IMLS-SLAM: scan-to-model matching based on 3D data

  不知道是不是这篇文章首创啊,反正好像很多scan to model的论文都会引这篇文章。文章里面有一个对平面点计算九个values的操作,这个是为了找到最能约束rpy和xyz的点集,通过找到这些点从而减少特征点的个数然后减少匹配的时间。关于这九个值对各个方向的约束是怎么体现的,xyz我能理解,rpy我不理解。这里面的model是一个叫imls的东西,算是一个对点集的曲面拟合吧,然后通过计算法向量和点到imls的距离构建一个非线性优化问题求解位姿。在别的论文里面似乎提到这个方法的时效性很差,事实上这篇论文也确实没有对运行时间进行分析。
  很久之前我就是在想,SLAM这个问题就是一个寻找对应点的问题吧。怎么样才能确定两个点是同一个点,点线面这种约束方式是点对点这种registration的一种弱化,但是增加了鲁棒性和效率。像这种scan to model应该也就是这个意思,我找不到我对应的应该是哪个点,但是我知道你应该就在我附近周围这些点拟合出来的曲面上,我不让你跟点重合,你在我这个曲面上就行了。这种寻找对应关系的过程更加注重逻辑性,接下来的位姿优化则更加注重数学性。一旦找到这种对应关系后,剩下来就是怎么样才能让所有的点都又快又准的与自己的对应平面重合,这样要做的就是去寻找一个优化方向,也就是求解雅克比的过程了。最后地图管理部分,如果是原始三维点云,那就直接加在一起就行了。如果是其他形式的地图,那么麻烦的就是怎么判断哪个地方要更新,更新还不是简单相加,如果要剔除怎么办以及在registration过程中怎么才能快速的对地图索引等。。。

5、 Provably Good Moving Least Squares

  这篇就完全是一个数学推导了,大概说的就是什么是imls吧,应该就是对给定点集的映射函数,能够最精确的表示出这些点所在空间中所具有的几何性质。

6、 MULLS: Versatile LiDAR SLAM via Multi-metric Linear Least Square

  这也是一篇很多好句子的文章,感觉就很地道。运动补偿没啥好说的了,一般不是依赖匀速运动模型就是匀加速或者用IMU去补偿这种。然后前端提取特征这一块是把特征点分为地面点、柱面、屋顶、支柱、悬梁和杂点这种。直白点说其实就是为了在registration过程中更加准确的找到自己的对应点,减少误匹配的情况。如果一个SLAM问题可以非常准确的找到点与点之间的对应关系,那么就变成了一个很简单的数学问题了,可能一个高斯法就能把位姿很好的算出来了。不论是这种对物体进行分类,点线面以及基于面元的或者基于语义的SLAM,其实就是在解决一个分类问题,找到一个标准将点与点区分开,依靠这种双射的非线性函数从而完成匹配的工作。
  这篇文章的位姿求解这块说是进行了一个简化从而达到可以并行计算的效果。然后还有一个创新点就是对残差函数设计了几个加权函数,一个是对残差较大的点进行惩罚、一个是对各个点的约束方向进行一个平均,还有就是对强度差异较大的点进行惩罚。论文里面的A矩阵我没推,但是我觉得仔细看一看还是有意义的,现在暂时没时间了。
  这个论文又让我想起了做自动驾驶这一块应该有一个比较重要的地方就是动态物体剔除了,我们实验室是在无人机平台做,这种情况要好很多,但是在路上,动态车辆十分常见并且如果不处理在地图里面会产生很多重影进而影响定位。一般LOAM这种在位姿优化那里会有一个核函数,把匹配过程中残差较大的点进行剔除,但是这个在地图更新那里确没有剔除这些点。论文里面“ those nonground feature points far away from their nearest neighbors with the same category in the local map are filtered”这句话没看懂。。。最后回环那块用了TEASER这个全局匹配的方法,这个TEASER没看过,是个TRO长文啊,四十多页,有点硬核。回环检测用的是论文里面的NCC编码的相似性,最后用map to map的方式进行一个局部地图匹配应该就是论文图6的a,图6的b和c也很直观,就是子图间匹配和子图内匹配了。
  实验这部分看起来做的很充实,毕竟说是在KITTI上纯雷达第一名。有一个比较好的点就是他对自己的创新点都进行了验证,而不是最后单纯一个总体的实验,实际上敢做这种验证也就说明了是确实有效果且实验效果一致性应该较好的。

7、Structure-SLAM: Low-Drift Monocular SLAM in Indoor Environments

8、 RGB-D SLAM with Structural Regularities

9、 ManhattanSLAM: Robust Planar Tracking and Mapping Leveraging Mixture of Manhattan Frames

  这三篇论文都是出自一个实验室的,核心思想也都差不多,用在了视觉SLAM上,但是曼哈顿世界这个东西第一次看还是挺新鲜的。首先曼哈顿世界这个就是一个三个互相垂直的平面构成的坐标系,在LiDAR-SLAM里面,三个平面就能对位姿产生足够的约束了。并且这个方法有一个好处就是位姿的精确度与之前累计产生的误差没有关系,相当于一个全局registration,只和检测MW的精度有关。关于translation和rotation的解耦就跟LEGO-LOAM一样,就是什么样的特征对什么样的约束好我就去约束他。还有部分工作是在地图重构上面,这个地图相较于雷达的地图更多是一种可视化或者交互的作用,没有雷达对map的依赖那么高。那个MW地图我的理解就是跟雷达的local map很像,或者说是一种回环。
  实验的表和图也是让我有了点启发,就是需要对每个创新点进行一个验证,制作一些比较attractive的现实和仿真结合图放在比较显眼的地方还有那个related work的地方不能只写别人的成果,要很自然的把自己的工作打出来,体现自己的改进。

你可能感兴趣的:(平平无奇的研究生生涯,计算机视觉,深度学习,人工智能)