基于深度学习的SLAM概述

目的

本博客总结最近看的几篇关于深度学习的SLAM以及基于深度学习的稠密重建,简要对比记录特点

对比

年份 名称 类型 框图 前端 输出 地图 方法 特点 回环
2022 DPVO mono-VO 基于深度学习的SLAM概述_第1张图片 VO 每一帧的pose和paches转到3D坐标系下的3D点,稀疏点云 稀疏3D点云拼接 提取每张图的feature_map, 随机提取多个patch + 根据初始位姿投影到滑窗内的其余帧 + 网络迭代找到匹配点target + 每个patch投影到其余帧,和对应的匹配点target构成重投影误差,BA优化滑窗内帧的位姿和匹配点target的位置+ patch为二维块,其中心对应的逆深度,加上当前帧的pose,可以转为3D点云。 patch匹配时考虑了局部特征和context特征,BA优化时候,也优化patch轨迹,即2D匹配点位置 没有回环
2022 GCVD mono-sfm 基于深度学习的SLAM概述_第2张图片 RAFT稠密光流, MASK-CNN剔除动态物体 视频流的所有相机位姿和稠密深度图像 没有建图 RAFT稠密光流相邻帧的相对pose+MSCK-CNN语义剔除动态物体+MiDAS估计深度先验+光流视差筛选关键帧+深度特征聚合关键帧,并稠密光流计算相对pose+构建带权重的pose-graph+ 仅优化pose的BA + 网络固定pose, 优化关键帧和非关键帧的深度(代价方程:两帧之间的投影光度误差+光流一致性+地图一致性) 全局一致性
2022 ParticleSfM mono-sfm 基于深度学习的SLAM概述_第3张图片 RAFT连续跟踪多帧 sfm地图和相机pose 全局sfm稠密特征点地图 RAFT稠密光流连续跟踪+光流剔除动态物体+光流多帧构建track+ 全局sfm BA 动态物体剔除,网络泛化好 没有回环,类似滑窗光流SLAM
2021 DROID-SLAM mono-VSLAM 基于深度学习的SLAM概述_第4张图片 全图像素点+稠密光流匹配 输出每个关键帧的位姿和稠密深度图像 全局场景稠密点云地图 RAFT稠密光流+稠密BA+重投影误差 GPU显存占用较大(前端实时需要8GGPU显存,后端由于需要存储所有图像的featuremap,因此,显存占用会很大,5000帧需要24GB),位姿和全局地图精度高 遍历全部关键帧构建帧图
2021 CodeMapping Mapping 基于深度学习的SLAM概述_第5张图片 基于稀疏特征SLAM 输出每个关键帧的位姿和稠密深度图像 全局3D TSDF模型 稀疏基于特征法得到的关键帧位姿,稀疏点云,稀疏点的平均重投影误差,VAE估计初始带有不确定度的稠密深度图像+多帧优化当前帧的稠密深度 与稀疏SLAM(ORBSLAM3)并行,不直接优化深度像素点,优化一个深度code 回环依靠稀疏SLAM保证,多帧优化时不优化关键帧位姿,仅优化深度code。
2021 TANDEM Mono-VSLAM 基于深度学习的SLAM概述_第6张图片 稠密直接法,采用TSDF中投影到当前帧的较稠密深度 输出每个关键帧的位姿和稠密深度图像 TSDF稠密建图 稠密深度图像直接法前端+ 稀疏梯度点关键帧滑窗BA后端,类似DSO 类似DSO 没有回环和全局BA,实时VO位姿和多帧MVS融合的关键帧稠密深度图像
2020 DeepFactors Mono-VSLAM 基于深度学习的SLAM概述_第7张图片 整张图像的LK光流,跟踪上一个关键帧 输出每个关键帧的位姿和稠密深度图像 全局场景稠密点云地图 整张图像稠密LK光流前端跟踪+滑窗内因子图优化关键帧的pose和深度编码code(光度误差,重投影误差因子,稀疏几何因子)+BRISK描述子,词袋闭环检测 深度编码重建的稠密深度不准确 BRISK描述子回环,因子图增加边。
2021 CodeVIO Mono-VIO 基于深度学习的SLAM概述_第8张图片 稀疏点跟踪MSCKF-VIO 输出每个关键帧的位姿和稠密深度图像 局部场景稠密点云地图 MSCKF-VIO + MSCKF优化深度编码(稀疏点云和灰度图像生成关键帧初始深度编码) 局部点云,且点云不准,位姿精度依靠VIO精度 没有回环

你可能感兴趣的:(深度学习,slam)