YOLO-SLAM: A semantic SLAM system towards dynamic environment with geometric constraint

题目:YOLO-SLAM: A semantic SLAM system towards dynamic environment with geometric constraint
----
YOLO-SLAM:具有几何约束的动态环境的语义slam系统” (Wu 等。, 2022, p. 6011)

总结:yolov3与slam的结合并加上几何约束

Abstract

创新:本文提出了一个名为Yolo-Slam的动态环境视觉slam系统。在Yolo-Slam中,设计了一个名为DarkNet19-Yolov3的轻量级对象检测网络,该网络采用了低缓慢的骨架来加速并为SLAM系统生成必要的语义信息。
然后,提出了一种新的几何约束方法来滤波检测区域中的动态特征,在该区域中,可以通过使用随机采样共识(RANSAC)来区分动态特征。Yolo-Slam以紧密耦合的方式组成对象检测方法和几何约束方法,能够有效地减少动态对象的影响。

Introduction

研究背景和研究现状:

现状:据指出,当前的文献主要倾向于采用几何方法和深度学习方法的组合。就深度学习而言,它喜欢使用语义分割,并且在几何学方面,多视图几何是优选的。

目前,基于静态环境假设的大多数现有算法仅允许几乎没有动态点出现。当动态物体占据图像的很大一部分时,传统slam系统的准确性和鲁棒性将面临巨大的挑战。找到一种有效的方法来删除所有提取点的动态点是至关重要的。

近年来,许多研究人员都集中在SLAM系统对动态环境的鲁棒性问题上。解决该问题的主要挑战是如何有效地检测和过滤动态功能,这意味着要阻止跟踪过程采用从移动对象中提取的特征。实现方法:几何方法,深度学习方法和几何与深度学习方法相结合。

几何方法:

[15]提出了一种在背景减法中使用的非参数模型,并考虑了相机的自我运动,使用了深度场景来计算背景模型以及通过图像进行运动估计。

[16]选择深度边缘点以找到对应关系并设计了一种静态加权方法,以减轻动态点的影响。

Wang等。 [17]应用了基本矩阵来检测特征点的不一致,然后聚集了深度图像。

Cheng等。 [18]提出了一种稀疏的运动去除模式,该模式根据连续帧之间的相似性和差异来检测动态区域。

但是,几何方法通常需要一个预定义的阈值来确定特征点是动态还是静态,这很容易导致过度识别或识别不足。

两者结合:

深度学习首先提供了有关动态对象的语义先验信息,随后将几何约束进一步完善,以在出现动态对象的地方过滤特征。

Yu等。 [28]提出了一个名为DS-SLAM的语义系统,该系统通过结合语义分割和光流方法来降低动态对象的影响。

Bescos等人提出了Dynaslam。应用CNN以分段图像中的先验动态对象,并使用多视文几何模型进行重新处理。

深度学习方式:

“while the complex network architecture may slow down the system operation speed”

研究内容:

“The lightweight object detection network modified on YOLOv3 is able to reduce the time consuming of the SLAM system and the geometric constraint method can effectively filter dynamic features only using one image information.”

研究方法和用到的算法:

在本文中,我们提出了一个名为Yolo-Slam的强大的slam系统,以减少动态环境中移动物体的影响。为了识别动态特征点,我们既利用了深度学习在场景理解中的优势,也可以利用特征点的内在几何深度信息。

对象检测线程构建在修订版的Yolov3版本上,通过使用Yolov3的轻巧版本。以提供来自动态对象的语义信息。动态功能筛选线程用几何深度消息区分动态特征点。

YOLO-SLAM: A semantic SLAM system towards dynamic environment with geometric constraint_第1张图片
(Wu 等。, 2022, p. 6014)

Yolov3的骨干从Darknet-53更改为Darknet-19。 DarkNet-19是一个轻巧的特征提取网络,在图3中可以看到DarkNet-19和DarkNet-53的结构。

借助深度图像,可以通过DepthRansac方法将边界框中的剩余固定特征分开。

RANSAC(随机样本共识)是从包含异常数据的一组样本数据集中计算数学模型的一种方法,并可以获得有效数据

参数设置:

“The important hyperparameters of darknet19-YOLOv3 are set as follows: batch = 64, subdivision = 16, width = 416, height = 416, channels = 3, momentum = 0.9, decay = 0.0005, saturation = 1.5, exposure = 1.5, hue = 0.1, learning rate = 0.001, max_batches = 10,000, epoch = 100.”

在本文中,根据原始Yolov3,KCOORD设置为5,以增加坐标预测误差的影响。

创新及难点:

YOLO-SLAM: A semantic SLAM system towards dynamic environment with geometric constraint_第2张图片

在Yolov3上修改的轻质对象检测网络能够减少slam系统的耗时,而几何约束方法仅仅使用一个图像信息有效地过滤动态信息。

实验环境:

该实验中的硬件平台训练Yolo模型[40]是NVIDIA GEFORCE GTX 1660TI,并且SLAM系统正在使用Intel Core i5-4288U CPU,3.7 GB内存和Ubuntu 18.04操作系统的笔记本电脑上运行,没有GPU加速。

实验过程:

删除动态特征点的过程。首先,检测预定义为动态和执行ORB的对象特征整个RGB图像的提取。然后应用几何深度约束来滤除这些动态特征,这些动态特征由红色标记。最后,仅保留静态特征点以进行姿势估计

可以修改的地方:

yolo3中的Darknet网络,可以用yolov5进行代替(作者是在yolo3的基础上使用了更加轻量级的darknet19替换原来的darknet53,相当于网络的压缩)

depth_SANSAC:在深度图上使用sansac算法,提取动态物体的内的动态特征点。

orbslam2是基于特征点检测的,因此前端的特征点提取这一块,对于整个系统来讲非常重要。

你可能感兴趣的:(论文阅读笔记,VSLAM,yolo目标检测,论文阅读记录,动态场景slam)