基于立体视觉SLAM系统的在线目标检测与定位【论文解析】

Online Object Detection and Localization on Stereo Visual SLAM System【Journal of Intelligent & Robotic Systems (2020) 98:377–386】

摘要:

为了在未知环境中导航,自主机器人必须能够在周围环境中绘制周围环境的地图 同时估算其位置。此问题称为SLAM。我们提出了用于立体摄像机的SLAM系统 在场景中建立对象的地图。该系统基于SLAM方法S-PTAM和目标检测模块。对象检测模块使用深度学习进行在线检测并提供3D姿势估计输入图像中存在的物体的数量,而S-PTAM实时估计相机的姿势。该系统在真实环境中进行了测试,实现了良好的对象定位效果。
原文链接

核心模块:

1 RCNN Module (Object Detection)

使用Faster RCNN 对目标进行分割
基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第1张图片
上图为Faster Rcnn 模型的大致流程,使用了RPN网络和卷积网络交替训练的方法找到感兴趣的区域ROI。 该文作者在绿色框里对姿态回归使用了和RCNN一样的方法(两个全链接层加上ReLU 和dropout)
关于RCNN等模型在我的另一篇博文里 有详细的描述
RCNN的详细描述
下面是论文原文中对这个方法的描述

In the figure, Conv.Net summarizes the five convolutional stages of that model. Its outputs are used by a Region Proposal Network (RPN) to determine the Regions of Interest (ROI) where a pooling as in [7] is done. Several fully connected layers (fc) with a ReLU nonlinearity (ReLU (x) = max(0, x)) and trained with dropout (a technique to prevent overfitting [25]) are used to predict the desired values for each region. The new layers (highlighted in the figure) used in the pose regression follow the same scheme (fully connected + ReLU + dropout).

2. S-PTAM + Object Mapping

CNN输出的检测列表被发送到对象映射模块,在该模块中,对象的姿态相对于S-PTAM处理的最近的关键帧进行估计,包括从二维边界框、方向和大小。利用S-PTAM点云数据进一步细化被测目标的位置,与地图中已存在的对象执行数据关联后,将执行数据融合以更新对象地图。

Rough Object Pose Estimation

基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第2张图片
结合对象R、D和2D边界框的估计,可以预测对象的3D边界框。

该方法基于边界立方体的投影应紧密贴合在边界框中。该限制意味着2D检测的每一侧都必须与(至少)边界立方体的一个顶点的投影重合。这给我们在边界立方体上的4个约束。原则上,边界立方体的角可以位于边界框的任何一侧,但是仅考虑俯仰角和横滚角为零的情况,可能的配置数减少为64。最后,我们选择位置T最小化关于边界框约束的重投影误差。一旦计算出对象的初始姿势估计,我们就可以使用S-PTAM估计的定位来计算重建的地图坐标系中的对象姿势。

The method is based on the fact that the projection of the bounding cube should fit tightly within the bounding box. This restriction means that each side of the 2D detection has to coincide with the projection of (at least) one of the vertices of the bounding cube. This gives us 4 constraints on the bounding cube. In principle, the corners of the bounding cube could lie on any side of the bounding box, but considering only the case where pitch and roll angles are zero, the number of possible configurations is reduced to 64. Finally, we choose the position T that minimizes the reprojection error with respect to the bounding box constraints. Once the initial pose estimation of the object is computed, we use the estimated localization by S-PTAM to compute the objects pose in the reconstructed map coordinate frame.

Object Matching

将图像中的边界立方体(蓝色)投影,确定新检测Bounding box的边界框与投影到图像平面Bp中的每个地图对象之间的边界框(红色)交集(IoU)。将每个观测值与期望观测值最相似的对象相匹配。如果每个映射对象的IoU值小于等于给定的阈值,则认为已检测到新对象。基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第3张图片

Object Position Refinement

基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第4张图片

将每个对象与投影到图像平面上最接近对象边界框中心的映射点配对。只考虑在近似对象姿势的给定半径内的映射点。如果没有映射点在物体附近,检测的物体将被丢弃。

Fusion of Object Observations

所有这些观测值的融合是通过在给定时刻内关键帧获得每个参数的中值来完成,为了考虑到网络错误标记观察结果的可能性,不强制只融合具有相同类别的观察结果。
基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第5张图片
基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第6张图片
基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第7张图片

Objects Confidence Score

We consider three thresholds for the difference between the number ofnlier detections and outlier detections of an object: one for reliable objects, one for unreliable objects that might become reliable in the future, and one for unreliable objects that must be deleted from the object map.

对于系统处理的每个图像,地图对象落在相机视场内
测量。在这些地图对象中,CNN检测到了那些被视为inliers,其余被视为outliers。
跟踪一个目标是阳性检测(inlier count)和失败检测(outlier ount)的时间,生成一个度量地图对象的置信度。三个阈值来区分对象的内部检测和异常检测的数量:一个用于可靠对象,一个用于将来可能变得可靠的不可靠对象,另一个用于必须从对象映射中删除的不可靠对象。

实验概览

基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第8张图片

基于立体视觉SLAM系统的在线目标检测与定位【论文解析】_第9张图片

引用:
https://blog.csdn.net/ainitutu/article/details/105576314

你可能感兴趣的:(目标检测)