1)第一个使用体积表示法的RGB-D多实例动态SLAM系统;
2)一种更鲁棒的跟踪方法,利用测量不确定性加权并重新设置参数以用于对象跟踪;
3)一个集成了几何信息、光度信息和语义信息的分割方法;
4)将语义分布和前景对象概率融合到基于八叉树的物体模型中。
图2显示了我们提出的系统的流程。它由四个部分组成: segmentation, tracking, fusion and raycasting。每个输入的RGB-D图像都由Mask R-CNN处理以执行实例分割,然后进行几何边缘分割和计算运动残差以优化蒙版边界(第IV-D节)。对于tracking,我们首先根据不包括人类蒙版区域的所有顶点计算相机位姿(第IV-B节),然后从该位姿进行光线投射,以找出哪些物体在当前帧中是可见的。这也可以帮助将局部对象蒙版与现有对象模型相关联。我们评估每个对象的运动残差以确定其是否处于运动状态,然后追踪运动物体(第IV-C节)并根据静态世界(包括当前的静态对象)改进相机的位姿(第IV-B节)。使用相机和物体的估计位姿,将深度和颜色信息以及预测的语义和前景概率融合到物体模型中(第IV-E节)。 IV-F节介绍了可见物体的检测以及射线投射。
计算相机位姿分为两步
1.根据除人类外的所有模型的顶点计算相机位姿。
2.根据静态场景计算相机位姿。
通过最小化密集的点到面的ICP残差eg和光度(RGB)残差ep来进行这两个步骤,这些残差由单独的测量不确定度wg和wp加权。
在初始化相机位姿之后,我们进行光线投射以在视图中找到可见的物体。 为了找到运动的物体,我们需要按公式7重新计算RGB残差,然后在当前帧上对Etrack(TWCL)进行最优的评估,并设定一个阈值(个人理解:小于阈值的点为inlier)。 如果物体的蒙版中的inlier比率低于0.9,则我们认为该物体正在移动并按照IV-C节中描述优化其位姿。
然后,通过使用相同的目标函数和优化策略仅根据静态物体来优化相机的位姿。
根据公式8和公式9重新最小化公式1,即可求得运动物体的位姿。
对于每个RGB-D帧,我们使用Mask R-CNN [16]进行实例分割,然后通过几何边缘优化来解决泄漏的Mask边界[14]。
然后,我们通过光线投射将每个地图物体的实例蒙版渲染到当前帧。
通过计算 IoU 与渲染蒙版的交集,我们将从Mask R-CNN和几何优化生成的局部分割蒙版与现有物体模型相关联。
在将分割蒙版与物体模型关联之后,我们将基于物体的运动残差进一步优化分割蒙版。根据公式10重新计算公式1,对于ICP和RGB残差过高的像素将被视为outlier,并在分割蒙版中滤除。
将深度、颜色、语义、前景概率信息集成到物体模型
光线投射方法是基于图像序列的直接体绘制算法。从图像的每一个像素,沿固定方向(通常是视线方向)发射一条光线,光线穿越整个图像序列,并在这个过程中,对图像序列进行采样获取颜色信息,同时依据光线吸收模型将颜色值进行累加,直至光线穿越整个图像序列,最后得到的颜色值就是渲染图像的颜色。
使用神经网络获得先验边界框,人为确定动态权重,权重低于0.5为静态区域。在静态区域中选择特征点,初步估算两帧之间的相对运动。根据得到的变换矩阵,将参考帧映射到当前帧。将当前帧划分网格,计算特征点对的欧式距离,然后用每个欧氏距离比上其中的最大值,据此给各个特征点计算动态权重,进而计算各个网格包含的特征点动态权重的平均值,即为网格的动态概率。然后将网格的动态概率和物体检测后,人为赋予的动态权重带入贝叶斯定理,更新动态概率。最后去掉动态区域,计算相机位姿。
DSO详解
本文将语义分割网络与深度预测网络相结合,以提供先验的深度和语义信息。
我们提出的方法基于DSO。 因此,我们首先在III-A部分中简要描述DSO。 然后,我们提出的算法的整体方法在第III-B节中显示。
深度预测和语义分割分别在第III-C节和第III-D节中介绍。 最后,我们在III-E节中介绍了检查运动一致性和滤除动态点的方法
我们提出的方法的总体框架如图1所示。我们的方法的输入由RGB图像序列组成,这些RGB图像序列被分解为红色,绿色和蓝色通道。 将光度校准应用于三个通道,然后将它们合并。 校正后的RGB图像是深度预测和分割网络的输入。原始的RGB图像也将转换为灰度图像,进行光度校准,然后用作动态点选择的输入。
与DSO相反,在DSOD中引入了深度预测网络以提供初始深度并对点模式进行编码,以匹配投影的初始位置。 目的是加速深度的融合。网络在单目SLAM系统中在一定程度上补偿了尺度漂移。 此外,语义分割网络用于检查移动一致性,以减少动态环境中的错误。 最后,DSOD的输出是估计的位姿。
DSO仅从当前关键帧中选择像素。 因为它使用用不确定深度信息初始化的像素作为候选点,沿大范围沿对极线进行搜索时,可能会生成错误的投影对。 因此,我们将深度预测网络引入到我们的方法中。 我们使用无监督的单目深度估计来预测候选点的初始深度。 该估计通过单图像深度预测网络为候选点初始化过程提供了先验的深度信息。
在沿对极线对候选点模式的代码和搜索点模式的代码进行XOR操作之后,最相似的投影就是我们的目标模式。 第二步是执行高斯–牛顿迭代,以优化投影对并更新候选点的深度。 最后,我们确定经过1次迭代后候选点的深度(相对于参考系)是否收敛。 如果没有,则不应将该候选点用于姿势估计
在本文中,语义信息被用来标记动态环境中的潜在动态点。
为了提高分割的准确性,我们采用了可以提供像素级分割的分割网络。分割网络在COCO数据集上进行了训练[33],它可以检测30类物体。其中,人,汽车,自行车,公共汽车和摩托车被定义为潜在的移动物体。
用RANSAC方法和合适的特征点,确定基础矩阵。
利用基础矩阵和参考帧的像素坐标计算极线。
计算当前帧的像素点到极线的距离,若大于阈值则为动态点。
泡泡图灵智库解读
一个兄弟的解读
图1 DS-SLAM概述图。 原始RGB图像用于同时进行语义分割和移动一致性检查。 然后删除异常值并估计位姿。 基于位姿,深度图像和语义分割结果,在独立线程中构建语义八叉树地图。
图2 DS-SLAM的框架图。 局部地图线程和回环检测线程与ORB-SLAM2相同。 前者处理新的关键帧并执行局部BA以在相机姿势的周围实现最佳重建,而后者搜索回环并在检测到回环时执行图优化。
通过光流法匹配特征点
若某对匹配的特征点接近边界,或其像素值与以它为中心的3x3区域内的像素值差别太大,就丢弃这对匹配。
用RANSAC方法和合适的特征点,确定基础矩阵。
利用基础矩阵和参考帧的像素坐标计算极线。
计算当前帧的像素点到极线的距离,若大于阈值则为动态点。
语义分割结果无法判断物体是否是动态的。
运动一致性检查得到的点,不是这个物体包含的所有点,缺少精确轮廓
因此,将这两个步骤的结果结合起来,如果在一个物体的语义分割边界内,有足够数量的由移动一致性检测得到的移动点,那么这个物体的所有点都被视为动态的。然后剔除动态点进行位姿估计。