[论文笔记]Fast Odometry and Scene Flow from RGB-D Cameras based on Geometric Clustering

摘要

本文提出了一种基于RGB-D序列的摄像机运动与分段刚性场景流联合估计的有效方法。其关键思想是对场景进行双重分割,将其划分为几何集群,然后将其划分为静态或移动元素。将动态场景表示为一组刚体簇大大加快了运动估计的速度,而将其划分为静态和动态两部分,使得我们可以将摄像机的运动(里程数)从场景中观察到的其他运动中分离出来。该方法在多核CPU上平均运行时间为80毫秒的动态环境下,鲁棒、准确地确定了RGB-D相机的运动。该代码可供公众使用/测试。

Introduction

  • 提出了一种新的RGB-D相机运动估计方法和场景流估计方法
  • 将观测点的3维坐标进行k-means,分成几何簇
  • 几何簇视为刚体用于 场景流估计
  • 场景分成静态和动态部分,静态部分获取相机运动,动态部分的场景流进行了估计
  • 通过时间来传播背景分割,因为场景的静态和移动部分很可能是沿着图像序列一致的。

Overview of the method


如图一所示,输入的是一对图像帧,每一帧有灰度图像I和深度图像Z

这里论文里写的灰度图像,但是图一显示的是RGB图像

  • 通过K-means对帧$(I_1,Z_1)的3D坐标分成N个几何簇
  • 里程计初始估计值(位姿)由结合M-estimator的最小化光度和几何误差计算
  • 然后用这个初始估计值分割动态和静态部分,这里实现的方法是,根据初始估计值对I-D对中一帧图像变换到另一帧,计算每个聚类的平均残差,低残差的是背景,高残差的是动态物体
  • 没有用二值分割区分动静,这里使用表示簇i是运动物体的概率.
  • 得到分割结果后,1.标记为背景的簇用于获取更精确的位姿结果;2.对其余部分估计分段刚性场景流;3.使用心得位姿结果重新计算背景分割,并将其变换到下一帧,因为移动的物体可能会移动不止一帧,在下一次迭代时用变换后的背景分割来获得时间一致性的分割。

几何聚类

  • 使用图像的3D坐标进行K-means聚类,
  • 建立连接图,表示哪些簇在空间上是连续的,这个图被用来后面的背景分割(将相邻簇进行相似的分割)
  • 对相邻的聚类进行平滑处理,以避免其边界上的剧烈运动过渡,但这种平滑主要影响场景流估计,在算法的其他模块中没有发挥任何作用。
  • 分割种类数不能太大也不能太小,这里选用24个。

视觉里程计ROBUST ODOMETRY

  • 里程计由RGB-D图像对的最小光度和几何误差计算
  • 几何残差:
  • 光度残差:

    这里代表图像中的一个像素坐标,为一个3D点对应深度,函数为3D点映射到图像上,为齐次变换,变换函数为:

  • 优化函数:

    其中M为Z中深度为非空的像素个数。柯西m估计量(Cauchy M-estimator)代表了鲁棒性和收敛盆地之间的一个很好的折衷,因为它比L2 / L1规范鲁棒得多,但永远不会像Tukey的双权函数那样变平。参数表示光度和几何项的权重。参数c表示F的拐点,可以进行调优,使估计对高残差具有或多或少的鲁棒性。

  • 应用预加权帮助求解器收敛到真实的相机运动:

    预加权具有双重功能。首先,它将之前分割为移动对象的簇的像素降权(记住BT(z)编码像素在前一帧中移动的概率:x)。其次,它赋予远处的点更多的意义,这些点更有可能观察到场景的静态部分。

背景分割

  • 使用上面计算的位姿(以前计算过)来检查哪些区域/集群遵循这种运动模式,哪些不遵循。

    这个计算不是按像素来执行的,而是按集群来执行的,因为我们假设集群中的所有像素都具有相同的刚体运动

  • RGB-D图像帧通过变换
  • 在变换之后,属于背景的簇具有低几何和光度残差,动态物体具有高残差

    这一标准应该足以将场景分割成静态和非静态部分,但在实践中,这个过程要复杂得多,因为残差并不总是评估精确图像对齐的好指标:

  • 为了解决上面的问题,将背景分割分成两步:
    首先,我们计算了每个集群残差的鲁棒度量(5)。
    然后,提出了一个最小化问题,根据b簇的平均残差、它们的几何形状和之前的分段bT (bT是通过平均每个簇的bT (x)来计算的)来得到b簇的分割。
  • 平均残差计算如下:

    这里是第i个簇的大小,是簇中被遮挡的像素数,是簇的平均深度,被遮挡的像素被认为是几何残差低于一定阈值的像素,即被遮挡的像素

  • 下面通过最小化能量函数来获得背景分割。能量函数由四项组成:

    这里的b就是未知变量:要求的背景,依赖

  • 在簇残差较低时将簇分成背景,项如下:

    为下面分段函数
  • 正则化项定义为的作用是将相邻集群获得类似的分割

    这里的G就是k-means之后的连通图

  • 时间正则化项的提出是因为场景的静态和动态部分很可能在时间上保持静止和移动

    我理解这里是之前帧计算的所以具有时间一致性

  • 最后一项,模拟了这样一个事实:在室内场景中,移动的物体往往位于前景,而远处的观察很可能捕捉到环境的固定元素(墙壁、天花板、地板、家具等)

    这里深度越大max那一项越大,然后进行能量函数最小化时就需要bi小,这样就可以实现远景通常为背景的假定

你可能感兴趣的:([论文笔记]Fast Odometry and Scene Flow from RGB-D Cameras based on Geometric Clustering)