BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses—2017(笔记)

BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses of Challenging Objects without Using Depth—2017(笔记)

BB8:一种可扩展,准确,鲁棒至部分遮挡的方法

文章以单帧RGB图像为输入,采用基于CNN的方法完成对输入图像的定位、分割、分类以及优化估计,以3D边界盒8个顶点的2D投影结合N点透视法PnP algorithm预测目标3D姿态,并通过限制训练图像的旋转范围解决各类旋转对称的姿态估计不适定问题。

BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses—2017(笔记)_第1张图片
BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses—2017(笔记)_第2张图片

摘要

  1. 文中介绍了一种仅从彩色图像进行3D对象检测和姿态估计的新颖方法。
  2. 我们首先使用分割来检测2D感兴趣的对象,即使存在部分遮挡和杂乱的背景。
  3. 与最近的基于patch的方法相比,我们依靠“整体”方法:我们对检测到的对象应用经过训练的卷积神经网络(CNN),以8个3D边界盒角的2D投影形式预测其3D姿态
  4. 但是,这对于处理来自最近的T-LESS数据集的对象并不足够:这些对象表现出旋转对称轴,并且在两个不同姿态下该对象的两个图像的相似性使训练CNN具有挑战性。我们通过限制用于训练的姿态范围,并通过引入一个分类器来识别一个姿态在运行时的范围,然后再进行估计,来解决此问题。
  5. 我们还使用可选的附加步骤来完善预测的姿态。
  6. 我们将LINEMOD数据集上的最新技术从正确注册的RGB帧的73.7%[2]提高到89.3%。我们也是第一个仅使用彩色图像报告遮挡数据集[1]的结果的人。在T-LESS数据集的几个序列上,我们平均获得54%通过Pose 6D准则的帧,而在使用颜色和深度的相同序列上,最新技术的67%[10] 。
  7. 完整的方法也是可扩展的,因为可以同时针对多个对象训练单个网络。

引言

  1. 文中采用“整体”方法,即直接从其外观预测对象的姿势,而不是识别其各个表面点,且效果明显。
  2. 首先,以2D模式检测目标对象。与标准滑动窗口检测器相比,使用对象分割其执行效果更好,尤其是在存在部分遮挡的情况下。
  3. 然后,应用CNN来预测检测到的物体的3D姿态。尽管可以通过平移和旋转直接表示预测的3D姿态,但我们通过使用与[3]中用于对象部分的表示,来获得更好的精度:我们可以预测对象边界框角的2D投影,并使用PnP算法从这些2D-3D对应关系计算3D姿势。
  4. 上述方法对旋转对称目标效果差,解决办法:限制目标旋转范围,利用分类器(CNN)回归目标初步旋转区间,最后利用“feedback loop”优化姿态估计。
  5. 我们的完整方法:边界框的8个角称为BB8。该方法速度快只需要将Deep Networks对输入图像应用几次。

相关工作

  1. 简述Keypoint-based methods、a template-based representation、a template-based representation,详细介绍文献【1】【2】【3】【6】【12】

方法

  1. 定位2D图像中的目标:我们首先确定输入图像中感兴趣对象的2D中心,使用标准的2D对象检测器,但使用一种基于分割的方法,可以提高性能,即使在部分遮挡下它也可以提供准确的位置。
    BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses—2017(笔记)_第3张图片
    BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses—2017(笔记)_第4张图片
  2. 预测3D姿态:使用N点透视法PnP algorithm,最小化代价方程:在这里插入图片描述
  3. 处理具有对称轴的对象:通过限制训练姿态[0;α],并将其切分为r1=[0;α/2]和r2=[α/2;α]两个区间,然后定义β落入r1=[0;α/2],这时引入CNN分类器k(·),判别β属于r1还是r2,如果是1,就用在这里插入图片描述 ,如果不是就对称反转图像,使其重新落入r1,再计算。
  4. 再复杂的就切分成四个区间,然后水平或垂直翻转,使其落入β规定的计算区间。
  5. 姿态优化:引入新的CNN,导入粗姿态图和其渲染的二值掩模或色彩渲染图,通过最小化方程在这里插入图片描述 ,更新BB8,在这里插入图片描述 ,完成优化。
    BB8: A Scalable, Accurate, Robust to Partial Occlusion Method for Predicting the 3D Poses—2017(笔记)_第5张图片

你可能感兴趣的:(计算机视觉,姿态估计)