3D坐标学6D姿态:Learning 6D Object Pose Estimation using 3D Object Coordinates(笔记)——2014

应用3D目标坐标学习其6D姿态估计(笔记)——2014

《Learning 6D Object Pose Estimation using 3D Object Coordinates》

摘要

文章以单帧RGB-D图像估计特定目标的6D姿态,该方法可灵活地应对有无纹理目标,核心思想是一种学习的中间表示,冠以稠密的3D目标坐标标记与类标签配对的形式,是一种具有稠密学习特性的基于特征的方法。

引言

  1. 多年来,对刚体的检测和2D / 6D姿态估计的主要限制于具有足够纹理量的物体。
  2. 对于有纹理目标,成功的关键是使用局部特征的稀疏表示,要么通过手工设计,例如,SIFT功能,要么从数据中训练。通常分两步:(a)假假定的稀疏特征匹配,(b)匹配特征的几何验证。
  3. 对检测无纹理或弱纹理刚体目标,基于模板的方法更有优势。但却有两个基本问题:
    (1)将完整模板与图像匹配,编码全局特征。而基于稀疏特征的表示是“局部的”,因此在遮挡方面更加鲁棒。
    (2)由于所需模板数不断增加,使其难以用于铰链的或可变形的对象实例以及对象类。
  4. 文中的方法:(思想来源于【24】【28】)
    首先,回归一个中间的物体坐标表示,图像中的每个像素都以规范姿势投票给规范体上的连续坐标,称为Vitruvian Manifold。投票由随机森林完成,并使用经过训练的简单局部特征测试组合。
    其次,进行几何验证,通过定义1个能量方程,将这些对应关系与参数体模型进行比较。
    最后,通过能量最小化得到姿态参数。
    本质上,类似于传统的、基于稀疏特性的方法(a)和(b),具有密集的学习特性。
  5. 系统实现(图1),需2步:
    (1) 共同预测了稠密的3D物体坐标标记和密集的类标记。
    (2) 1个灵巧的抽样方案,避免在RANSAC优化中产生错误假设。
  6. 主要贡献:一种新方法,具有基于局部特征的目标检测技术的优点,并且在精度方面略优于基于模板的无纹理目标检测技术。带来了4点优势:
    第一,不必为纹理和无纹理对象训练单独的系统。
    第二,可以将相同的系统用于刚性和非刚性物体,例如笔记本电脑,剪刀和不同状态的物体,例如:有盖和无盖的锅。
    第三,通过使用局部特征,我们获得关于遮挡的鲁棒性。
    第四,通过应用严格的特征学习框架,我们对照明条件的变化具有很强的鲁棒性。(见图2)3D坐标学6D姿态:Learning 6D Object Pose Estimation using 3D Object Coordinates(笔记)——2014_第1张图片
  7. 主要的技术贡献:使用一种新的表示形式,联合密集的3D目标坐标和对象类标签。
  8. 另外一个小的贡献:新的数据集,包括在3种不同光照条件下,20个目标的10K张真实数据,且标记有准确的6D姿态。

相关工作

  1. 基于模板的方法是最传统的目标探测方法,概括为:扫描一个刚性模板,计算1个距离度量来找到最佳匹配。截至14年最好的是12年《Model based training, detection and pose estimation of texture-less 3D objects in heavily cluttered scenes》,缺点如上。
  2. 稀疏的基于特征的方法。概括为:提取尺度不变的兴趣点,然后用对仿射和光照不变的局部描述符表示,最后与数据集匹配。
  3. 稠密的方法。每个像素都会产生一些关于期望输出的预测。在广义霍夫投票方案中,所有像素在一定的量化预测空间(如二维目标中心和尺度)中进行投票,取投票最多的单元。
  4. 文章的方法中,每个像素只对其与3D模型的局部对应关系进行3D连续预测。

方法——随机森林(分类、预测)+能量方程(估计)+ RANSAC(优化)

  1. 随机森林:由一组决策树构成,图像像素被决策树分类,最终到树的叶子上。训练好的森林可以获取像素与目标的归属信息,以及目标的位置信息。用yi表示目标上的像素位置,并将其称为像素目标坐标。
  2. 对于训练,使用从分割的目标图像中随机采样的像素和一组RGB-D背景图像。
  3. 一旦训练完成,我们将RGB-D图像中的所有像素推入森林中的每棵树,从而将每一个像素i与一个分布p和一个预测关联起来。
  4. 【24】中的特性考虑了像素i附近的像素深度或颜色差异,并捕获了局部背景模式。

你可能感兴趣的:(计算机视觉,姿态估计)