用CNN综合学习分析RGB-D图像中的6D姿态估计:Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015

Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015

综合学习分析RGB-D图像中的6D姿态估计(用CNN)

文章利用卷积神经网络(CNN)作为概率模型,替换【5】中原有的能量方程形式,比较观察图像和渲染图像间的差异,直接输出能量值。而非《Inferring 3d object pose in RGB-D images》中直接输出目标姿态。Our framework is probabilistic. The posterior distribution of the pose is modelled as a Gibbs distribution with a CNN as energy function.

摘要

  1. 综合分析法:是将观察结果与前向过程的输出进行比较,例如特定姿势中感兴趣对象的渲染图像。但由于遮挡或复杂的传感器噪声使其难以进行比较。
  2. 基于此,文章提出了一种“学会比较”的方法,通过**卷积神经网络(CNN)比较观察图像和渲染图像来描述特定物体姿态的后验密度。CNN采用最大似然范式进行训练。
  3. 我们根据经验观察到CNN并不专门针对特定物体的几何形状或外观。它可以用于具有截然不同的形状和外观以及不同背景的物体。
  4. 与最先进的技术相比,我们展示了两个不同数据集的显着改进,包括总共11个对象,杂乱的背景和重度遮挡。

主要贡献

  1. 我们对具有重度遮挡的RGB-D图像中的最先进的姿态估计方法实现了相当大的改进。
  2. 据我们所知,这项工作首先利用卷积神经网络(CNN)作为概率模型来学习比较渲染图像和观察图像。
  3. 我们观察到CNN并不专注于特定物体的几何形状或外观,并且它可以用于具有截然不同的形状和外观以及不同背景的物体。

相关工作

  1. 姿态估计:基于模板的方法、稀疏的基于特征的方法、稠密的基于特征的方法、CNNs、综合分析法
  2. 回顾CNN在计算机视觉的姿态估计方向中的运用,介绍了Analysis-by-synthesis法的运用,详细介绍了《Learning 6d object pose estimation using 3d object coordinates.2014》并说明了与文中方法的不同:用基于CNN的新型能量函数代替能量函数。关键的区别在于,虽然[5]中的能量函数只有一些参数可以通过判别交叉验证进行训练,但用最大似然目标进行训练的CNN有大约600K的参数。

方法

  1. 由于我们使用与[5]中相同的随机森林预测,术语观测或观测图像将指两部分: (a)[5]中描述的森林预测,以及(b)记录的深度图片。这种简化观点的原因是我们的工作重点在于后验密度的建模和随机森林预测的各个方面。

概率模型

  1. 我们模拟姿态H的后验分布,给出观测x作为吉布斯分布用CNN综合学习分析RGB-D图像中的6D姿态估计:Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015_第1张图片 ,能量函数E (H, x;θ)是从姿态H和观测图像x到实数的映射,由矢量θ参数化。
  2. 请注意,使用Gibbs分布来模拟后验是条件随机场(CRF)的常见做法。
  3. 然而,潜在的能量是非常不同的。而在CRF中,能量函数是势能函数的和,我们利用CNN直接输出能量值来实现。参数向量θC表示CNN的权重

CNN

  1. 为了实现从姿态H和观测图像x到能量值的映射,我们首先渲染姿态H中的对象以获得渲染图像r(H)。然后我们的CNN将x与r(H)进行比较并输出值f(x,r(H);θ)。我们将能量函数定义为在这里插入图片描述

用CNN综合学习分析RGB-D图像中的6D姿态估计:Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015_第2张图片
用CNN综合学习分析RGB-D图像中的6D姿态估计:Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015_第3张图片
最大似然训练

  1. 训练阶段,以带有标签的训练数据集L = (x1,H∗1)…(xn,H∗n), 得到最优参数配置θ∗用CNN综合学习分析RGB-D图像中的6D姿态估计:Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015_第4张图片 ,其中 xi表示第i个训练图像的观测值,H *i表示相应的真实姿态。

  2. 优化任务使用随机梯度下降法(SGD)实现: 用CNN综合学习分析RGB-D图像中的6D姿态估计:Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015_第5张图片
    推理过程

  3. 测试阶段目标是找到最大后验概率(MAP)估计值,即如式(1)所示的位姿使我们的后验密度最大化用CNN综合学习分析RGB-D图像中的6D姿态估计:Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images—2015_第6张图片 。由于式(1)中的分母对于任意给定的观测x都是常数,所以找到MAP估计值就等于最小化我们的能量函数。为此,我们利用了[5]的优化方案,但用我们的能量函数在这里插入图片描述 代替了它们的能量函数。

  4. 找到最大后验概率(MAP)估计值,其对应的姿态H,为所求。

你可能感兴趣的:(计算机视觉,姿态估计)