用于6D位姿估计的卷积神经网络:PoseCNN——笔记

创新点

0.将输入图像分为三个任务:(1)语义分割(2)三维旋转(3)三维平移
用于6D位姿估计的卷积神经网络:PoseCNN——笔记_第1张图片
1.通过估计图像中物体的中心和与摄像机之间的距离来估计物体的三维平移。通过全连接层得到四元数估计物体的三维旋转。
2.能够处理对称物体,被遮挡物体。
3.本文贡献了一个用于6D目标姿态估计的RGB-D视频数据集YCB视频数据集。该数据集包含92个视频中来自YCB对象和模型集的21个对象,共133827帧。为每一帧提供地面真实物体姿态,首先在第一个视频帧上手动初始化对象姿势,然后使用基于模型的对象跟踪系统估计对象的相机轨迹和后续姿势。

具体过程

用于6D位姿估计的卷积神经网络:PoseCNN——笔记_第2张图片

  1. 特征提取阶段:使用13个卷积层和4个最大池化层,提取高维特征。
  2. 嵌入阶段:将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中。然后,网络执行导致6D姿势估计的三个不同任务,即语义标记、3D平移估计和3D旋转回归。

基于FCN的语义分割:

将特征提取阶段生成的信道尺寸为512的两个特征映射作为输入。两种特征图的分辨率分别为原始图像大小的1/8和1/16。该网络首先使用两个卷积层将两个特征映射的信道维度降低到64。然后用反褶积层将1/16特征图的分辨率提高一倍。在此基础上,对两幅特征图进行求和,再利用反褶积层将分辨率提高8倍,得到具有原始图像大小的特征图。最后,卷积层对特征映射进行操作,并生成像素的语义标记分数。在训练过程中,采用软最大交叉熵损失来训练语义标记分支。在测试中,使用softmax函数计算像素的类概率。
4.

3D平移估计(估计目标中心及其距离)

3D平移T=(Tx,Ty,Tz)是相机坐标系中对象原点的坐标。与直接回归到T值不同,我们将回归问题分解为图像中的二维目标位置和与摄像机的目标距离。假设T在图像上的投影是c=(cx,cy),根据假设针孔相机的以下投影方程来恢复Tx和Ty:

用于6D位姿估计的卷积神经网络:PoseCNN——笔记_第3张图片为了从像素级语义标注结果和中心回归结果中找到二维目标中心,设计了Hough投票层并将其集成到网络中。它采用了先发制人RANSAC算法来处理网络预测结果中的噪声。

3D旋转回归:

使用Hough投票层预测的对象边界框,我们利用两个RoI池层来“裁剪和汇集”网络第一阶段生成的视觉特征,用于3D旋转回归。合并的特征映射被添加到一起,并输入到三个完全连接的(FC)层中。前两个FC层的维数为4096,最后一个FC层的维数为4×n,n为对象类的个数。对于每个类,最后一个FC层输出由四元数表示的3D旋转。

数据评估:

在OccludedLINEMOD数据集上,使用平均距离度量进行比较。给定地面真值旋转R和平移T以及估计的旋转R和平移T,平均距离计算根据地面真值姿势和估计姿势变换的三维模型点之间的成对距离的平均值:
在这里插入图片描述
对于某些视图的点之间的匹配不明确。使用最近点距离计算平均距离:在这里插入图片描述

训练过程

PoseCNN是使用TensorFlow库实现的。在训练中,特征提取阶段的前13个卷积层和3D旋转回归分支中的前两个FC层的参数由在ImageNet上训练的VGG16网络初始化。
首先训练语义标记分支和三维平移估计分支40000次,然后加入三维旋转回归分支,训练整个网络80000次,训练中采用了带动量的随机梯度下降(SGD)方法。

改进:

当深度图像可用时,我们使用迭代最近点(ICP)算法来优化姿态。当多视图图像可用时,我们对从网络预测的二维目标中心进行三角化,以优化三维平移,并为所有图像在公共三维坐标系中选择最佳的6D姿势,

利用ICP对姿态进行细化,显著提高了算法的性能。我们的网络预测的姿态为ICP提供了良好的初始姿态。随着深度的增加,ICP能够很好地细化初始姿态。
用于6D位姿估计的卷积神经网络:PoseCNN——笔记_第4张图片
“PoseCNN”表示我们的网络仅使用RGB。“PoseCNN+stereore”和“PoseCNN+multi view”分别表示通过立体图像和多视图图像对来自网络的姿态进行细化。“三维坐标回归”显示了用RANSAC对RGB-D数据进行6D姿态估计的三维目标坐标回归训练网络的结果。“PoseCNN+ICP”表示用最近迭代点算法对姿态进行细化,“PoseCNN+ICP+multi view”表示用多视点图像对ICP后的姿态进行进一步细化。图例中的数字表示每条曲线下面积的百分比,用于测量整体姿势精度。

你可能感兴趣的:(用于6D位姿估计的卷积神经网络:PoseCNN——笔记)