PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes—2017(笔记)

PoseCNN:用卷积神经网络估计杂乱场景中目标6D姿态—2017(笔记)

文章提出了新的PoseCNN姿态估计网络,通过CNN提取图像特征,然后分三路进行目标分割标签标注、平移估计和姿态估计得到目标6D姿态,其中通过应用新型损失函数,能够较好地估计对称目标。 ----------------- Occlusion、symmetric object、only RGB

摘要

  1. PoseCNN,这是一种用于6D目标姿态估计的新卷积神经网络。PoseCNN通过在图像中定位目标的中心并预测其与相机的距离来估计目标的3D平移。通过回归到四元数表示来估算目标的3D旋转
  2. 我们还介绍了一种新颖的损失函数,该函数使PoseCNN可以处理对称目标
  3. 此外,我们为6D目标姿态估计提供了一个大型视频数据集,称为YCB-Video数据集。我们的数据集提供了来自YCB数据集的21个目标的准确6D姿态,这些姿态在92个视频中观察到,具有133,827帧。
  4. 我们在YCBVideo数据集和OccludedLINEMOD数据集上进行了广泛的实验,以表明PoseCNN对遮挡具有高度鲁棒性,可以处理对称目标,并且仅使用彩色图像作为输入即可提供准确的姿态估计。当使用深度数据进一步细化姿态时,我们的方法在具有挑战性的OccludedLINEMOD数据集上获得了最新的结果。我们的代码和数据集位于https://rse-lab.cs.washington.edu/projects/posecnn/。

引言

  1. 大我们介绍了一种用于端到端6D姿态估计的新颖卷积神经网络(CNN),名为PoseCNN。
    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes—2017(笔记)_第1张图片
  2. PoseCNN背后的一个关键思想是将姿态估计任务分解为不同的组件,这使网络能够显式地对它们之间的依赖关系和独立性进行建模。具体来说,PoseCNN执行三个相关任务,如图1所示。
  3. 首先,它预测输入图像中每个像素的目标标签。
  4. 其次,它通过预测从每个像素向中心的单位矢量来估计目标中心的2D像素坐标。使用语义标签,与目标关联的图像像素在图像中的目标中心位置投票。此外,网络还估计目标中心的距离。假设已知照相机内部特性,则2D目标中心及其距离的估计使我们能够恢复其3D平移T.
  5. 最后,通过将在目标边界框内提取的卷积特征回归为R的四元数表示来估算3D旋转R.就像我们将要展示的那样,二维中心投票和旋转回归来估计R和T可以应用于带纹理/无纹理的目标,并且对于遮挡具有鲁棒性,因为网络被训练为即使在目标中心被遮挡时也可以对目标中心进行投票。

PoseCNN

  1. 给定输入图像,6D目标姿态估计的任务是估计从目标坐标系O到相机坐标系C的刚性变换。我们假设目标的3D模型可用,并且在模型的3D空间中定义了目标坐标系。
  2. 此处的刚性变换由一个包含3D旋转R和3D平移T的SE(3)变换组成,其中R指定围绕目标坐标系O的X轴,Y轴和Z轴的旋转角度,T为在成像过程中,T确定目标在图像中的位置和比例,而R根据目标的3D形状和纹理影响目标的图像外观。
  3. 由于这两个参数具有明显的视觉特性,因此我们提出了一种卷积神经网络体系结构,该体系在内部将R和T的估计解耦。

A.网络概述

  1. 图2说明了我们用于6D目标姿态估计的网络的体系结构。该网络包含两个阶段。
    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes—2017(笔记)_第2张图片
  2. 第一阶段包括13个卷积层和4个maxpooling层,它们从输入图像中提取具有不同分辨率的特征图。此阶段是网络的骨干,因为提取的功能在网络执行的所有任务之间共享。
  3. 第二阶段包括一个嵌入步骤,该步骤将第一阶段生成的高维特征图嵌入到低维,任务特定的特征中。然后,网络执行导致6D姿势估计的三个不同任务,即语义标记,3D翻译估计和3D旋转回归,如下所述。

B.语义标签

  1. 为了检测图像中的目标,我们诉诸语义标记,其中网络将每个图像像素分类为一个目标类。与最近的6D姿态估计方法相比,后者采用边界框进行物体检测[23,16,29], 语义标记提供有关目标的更丰富的信息,并更好地处理遮挡。
  2. 如图2所示,语义标记分支的嵌入步骤将特征提取阶段生成的通道维数为512的两个特征图作为输入。两个特征图的分辨率分别为原始图像大小的1/8和1/16。
  3. 网络首先使用两个卷积层将两个特征图的通道尺寸减小到64。然后通过反卷积层将1/16特征图的分辨率加倍。之后,将两个特征图相加,并使用另一个反卷积层将分辨率提高8倍,以获得具有原始图像大小的特征图。最后,卷积层在特征图上运行并生成像素的语义标记分数。该层的输出具有n个通道,其中n个语义类的数量。
  4. 在训练中,将softmax交叉熵损失应用于训练语义标记分支。在测试中,softmax函数用于计算像素的类别概率。语义标记分支的设计受到[19]中用于语义标记的全卷积网络的启发。它在我们以前的工作中也用于场景标记[34]。

C. 估计3D平移

  1. 定位2D目标中心的一种直接方法像现有关键点检测方法一样直接检测中心点[22,7]。但是,如果目标中心被遮挡,则这些方法将不起作用。受到传统的隐式形状模型(ISM)的启发,在该模型中,图像斑块投票决定要检测的目标中心[18],我们设计了网络,使其回归到图像中每个像素的中心方向。具体来说,对于图像上的像素p =(x,y)T,它回归到三个变量:(cosα,sinα,T)
    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes—2017(笔记)_第3张图片
  2. 我们网络的中心回归分支(图2)使用与语义标记分支相同的架构,不同之处在于卷积层和反卷积层的通道尺寸不同。我们将高维特征嵌入到128维空间而不是64维空间中,因为该分支需要针对每个目标类回归到三个变量。该分支中的最后一个卷积层的通道尺寸为3×n,目标类别的数量为n。在训练中,平滑的L1损失函数适用于回归[11]。
  3. 为了找到目标的2D目标中心c,设计了霍夫投票层并将其集成到网络中。Hough投票层将像素级语义标记结果和中心回归结果作为输入。对于每个目标类别,它首先计算图像中每个位置的投票分数。投票分数指示相应图像位置是类中目标中心的可能性。具体来说,目标类别中的每个像素都会为从网络预测的光线沿图像位置添加投票(见图4)。处理完目标类中的所有像素后,我们将获得所有图像位置的投票分数。然后选择目标中心作为得分最高的位置。对于同一目标类的多个实例可能出现在图像中的情况,我们对投票分数应用非最大抑制,然后选择分数大于某个阈值的位置。PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes—2017(笔记)_第4张图片

D.3D旋转回归

  1. 图2的最下部显示了3D旋转回归分支。使用从霍夫投票层预测的目标边界框,我们利用两个RoI合并层[11]来“裁剪和合并”网络第一阶段生成的视觉特征以进行3D旋转回归。合并的要素图被加在一起并馈入三个FullyConnected(FC)层。第一个FC层的尺寸为4096,最后一个FC层的尺寸为4×n,目标类数为n。对于每个类别,最后一个FC层输出一个由四元数表示的3D旋转。

  2. 为了训练四元数回归,我们提出了两个损失函数,其中一个专门用于处理对称目标。第一个损失称为PoseLoss(PLOSS),在3D模型空间中运行,并使用估计的方向测量正确模型姿态上的点与模型上相应点之间的平均平方距离。PLOSS定义为在这里插入图片描述

  3. 虽然可以通过手动指定目标对称性,然后将所有正确的方向作为基本事实选项来修改PLOSS,以处理对称目标,但我们在这里引入ShapeMatch-Loss(SLOSS),这是一种不需要指定对称性的损失函数。SLOSS定义为 在这里插入图片描述

  4. 正如我们所看到的,就像ICP一样,这种损失衡量的是估计的模型方向上的每个点与地面真实模型上的最接近点之间的偏移。当两个3D模型相互匹配时,SLOSS最小化。这样,SLOSS将不会惩罚相对于目标的3D形状对称性等效的旋转。

结论

  1. 在这项工作中,我们介绍了用于6D目标姿态估计的卷积神经网络PoseCNN。
  2. PoseCNN解耦3D旋转和3D平移的估计。
  3. 它通过定位目标中心并预测中心距离来估算3D平移。通过将每个像素回归到朝向目标中心的单位矢量,可以独立于比例尺可靠地估计中心。更重要的是,即使目标中心被其他目标遮挡,像素也会对其投票。
  4. 通过回归到四元数表示来预测3D旋转。引入了两个新的损失函数用于旋转估计,其中ShapeMatch-Loss用于对称目标。结果,PoseCNN能够处理杂乱场景中的遮挡和对称目标。
  5. 我们还将介绍用于6D目标姿态估计的大规模视频数据集。
  6. 我们的结果令人鼓舞,因为它们表明仅使用视觉数据准确估计杂乱场景中目标的6D姿势是可行的。这为使用分辨率和视场远远超过当前使用的深度相机系统的相机开辟了道路。
  7. 我们注意到,SLOSS有时会导致姿势空间的局部最小值,类似于ICP。将来在6D姿态估计中探索处理对称目标的更有效方法将很有趣。

你可能感兴趣的:(姿态估计,计算机视觉,PoseCNN)