论文笔记——PoseCNN

会议:RSS 2018

标题:《PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes》

论文链接:https://arxiv.org/abs/1711.00199

代码链接:https://github.com/yuxng/PoseCNN


创新点

  1. 提出端到端的网络PoseCNN,该网络能很好的处理遮挡对象。
  2. 引入了ShapeMatch-Loss,一种用于对称物体姿态估计的新训练损失函数。
  3. 贡献了一个大规模的RGB-D视频数据集:YCB-Video dataset,可用于6D物体姿态估计,其中共标注了21个YCB对象。

简介

        PoseCNN是一种用于6D物体姿态估计的新型卷积神经网络。PoseCNN通过在图像中定位其中心并预测其与相机的距离来估计对象的3D平移。通过回归到的四元数表示来估计对象的3D旋转。PoseCNN进行三项任务:语义分割,3D位置,3D旋转姿态。

论文笔记——PoseCNN_第1张图片

网络架构

论文笔记——PoseCNN_第2张图片

  • 骨干网络:VGG16
  • 网络预测输出语义分割分支,位置分支,姿态分支。每个分支都有一个loss,共三个loss
  • 位置分支:通过定位图像中物体的2D中心和估计物体到相机的距离depth,来估计3D位置。

2D物体中心c:

  1. 霍夫投票层:该层采用像素方式的语义标记结果和中心回归结果作为输入。 对于每一个物体,它首先计算图像中的每个位置的投票得分。 投票得分表明了相应的图像位置是物体的中心的可能性。 物体的每个像素都会根据网络预测添加图像位置的投票。 处理完物体的所有像素,就会获得所有图像位置的投票分数。选择获得最高分的位置作为物体中心。
  2. 非极大值抑制:对于同一物体的多个实例出现在图像中的情况,采用非极大值抑制投票分数。
  3. 分数阈值:选择分数大于某个阈值的位置作为物体的2D中心。

深度预测Tz:中心的深度预测就是简单的计算深度预测内部点的平均值。

3D位置TxTy:通过下式可从2D位置转换得到3D位置。

  • 姿态分支:利用2D BBox来界定内部点以及进行3D旋转回归。

ShapeMatch-Loss

原因:一个对称物体有多个正确的3D旋转。

M是代表3D模型空间中的点,m是点的总数,R(q˜)、R(q)分别代表预测的3D旋转矩阵和真正的3D旋转矩阵。X1表示估计模型中的点,X2表示真值模型上离X1最近的点。

实验

YCB-Video dataset

论文笔记——PoseCNN_第3张图片

实验结果:

  1. 3D坐标回归网络不能很好地处理对称物体(红色高亮),如bowl
  2. 使用RGB作为输入,PoseCNN明显性能更高。
  3. 使用RGB-D作为输入,使用ICP作为后处理能够明显提升性能。

OccludedLINEMOD dataset

论文笔记——PoseCNN_第4张图片

实验结果:

PoseCNN在处理对称方面表现优秀,如Eggbox和Glue。


组会PPT分享:https://paper-1257390182.cos.ap-chengdu.myqcloud.com/PoseCNN/PoseCNN2018.11.16.pptx

Results Video:https://paper-1257390182.cos.ap-chengdu.myqcloud.com/PoseCNN/PoseCNN.mp4

你可能感兴趣的:(论文笔记,6D,pose)