PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

论文链接:https://arxiv.org/pdf/1812.11788.pdf
代码链接:https://github.com/zju3dv/pvnet

  • 摘要:作者提出一种基于像素投票的网络回归每个像素的指向关键点的单位向量,然后使用RANSAC方法,每个单位向量投票选出关键点位置。这对于定位遮挡和截断的关键点创建了一个灵活的表示,这种表示的另一种重要特征是提供了关键点位置的不确定性从而能够使用PnP求解器进一步求解。
  • 引言
    通过CNN回归2d坐标然后使用
    Perspective-n-Point(PnP)算法计算6D位姿表现很好,但是很难处理被遮挡的物体和被截断的物体。
    作者认为处理遮挡物体和截断物体需要密集预测,称为piwel-wise 或者patch-wise estimates。因此,作者提出一个新型的6d 位姿预测的架构-Pixel-wise Voting Network
    (PVNet).基本观点如Fig 1.与直接回归图像图标相反,PVNet预测了指向每个关键点的单位向量,然后基于RANSAC方法投票选出关键点位置。这种关键点位置vector-field表示,迫使网络集中在物体的局部特征和各个部分的空间关系,从而根据可见部分推断出不可见部分,另外ector-field表示可见表示物体外的关键点。
    该方法的另外一种有点是密集输出给PnP求解器跳了了丰富的信息来处理不准确的关键点预测,尤其使基于RANSAN的投票的方法删去了局外的预测,对于每个关键点给出了空间概率分布。实验表明这种uncertainty-driven PnP算法提高了位置估计的准确率。
    本文主要贡献如下:
  • 提出了一种预测6D位姿新颖的网络架构——pixel-wise voting
    Network(ector-field表示)PVNet,通过学习vector-field
    表示标注物体2D关键点位置拉处理被遮挡和截断物体。
  • 基于来自PVNet密集预测提出一种uncertainty-driven PnP 算法解释2D关键点位置的不确定性
  • 与最先进的基本数据集相比该方法有明显的性能提升。ADD:86.3%(该方法) vs79%, LINEMODE and OCCLUSION
    40.8%30.4% .创建了评估截断物体的新的数据集.

相关工作:为了解决传统方法6d位姿预测不能很好的处理弱纹理物体和低分辨率图像,最近的工作提出定义一个语义坐标集合然后使用CNNs 作为关键点检测器。使用语义分割来识别图像区域,这些图像区域包含物体和来自被检测物体的回归坐标。然而当物体被遮挡时,这个方法性能会受到严重影响。受2d人体位姿成功检测的激励——它通过输出关键点的pixel-wise 热力图处理遮挡问题,作者提出一种更灵活的表示方法——vector field通过从不同方向投票的方式决定关键点,能够解决热力图不能表示截断物体关键点在外部的问题。
密集预测需要RGB-D图,只使用RGB图像使用自动上下文回归框架产生物体3D坐标,但是由于输出空间太大,回归物体坐标比关键点检测,因此作者使用密集预测来定位关键点。
本文工作:作者提出评估物体位姿的两个阶段:第一个阶段使用CNNs检测2D物体关键点,第二阶段使用PnP算法计算6D位姿。作者的创新之处对2D关键点使用新的表示并且修改了PnP算法预测位姿。Figure 2 概述了关键点定位的过程。
PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第1张图片
PVNet执行两个任务:语义分割和vector-field表示,对于一个像素p,PVNet输出和他相关的特殊物体的语义标签,单位向量vk(p)表示从cp到2d关键点xk的方向,vk(p)定义如下
在这里插入图片描述
使用基于RANSAC的方法投票关键点位置,做法如下:首先使用语义分割找到目标物体的像素,然后随机选择两个像素,然们的单位向量的交点Hk,i ,假设为关键点xk。这个步骤重复N次得到假设集合{Hk,i | i=1,2,…,N} hk,i 表示每个的关键点位置,然后所有的像素投票选出关键点,投票每个hk,i的投票得分wk,i定义为

在这里插入图片描述

PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第2张图片FIgure 2(e)表示图像中关键点的空间概率分布。然后计算均值和方差:
PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第3张图片
PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第4张图片
关键点选择:使用8个角3D bounding bosx -Fig 3(a)。由于关键点是由开始于物体中的像素的单位向量来生成的,所以关键点越远误差越大,因此使用物体表便的关键点可以减少误差。Fig 3 (b)(c)使用farehest point sampling 算法选择K个关键点。初始添加物体中心作为初始关键点,然后找到物体表面理当前关键点最远的点加入关键点集合。作者建议K=8。
对于一个图片中有多个实例的情况。对于每个目标类,生成物体中心的假设和中心投票得分。然后找到每个假设中间的modes,标记这些modes作为每个实例的中心,最后分配每个像素给理它最近的实例中心。

Uncertainty-driven PnP :
PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第5张图片实现细节和实验部分请看原文。本文为论文笔记,为了以后方便查看。

你可能感兴趣的:(PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation)