【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

论文地址:https://arxiv.org/pdf/1812.11788

1.引言

1.1 问题描述

6D Pose Estimation的目标是检测出物体,并求得它们的位置和朝向,实际上就是求得从物体坐标系到相机坐标系的(R,t)。所以算法的输入是一张rgb图像、3D keypoints、bbox_8,输出是(R,t),最终展现的效果是:bbox_8经过旋转、平移、2D映射之后,投影在原图像上,能够准确地将特定物体框住。

1.2 现有方法的局限

最近流行的方法是,利用CNN回归得到2D keypoints,然后利用PnP算法进行求解得到6D pose parameters。但是这些方法对于遮挡、截断的物体难以精准检测。

1.3 作者的分析

作者认为,针对遮挡、截断等问题,我们需要在中间阶段或最后阶段得到稠密的预测,即像素或小区域级别的预测。于是作者提出了像素级预测的PVNet,对于每个像素,会得到一个指向2D keypoints的方向向量,如此对于截断物体的位置推理有大大的帮助。(实际上,这种像素级的回归越来越流行了,如hand-object estimation中的H+O方法也有这种思想)

【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第1张图片

1.4 作者的贡献

  • 提出了PVNet(pixel-wise voting network),它可以学习到一个指向2D keypoint的向量场表示,即便在遮挡和截断的情况下;作者的创新之处--能够学习到十分robust的2D keypoints。
  • 基于PVNet得到的稠密预测,作者用了一种基于关键点分布的PnP算法来从2D keypoints分布求取(R,t)位姿。

2.论文方法

作者的方法分两步:第一步,利用PVNet得到向量场预测和语义分割,基于RANSAC的投票得到2D keypoints的候选点,候选点带有位置和分布;第二步,利用3D keypoints、相机内参、2D keypoints进行PnP、最优化求解,得到位姿(R,t)。

2.1 基于投票的关键点定位方法

【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第2张图片

首先通过通过PVNet得到每个像素点的语义分割和向量场预测,单位向量方向为x_{k},由像素指向2D关键点,如下定义:

根据语义分割得到的物体类别,针对同一2D keypoint,于同一类别随机选取两个像素点的单位向量,取它们的交点作为2D keypoint候选点h_{k,i},如此重复N次,得到第k个2D keypoint的N个候选点\{ h_{k,i} |i=1,2,...,N \}

再计算每个候选点的投票分数:

II为指数函数,θ=0.99.

最后得到2D关键点的分布:

【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第3张图片

关键点的ground truth在物体的表面,由farthest point sampling(FPS)algorithm得到:首先首先,通过添加对象中心点来初始化关键点集。然后,我们不断地在物体表面找到一个点,这个点离当前的键值集最远,然后将它加入到集合中,直到集合的大小达到K。作者论文中通过实验验证,建议K取8。

2.2 不确定性驱动的PnP算法

作者的创新之处在于考虑了keypoint的不确定性,即将keypoint的分布融入了PnP算法中,进行最优化求解。

目标函数为Mahalanobis distance马氏距离(表示点与一个分布之间的距离):

【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第4张图片

X_{k}为3D keypoint,\tilde{x}_kX_{k}的2D投影,π为投影函数。(R,t)的初始化由基于四个最小协方差的关键点的EPnP算法提供。最优化解法为列文伯格-马夸尔特算法(同时具有梯度法和牛顿法的优点)。最终求得符合全局最优的物体姿态(R,t)。

3.训练函数

【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第5张图片

smooth l1 loss损失函数

4.评估

效果图:

【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第6张图片

定量比较:

【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第7张图片【论文笔记】PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation_第8张图片

 

你可能感兴趣的:(论文笔记)