姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)

以下链接是个人关于PVNet(6D姿态估计) 所有见解,如有错误欢迎大家指出,我会第一时间纠正。有兴趣的朋友可以加微信:a944284742相互讨论技术。若是帮助到了你什么,一定要记得点赞!因为这是对我最大的鼓励。
姿态估计2-00:PVNet(6D姿态估计)-目录-史上最新无死角讲解
本论文名为:
PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation(CVPR 2019 oral)
话不多说,接着上篇波博客继续翻译了

5. Experiments

5.1. Datasets

LINEMOD 是一个标准6D姿态检测标准数据集,该数据集存在很多挑战:遮挡场景,低纹理目标,光照变化等。

Occlusion LINEMOD 通过附加注释LINEMOD图像的子集来创建的,每张图片包含了多个注释的目标,这些目标存在严重的遮挡现象。

Truncation LINEMOD 为了在截断数据集上充分评估我们的算法,通过随机剪切 LINEMOD 创建了该子数据集,通过剪切之后的目标,只包含了原图40%到60%的范围,一些例子展示如下Figure 5:
姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)_第1张图片
图解:我们通过随机剪切 LINEMOD 创建了一个截断数据集Truncation LINEMOD,这里是该数据集的可视化,其中的 绿色的3D bounding boxes 为ground truth poses,蓝色3D bounding boxes为我们预测的结果,图示的最后一列显示的是预测失败的例子,可见部分太模糊,无法提供足够的信息进行位姿估计。
注意,在我们的实验中,Occlusion LINEMOD 以及 Truncation LINEMOD 数据集只由于测试,也就是只在 LINEMOD 数据集上进行了训练。

YCB-Video 是最近提供的一个姿态估算数据集,这些图片都是通过
YCB object set 数据集收集,其主要挑战为,光照变化,噪声遮挡等。

5.2. Evalutation metrics 我们使用了两个量化标准评估我们的模型:2D映射量化,模型点的平均3D距离(ADD)量化。

2D Projection metric. 该度量计算了给定估计值和ground truth 姿态的三维模型点投影之间的平均距离,如果一个姿态距离小于5像素被认为是正确的。

ADD metric. 对于ADD的度量,我们根基估算以及ground truth
的姿态,分别对模型点进行转换,然后计算两个转换模型点集的距离,当距离小于模型直径的10%时,则认为该姿态的估算是正确的。对于对称对象,我们使用ADD-S度量 ,其中平均距离是根据最近点距离计算的。我们将这两个度量表示为ADD(-S),并使用一个适合于该对象的度量。当评估YCB-Video数据集,计算ADD(-S) AUC,ADD (- s) AUC是精确阈值曲线下的面积,在评价中通过改变距离阈值来获得。

5.3. Ablation studies

我们进行烧蚀研究,比较不同的关键点检测方法,关键点选择策略,关键点数目,以及PnP算法。在Occlusion LINEMOD数据集上,其总结如下表格所示:
Table 1.
姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)_第2张图片
图解:在Occlusion LINEMOD数据集上,根据不同的配置,进行烧烛实验,这里的结果展示的是ADD(-S)度量,其中glue 和eggbox被认为是对称的对象。BBox 8 显示了我们使用目标外的8个box顶点作为关键点的结果,FPS K 表示的是我们选择物体表面不同数目关键点的效率。Un 表示我们使用不确定性的PnP,如果没有使用un,表示我们使用EPnP算法进行姿态估算。
为了比较PVNet和[39],我们重新实现了与[39]相同的管道,但使用PVNet检测关键点,包括8个边框角和对象中心。其结果展示在上表格Table 1BBox 8这一列,“Tekin”列显示了[39]直接通过CNN回归关键点的坐标的原始结果。比较两列的结果表明,像素级别的投票对遮挡更有鲁棒性。
分析了文中3.1节讨论的关键点选择方案,比较了基于不同关键点集的姿态估计结果:“BBox 8”包括8个边界框角和中心,“FPS 8”,包括FPS算法选择的8个表面点和中心,比较表1中的“BBox 8”和“FPS 8”,实验结果表明,该FPS方案可以得到更好的姿态估计。
探讨了关键点数对姿态估计的影响,我们训练PVNet检测4、8、12个表面关键点和目标中心,三组关键点均由3.1节所述的FPS算法选择,比较列“fps4”,
“FPS 8”和“FPS 12”表明,姿态估计的精度随着关键点数的增加而提高,但是fps8和fps12之间的差距是可以忽略不计的。考虑到效率,我们在其他实验中使用fps8。
考虑到验证不确定性对求解PnP问题的好处,我们将fps8中使用的EPnP[24]替换为不确定性的PnP,其结果显示如下Table 1中的最后一列FPS 8 + Un,说明考虑关键点位置的不确定性可以提高姿态估计的精度。FPS 8 + Un是我们方法的最终配置,在下面的实验中用 our 表示

5.4. Comparison with the state-of-the-art methods

我们比较了采用的最先进的方法RGB图像作为输入输出6D对象姿态。
Performance on the LINEMOD dataset. 在如下表格Table 2,
姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)_第3张图片
图解:在二维投影度量方面,我们的方法和基线方法在LINEMOD数据集上的准确性
我们将我们的方法与[33,39]通过回归检测关键点的方法,在LINEMOD数据集上的2D投影度量进行比较。我们的方法使用投票的方式进行关键点的定位,BB8[33]训练另一个CNN来精炼预测的姿态,精炼的结果显示在一个单独的列中,在不需要separate refinement的方法中,我们的算法达到了最好的效果。
如下Table 3展示了我们的方法与 [33,26, 39]对比的ADD(-S)度量结果,注意,我们添加了eggbox 和glue的度量。如[43]所示,其是对称的物体
姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)_第4张图片
与这些不使用refinement方法比较,我们的方法比它们的表现高出至少30.32%,SSD-6D[20]通过边缘对齐来改善估计的姿态,显著提高了自身的性能。然而,我们的方法仍然比它高出7.27%。
Robustness to occlusion. 我们使用LINEMOD数据集进行训练,在Occlusion LINEMOD数据集上进行测试,如下Table 4和 Table 5总结了与[39,43,30]在遮挡LINEMOD数据集上的二维投影度量与ADD (-
分别S)指标的比较,对于两个指标,我们的算法在表中达到了最优的效果,特别是,我们的方法比其他方法的增加了10.37%的ADD(-S) 度量:
姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)_第5张图片
姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)_第6张图片
一些定性的结果展示如下Figure 4:
Figure 4:

改进后的性能表明,所提出的矢量场表示使PVNet能够学习物体各部分之间的关系,从而使被遮挡的关键点能够由可见部分稳健地恢复。

Robustness to truncation. 我们在Truncation LINEMOD数据集上评估我们的方法。注意,用于测试的模型只在 LINEMOD数据集上训练。表6显示了基于2D投影和ADD(-S)度量的定量结果。我们也测试了[39]发布的模型,但没有得到合理的结果,因为它不是为这种情况设计的。
Table 6
姿态估计2-04:PVNet(6D姿态估计)-白话给你讲论文-翻译无死角(2)_第7张图片
图5显示了一些定性结果。即使物体是部分可见的,我们的方法坚定地恢复他们的姿态。在图5的最后一列中,我们显示了两个失败案例,其中可见部分没有提供足够的信息来推断姿势。这种现象在小物体中尤为明显,如鸭子和猿猴等,它们的姿态估计精度较低。

结语

后面就是一些吹逼的话了,我们就不翻译了,大概就是说他们的模型有多好,速度多快,多牛逼的一些话。
接下了我会带大家细致的去分析源码了。下篇博客见

你可能感兴趣的:(姿态估计,CVPR2019,pytorch,6D姿态估算,深度学习)