[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读

1,摘要:

单阶段网络

多阶段网络(尽管多阶段网络更适合当前的工作,但是目前多阶段表现还是没有单阶段好)

2,介绍:

       近年来,使用深卷积神经网络的人体姿态估计问题得到了快速发展。目前,表现最佳的方法非常简单,通常基于从图像分类任务传输的单级背部骨骼网络。例如,2017年COCO关键点挑战赛获胜者[8]基于重新开始[35]。最近的简单基线方法[39]使用ResNet[15]。由于姿势估计需要高空间分辨率,所以向上采样或反褶积通常附加在主干之后,提高网络空间分辨率的深层特征。

 [Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第1张图片

图一: 红线(MSPN),绿线(沙漏),蓝线(使用ResNet的单阶段网络)

横坐标代表每秒浮点运算次数

本文的总结:通过对体系结构、特征流和损失函数的改进,可以充分挖掘多级体系结构的潜在优势,实现了最先进的性能,与以前的所有方法相比有很大的差距。

3,整体的网络结构:

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第2张图片

网络结构说明:这个网络由两个单阶端模块组成。跨阶段融合用在相邻阶层之间。由粗到精监督策略进一步提高局部准确性。

4多级位姿网络

    首先,作者分析了以前的单级模块的效率,并证明了目前最先进的图像分类网络设计是可以开发的。其次,为了减少信息丢失,提出了一种特征聚合策略,将信息从早期传播到后期。最后,我们介绍了我们网络中的一种粗到细的监管。随着阶段的增加,其定位精度也逐渐提高.同时,它充分利用了语境信息,实现了跨尺度的区分性表征。在下面的章节中,我们将提供每个设计的详细内容。

4.1 单级模块的有效设计

表一 沙漏和MSPN单阶段模块各尺度上的特征通道数

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第3张图片

图表说明:沙漏只是堆叠卷积层,而特征的数量仍然保持恒定不变。而这些将导致性能变差。

本文特色:每一次下采样操作都会使特征数增加一倍,从而有效地减少信息损失。此外,计算能力主要分配给下采样单元,而不是上采样单元。由于我们的目标是在下采样过程中提取更有代表性的特征,并且在上采样过程中很难恢复丢失的信息,所以这是合理的。

特定尺度上的跨阶段特征聚合

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第4张图片

说明:对聚合前一阶段的特征应用两个1×1的卷积运算

4.2 跨阶段特征聚合

从前一阶段的下采样和上采样单元到现阶段的下行采样过程,引入了两种SEPA速率信息流。需要注意的是,在每个流程上都添加了1×1的卷积,如上图所示。结合当前阶段的低采样特征,添加三个组件来产生融合结果。通过这种设计,现阶段可以充分利用先验信息,提取出更多的判别表征。此外,特征聚合还可以看作是一种扩展的残差设计,有助于处理梯度消失问题。

4.3 由粗到精的监督

         在姿态估计任务中,上下文信息对于定位具有挑战性的姿势至关重要,因为它为可见关节提供了信息。此外,我们还注意到小的定位误差会严重影响姿态估计的性能。因此,我们设计了一个由粗到精的监督,如总图所示。

       具体而言,在大多数情况下,每个关节的ground-truth热图都是高斯的。在本工作中,我们进一步建议在不同的阶段使用不同的高斯核大小。也就是说,早期阶段使用大型内核,后期阶段使用小型内核。这一策略是基于这样一种考虑,即多个阶段的估算热量图也是以类似的由粗到精的方式进行的。

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第5张图片

说明: 第一行显示不同阶段的地面真值热度图,第二行表示相应的预测和地面真实值。橙色线是预测结果,绿色线代表ground-truth。

作者有话说:中间监督在提高深层神经网络性能中起着至关重要的作用,为此我们引入了多尺度监督模型,在每个阶段执行四个不同尺度的中间超维,这可以在不同的层次上获得大量的上下文信息,以帮助定位具有挑战性的姿势。另外在总的网路中,我们在最大规模监督方面还引入了OHKM,具体详见总网络结构图。

5,实验结果

评价标准:MSCOCO数据集

数据集构成:训练、验证和测试。

在文献[8]中,我们将训练数据和验证部分的数据聚合在一起,并将其进一步划分为测试-验证数据集(近57k图像和150 k人实例)和Minval数据集(5k图像)。它们分别用于训练和评估。基于OKS的mmAP(简称AP)被用作我们的评估指标。

5.1,实验细节:

      人体检测器:使用当前最先进的MegDet去检测出人体候选框,在所有类别中,只有100个最佳的人体盒子被选作单人姿势估计器的输入。

      训练:

硬件条件:8个NVIDIA GTX 1080ti GPU 每个GPU的小批处理尺寸为32,有90k次迭代。

采用ADAM优化器,线性学习率由5e-4逐渐下降到0,权重衰减为1e-5。每幅图像将随机进行一系列的数据增强操作,包括裁剪、翻转、旋转和缩放。在分割方面,有8个以上关节的实例将以同样的可能性被裁剪到上下身体。

旋转范围为−45◦∼45◦,标度范围为0.7∼1.35。图像大小在4.3节为256×192,4.4节为384×288。

测试:

      将后高斯滤波器应用于热图估计。按照与[26]相同的策略,我们将原始图像的预测热图与相应翻转图像的结果进行平均。然后,在从最高响应到第二最高响应的方向上实现四分之一偏移,以获得关键点的最终位置。姿势得分是框得分和关键点平均得分的乘积,与[8]中相同。

我们观察到其性能随着骨干容量的增长而迅速饱和。 很明显,Res-101的性能优于Res-50的1.6 AP,并且成本高出3.1G FLOP,但Res-101到Res-152的增益仅为0.5,但需要额外的3.7G FLOP。 为了进一步探索,我们通过在Res-152上添加更多残留块来训练Res-254网络。 虽然网络的FLOP从11.2G增加到18.0G,但AP的改善仅为0.4。 因此,对于单级网络采用Res-152或更大的主干是无效的。

表二 COCO极小数据集上不同骨干的单级网络结果

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第6张图片

不同阶段的沙漏和MSPN在COCO Minimval数据集上的结果。

 表三 COCO最小值数据集上不同阶段数沙漏和MSPN的结果

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第7张图片

随着网络容量的增加,它获得了显著的性能增益。

在此基础上,验证了基于该单级模块的多级体系结构的有效性。从表3可以看出,单级沙漏[26]的性能较差。再增加一个阶段会带来很大的准确率提升。研究表明,多级网络具有发展潜力。然而,当采用四个或八个阶段时,改进变得很小。这表明需要一个更有效的单级模块。第3.1节讨论了我们的单级模型,并且在minival数据集上使用71.5AP的性能证明了我们单级模块的优越性。我们的两站式网络进一步改进了3.0,获得74.5个接入点。第三和第四阶段的引入保持了巨大的上升趋势,最终带来了很大的性能提升。这些实验表明,MSPN成功地突破了现有单级和多级网络的上限。随着网络容量的增加,性能也获得了显著的提高。

表四 COCO最小值数据集上具有较小单级模块的MSPN结果

作者证明他们的单级模块能有效地采用其他主干

表六 COCO微型数据集上MSPN的消融研究

[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读_第8张图片

总结:

     在这项工作中,我们提出了一个多阶段姿势网络(MSPN)来执行多人姿势估计。 它打破了当前方法的性能上限,并在MS COCO数据集上实现了最先进的结果。 我们首先使用MSPN中精心设计的单级模块验证多级流水线的有效性。 此外,还提出了粗到细监督和跨阶段特征聚合策略,以进一步提高框架的性能。 已经进行了广泛的实验以证明其优于其他现有方法以及其普遍性。

 

你可能感兴趣的:(Mynote,computer,vision)