Cascade Feature Aggregation for Human Pose Estimation

这篇paper目前是单人姿态估计领域基于MPII数据集[email protected]评测指标位列第一的一篇2019CVPR的顶会文章, 由南京开发团队(平安科技所著).
主要有三个贡献组成:
1.提出了CFA(Cascade Feature Aggregation)级联特征聚合
2.通过融合不同阶段的结果, CFA可以进一步提高结果。
3.我们的CFA超越了最先进的结果, 达到93.9%的PCKh
@0.5的值。

Cascade Feature Aggregation for Human Pose Estimation_第1张图片
上图是提出的CFA的结构。由多个沙漏网络按元素求和所构成,Feature Aggregation表现在每个阶段的沙漏网络会对特征图进行预测,上一层的输出同时输入到下个阶段的输入.

Cascade Feature Aggregation for Human Pose Estimation_第2张图片
基于沙漏网络的ResNet. 这个网络是一个编码器-译码器模型,编码器部分呢是把ResNet作为基本的结构。

Cascade Feature Aggregation
Cascade Feature Aggregation for Human Pose Estimation_第3张图片
上图是CFA的不同阶段的聚合表示。不同的阶段有着三种不同的特征聚合。输入聚合将为丢失的预测点带来局部详细信息,以便进行第二次预测。特征集合将高层语义信息传递到输入层。预测聚合使预测结果更加稳定。
Cascade Feature Aggregation for Human Pose Estimation_第4张图片
热图的融合。最终的热图是由最后几次热图预测的平均值得到的。

Experiments:Cascade Feature Aggregation for Human Pose Estimation_第5张图片
Cascade Feature Aggregation for Human Pose Estimation_第6张图片
Cascade Feature Aggregation for Human Pose Estimation_第7张图片
在这里插入图片描述
Cascade Feature Aggregation for Human Pose Estimation_第8张图片
Cascade Feature Aggregation for Human Pose Estimation_第9张图片
Cascade Feature Aggregation for Human Pose Estimation_第10张图片
Cascade Feature Aggregation for Human Pose Estimation_第11张图片
Cascade Feature Aggregation for Human Pose Estimation_第12张图片
给出了该方法的一些失败实例。可以看出,在一些光照复杂、分辨率低、运动模糊的图像上,由于训练集中缺少此类样本,导致性能下降。

Conclusions:本文提出了一种新的人体姿态估计的CFA方法,该方法将多个沙漏级联并聚合低、中、高三个层次的特征,以较好地捕捉局部细节信息和全局语义信息。此外,提出的的CFA分别在第一阶段和接下来的阶段使用ResNet-101和ResNet-50,从而在准确性和效率之间取得了很好的平衡。实验结果表明,数据多样性对提高系统性能至关重要。

#本人目前会整理2019顶会中姿态估计的笔记整理,有需要的笔者可以关注喔~

你可能感兴趣的:(机器学习,计算机视觉)