(论文阅读28/100 人体姿态估计)Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

28.文献阅读笔记

简介

题目

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

作者

Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh, CVPR, 2017.

原文链接

arxiv.org/pdf/1611.08050.pdf

【人体姿态估计2】Real-time Multi-person 2d pose estimation using part affinity fields_2017_realtime multi-person 2d pose estimation using par-CSDN博客

关键词

PAFs

研究问题

问题:

to efficiently detect the 2D pose of multiple people in an image:在一张图片中高效监测多人的2D姿态

挑战:

First, each image may contain an unknown number of people that can occur at any position or scale.

首先,每幅图像可能包含未知数量的人物,这些人物可能出现在任何位置或尺度上。

Second, interactions between people induce complex spatial interference, due to contact, occlusion, and limb articulations, making association of parts difficult.

其次,由于接触、遮挡和肢体衔接等原因,人与人之间的互动会产生复杂的空间干扰,从而使部件之间的关联变得困难。

Third, runtime complexity tends to grow with the number of people in the image, making realtime performance a challenge.

运行时的复杂性往往会随着图像中人物数量的增加而增加,使得实时性能成为一个挑战。

之前的方法:

自顶向下的方法:

采用人物检测器,对每次检测进行单人姿态估计。

缺点:人物检测器失效——当人处于近距离时很容易失效,则无法恢复。运行时间与人数成正比:每次检测都要运行单人姿态估计器,人数越多,计算成本越高。

自底向上的方法:对早期承诺具有鲁棒性,并有可能将运行时间的复杂性与图像中的人数脱钩。然而,自下而上的方法不能直接使用来自其他身体部位和其他人的全局上下文线索。以前的自下而上方法并不能保持效率上的优势,因为最终的解析需要昂贵的全局推理。新方法:联合标注部件检测候选对象,并将其与每个人相关联。然而,解决全连接图上的整数线性规划问题是一个 NP 难问题,平均处理时间大约为数小时。所以使用了基于 ResNet 的更强大的部件检测器和与图像相关的成对分数,极大地改进了运行时间,但该方法每张图像仍需几分钟,而且对部件建议的数量有限制。

研究方法

Part Affinity Fields (PAFs):该架构对全局上下文进行编码,允许采用自下而上的贪婪解析步骤,在保持高准确性的同时实现实时性能,而与图像中的人数无关。要通过同一序列预测过程的两个分支共同学习部件位置及其关联。

(论文阅读28/100 人体姿态估计)Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields_第1张图片

网络结构:

(论文阅读28/100 人体姿态估计)Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields_第2张图片

图像首先由卷积网络(由 VGG-19 [26] 的前 10 层初始化并微调)进行分析,生成一组特征图 F,输入到每个分支的第一阶段。

顶部分支(米黄色)预测置信度图,底部分支(蓝色)预测亲和场。

在每一阶段结束后,两个分支的预测结果与图像特征一起被串接到下一阶段。

损失函数:

(论文阅读28/100 人体姿态估计)Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields_第3张图片

解决梯度消失问题:梯度补充

通过执行非最大值抑制获得候选身体部位。

(论文阅读28/100 人体姿态估计)Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields_第4张图片

接下来需要对每对身体部位检测的关联性(即它们属于同一个人)进行置信度测量。如图 5b 所示,衡量关联性的一种可能方法是检测肢体上每对部位之间的额外中点,并检查其在候选部位检测之间的出现率。然而,当人们拥挤在一起时,这些中点很可能会支持错误的关联(如图 5b 中的绿线所示)。产生这种错误关联的原因有两个:(1) 它只对每个肢体的位置而非方向进行编码;(2) 它将肢体的支持区域缩减为一个点。

为了解决这些局限性,提出 "部分亲和力场 "的新型特征表示方法,它可以在肢体的支撑区域内同时保留位置和方向信息(如图 5c 所示)。部分亲和力是每个肢体的二维矢量场:对于属于特定肢体区域的每个像素,一个二维矢量编码了从肢体的一部分指向另一部分的方向。每种肢体都有一个相应的亲和场,将其两个相关的身体部位连接起来。

能够消除错误连接。

研究结论

PAFs同时推断这些自下而上的检测和关联表示,可以很好地编码全局上下文,从而使贪婪解析能够以极低的计算成本获得高质量的结果。

运行时间:(1) CNN 处理时间,其运行时间复杂度为 O(1),随人数变化而不变;(2) 多人解析时间,其运行时间复杂度为 O(n2),其中 n 代表人数。不过,解析时间对整体运行时间影响不大,因为它比 CNN 处理时间少两个数量级,

创新不足

见图9。常见的失败案例:( a )罕见的姿势或外观,( b )缺失或错误的零件检测,( c )重叠的零件,即两个人共享的零件检测,( d )错误的连接从两个人的关联零件,( e-f ):在雕像或动物上的假阳性。

(论文阅读28/100 人体姿态估计)Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields_第5张图片

额外知识

人体姿态检测的发展历程

你可能感兴趣的:(论文阅读,计算机视觉,人工智能)