AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点

AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点_第1张图片

一、动机

多人姿态估计一直以来都遵循top-down和bottom-up两种范式,不管哪一种,实际上都是两阶段方法:top-down是先检测人体,然后估计关节点;bottom-up是先估计出关节点,在通过Grouping之类的操作分成一个个人体实例。这就导致整个过程的效率不高。因此,本文提出了一种紧凑高效的多人姿态估计pipline:将人体表示为一个中心点和7个人体部位自适应点,以这种更为精细的人体模型去编码更多不同的姿态,并在一次推理(单阶段)中建模人体实例和关节点的对应关系。

二、相关工作

主要看图1就行:

(a):传统人体表示方法,直接就是用各个关节点 ,多见于两阶段方法和一些bottom-up方法;

(b):Center-to-joint表示方法,是CentNet(Zhou, etc)提出的方法,从中心点回归各个关节点的偏移;

(c):层级结构的表示方法,SPM (Nie et al. 2019);

(d):本文的方法,自适应点集表示人体部位;

作者认为,(a)类方法是两阶段,无疑不够高效;(b)类方法过不够精细,难以从中心点回归到准确的offset;(c)类方法又太复杂了,容易产生累计误差;自然只有(d)类方法是最合适的。

三、方法

提出的人体表示方法如图2所示:

AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点_第2张图片

其将人体分为七个部位: 脸部、肩部、左臂、右臂、臀部、左腿、右腿,每个人体部位又包含了对应的人体关节点。

 基于这种人体表示方法,可以先从中心点回归七个自适应的人体部位点,然后从人体部位点回归到具体的人体关节点。

为了达到这个效果,作者提出了一个网络结构,可以one-stage推理完成多人姿态估计,如图3所示: 

AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点_第3张图片

整个架构简单描述如下:

  • 输入图片经过backbone得到语义feature map, 然后送入三个模块:
    •  Enhanced Center-aware Branch:增强的中心点感知分支,用于感知各种姿态和尺度的人体;
    • Part Perception Module: 部位感知模块,对每个人体实例,回归对应的七个自适应人体部位点;
    •  Two-hop Regression Branch:二跳回归分支,用于从人体不问点回归具体的关节点;注意,这里是以人体部位为一跳节点,回归的不是从人体部位到关节点的offset,而是从中心点到关键点的offset,也即实现了间接的center-to-joint(相比之下,CenterNet是直接的center-to-joint);

所以整体上,作者实现了介于图1中(b)、(c)之间的一种方式,先检测到人体中心点,然后回归到人体部位,最后回归到具体的关节点。

四、效果

AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点_第4张图片

AdaptivePose: 人体姿态估计新思路,将人体部位表示为自适应点_第5张图片

五、写在后面

这篇文章算是提出了一种不同以往的人体表示方法,并提出了一个center-to-part-to-joint的范式来进行多人姿态估计,并通过网络设计可以one-stage推理。

个人感觉其有创新,但还是介于前期工作范畴之内,不是颠覆性创新,但这种方式证明有效仍值得学习。

你可能感兴趣的:(人体姿态估计,DeepLearning,论文笔记,人体姿态,人体姿态估计,center-to-joint)