(12) Multi-person Pose Estimation : heatmap +Offsets :G-RMI

Towards Accurate Multi-person Pose Estimation in the Wild


 CVPR 2017

reading time: 2019/09/18

paper address:https://arxiv.org/pdf/1701.01779.pdf


论文采用top-down的结构,分为两个阶段: 
第一阶段使用faster rcnn做detection,检测出图片中的多个人,并对bounding box进行image crop; 
第二阶段采用fully convolutional resnet对每一个bonding box中的人物预测dense heatmap和offset; 
最后通过heatmap和offset的融合得到关键点的精确定位。

(12) Multi-person Pose Estimation : heatmap +Offsets :G-RMI_第1张图片

 0/1 heatmap 是作者提出的二值热图,指的是距离目标关节点一定范围内的所有点的概率值都为1,其余为0。

offsets 用来表示所有概率为1的点与目标关节点之间的指向关系。相较于高斯分布的heatmap,模型在检测0/1 heatmap时不需要得到每个像素的置信概率值,只需要得到一个包含关节点大概的置信区域。进行坐标定位时,不必进行难度较大的coordinate全局坐标回归,由于置信区域相当于给出了关节点位置的先验信息。可以直接在置信区域内进行offsets局部偏移回归。

heatmap+offsets 策略降低了回归任务和检测任务的难度,表现了较好的效果和时间效率。思想其实和先前的heatmap + 微调类似。

 

————————————————
具体细节参考:https://blog.csdn.net/qq_36165459/article/details/78322449

具体细节


Person Box Detection


人物bbox检测的faster rcnn的backbone是inception-Resnet,先在COCO的80个类别数据集上进行训练,再在只有person的bounding box上进行fine tune。

Person Pose Estimation


采用分类和回归的方法,得到关节点的heatmap和坐标offset。

Heatmap for classification:对于每一个空间点,先判断它是否在关节点的附近,生成K通道的heatmap,K是关节点的个数。 
Offset for regression:对每一个空间点再预测一个2D的坐标来表示关节点的位置。将heatmap和offset做一个融合得到精确关节点位置。

Image cropping


对于每一个bounding box做裁剪的时候保持人体的纵横比,最终得到的crop image是353*257pixel,纵横比保持1.37,对于宽和高不是该比例的,扩大较短边。

Heatmap & offset fusion


输入是heatmap(K channel,每一个关键点一个channel)和offset(2*K channel,每一个关键点两个channel,分别是x和y坐标),输出是3*K个channel。

关于融合,对于每一个关节点和每一个空间位置,计算该位置是关节点的概率,这样生成K个关键点,之后将这个问题转换为一个二分类问题。另一方面,预测每一个位置与标准位置的距离,将其转换为一个2D回归问题。这样就将融合分成了二分类和2D回归两个问题。

你可能感兴趣的:(Human,Pose,Estimation,CV)