来自 | 知乎 作者 | 谢一宾
链接 | https://zhuanlan.zhihu.com/p/140060196
[2020/05/16] 更新完善
在深度学习时代之前,和其他计算机视觉任务一样,都是借助于精心设计的特征来处理这个问题的,比如pictorial structure。凭借着CNN强大的特征提取能力,姿态估计这个领域得到了长足的发展。2D人体姿态估计主要可以分为单人姿态估计(Single Person Pose Estimation, SPPE)和多人姿态估计(Multi-person Pose Estimation, MPPE)两个子任务。
Top-down: (从人到关键点)先使用detector找到图片中的所有人的bounding box,然后在对单个人进行SPPE。这个方法是Detection+SPPE,往往可以得到更好的精度,但是速度较慢。
Bottom-up: (从关键点到人)先使用一个model检测(locate)出图片中所有关键点,然后把这些关键点分组(group)到每一个人。这种方法往往速度可以实时,但是精度较差。
遮挡问题是比较难解决的,很多工作也都在发力于此。除了网络结构,数据的预处理也很重要,对于SPPE,要尽量将人放在图片中心。后处理也同样重要,怎么减小对heatmap的argmax操作的量化误差。人体不同于其他物体,人体不同关键点之间是有空间约束关系的,怎么去best capture various spatial relationships between human joints是关键。
CPM是SPPE中的首篇经典之作,来自CPM的Jia Deng组(之后同组改进出了OpenPose,是目前Bottom-up方法中影响力最大的方法),CPM创新之处主要在于其提出的网络结构。
网络有多个stage组成,以第二个stage为例,他的输入由两部分组成,一个是上一个stage预测出的heatmap,一个是自己这个stage中得到的feature map,也就是在每一个stage都做一次loss计算,这样做可以使网络收敛更快也有助于提高精度。
上一层预测的heatmap可以提供丰富的spatial context,这对关节点的识别是非常重要的
4-stage hourglass可以取得95%的8-stage的效果
一半的channel数(128)只会导致1%的performance drop
使用蒸馏来做监督的增强,Students learn knowledge from books (dataset) and teachers (advanced networks).
Faster-RCNN得到bounding box之后进行image cropping,使得所有box具有同样的纵横比,然后扩大box来包含更多图像上下文
使用ResNet作为backbone来估计heatmap和offset vector,因为得到heatmap之后我们往往还需要一个argmax的操作才能得到关节点的坐标,而这个过程中由于网络的下采样过程,heatmap势必分辨率比原图更小,所以得到的坐标会出现偏移,因此又估计了一个offset vector来补偿掉这种量化误差。
OKS-based NMS:基于关键点相似度来衡量两个候选姿态的重叠情况,在目标检测中常基于IoU来做NMS,但是姿态估计中输出的是关键点,更适合用这种属性来衡量。
SSTN(Symmetric Spatial Transformer Network):在不准确的bounding box中提取担任区域
PNMS(Parametric Pose Non-Maximum-Suppression)来去除冗余的姿态
PGPG(Pose-Guided Proposals Generator)
MSRA Xiao Sun组的工作,从输出表示下手,由于heatmap表示的量化误差和坐标表示的效果不好,作者提出使用bones as representation。
多尺度特征信息的融合是网络设计的一个很大的目标,作者使用 GlobalNet (global pyramid network, U-Shape)来处理easy keypoints,GlobalNet中包含了下采样和上采样(插值非转置卷积)的过程。
使用RefineNet (pyramid refined network)来处理hard keypoints
OHKM(online hard keypoints mining)用来找出hard keypoints,类似于检测中的OHEM
在CPN的基础上做了改进,类似于stacked hourglass的结构,把CPN也堆叠起来了,他们也提出detector精度不是很重要,只要够用就行。
MSRA Bin Xiao等人的工作(后续也推出了HRNet系列和HigherHRNet),真的很simple,作者就是把hourglass和CPN中的upsample部分用deconvolution做了,作者论文中提到想探究how good could a simple method be? 真是会写。
作者使用了两个subnet,一个用来输出keypont和segmentationd的heatmap,另一个是detector,用来输出人体的bounding box,然后将这两种输出送到PRN,Pose Residual Network中,得到最终的pose。最关键的部分就是PRN,作者说他们先从data中学习pose structures,然后可以解决遮挡的问题。这部分作者没有讲清楚,呵呵。作者给出的结果是很好的,在单1080ti上COCO数据集可以达到23FPS的速度,效果也是与SOTA的Top-down方法competitive的。
keypoint subnet用来输出keypoint和segmentation的heatmap
person detect subnet用来检测人体,使用的是RetinaNet作为detector
pose residual network输出最终的pose,说是在学习了data的pose structures之后可以有效应对遮挡的问题
我没有很明白他这个compositional的意思,大概是把人体当成一个树结构,children可以帮助parent,也就是文章中所说的bottom-up (不是常提到的那个),parent也可以帮助children,也就是文章中所说的top-down
compositional models
MSRA Bin Xiao等人继simple baseline之后又一力作。网络常常包括下采样和上采样过程,上采样的目的就是要得到高分辨率图像,基于这一观察,该项工作始终在一分支保留着高分辨率的图像,HRNet是像ResNet一样的通用backbone,但是其在姿态估计方面的影响是比较大的,效果也是比较好的。
这项工作主要是对网络结构的改进,主要创新点在于加入channel shuffle和注意力机制。
Channel Shuffle Module (CSM): reshape-transpose-reshape, 经过这一通操作之后,希望feature能够和通道的上下文信息相关。
spatial attention: (feature level)希望网络对于特征图是pay attention to task-related regions而不是整张图片。
Channel-wise Attention: (channel level) 从SE-Net中借鉴来,主要包含GAP和Sigmoid两个步骤,希望网络可以选择更好的通道来detect pattern。
这篇文章很好,作者提到人体并不是所有keypoint都是相关的,所以用一个shared feature来预测不好,作者根据mutual information把人体关键点分成五类,网络先学一个shared feature,然后再为这五类分出五个branch,学习specific features for relates parts Evaluation: 这个方法很好,值得借鉴,相关的可以提供帮助,不相关的keypoint硬是用shared feature来预测,反而会导致文章中所说的negative transfer
Related body parts 把keypoint分成多个group,根据mutual information
Part-based branching network (PBN) learn specific features for each group of related parts
这项工作主要是要处理拥挤场景下的多人姿态估计问题,并且在MPII, COCO和AI Challenger数据集基础上做了一个新的crowd benchmark。
在拥挤场景下,在同一个box内,我们可能需要处理很多其他人的关键点,该项工作设计了joints candidate loss来估计multi-peak heatmaps,让所有可能的关节点都作为候选。
Person-joint Graph: joint node是通过关节点间的距离来建立,person node通过检测的human proposals来建立,两者之间的edge通过看是否有contribution来建立。由此建立了一个人-关节的graph,也就转化到了图论问题上,目标就是最大化二分图中的边权重。使用updated Kuhn-Munkres解决这个问题。
backbone是hourglass,提出分级的SPR,把person instance and position information 统一了起来,所以可以做到single-stage。估计人的中心root joint,其他关节由估计的displacement来处理。
Hierarchical SPR
A unique root for each person
Several joint displacements for each joint
heatmap for root joint (L2 loss)
dense displacement map for each joint (smooth L1 loss)
用了Fast R-CNN和ILP,速度比较慢
detect 检测人体关键点(Adapted Fast R-CNN)并且把他们表示为graph中的节点
label 使用人体关节点类别给检测出的关键点分类,比如arm, leg
partition 将关键点分组到同一个人
使用pairwise terms来做优化
基于Jia Deng组之前的stacked hourglass network做的(也启发了后来该组的CornerNet)作者的insight很好,Many CV tasks can be viewed as joint detection and grouping,提出tag heatmap来group人体部件。
produce detection heatmaps and associate embedding tags together (bottom-up but single-stage) and then match detections to others that share the same embedding tag
主要的工作在于提出了associate embedding tag,也就是说预测每个关节点的时候也同时预测这个关节点的tag值,具有相同tag值的就是同一个人的关节点
使用深层的ResNet架构来检测body part
使用image-conditioned pairwise terms来做优化,可以将众多候选节点减少,通过候选节点之间的距离来判断该节点是否重要
网络结构基于CPM改进,网络包含两个分支,一个分支预测heatmap,另一个分支预测paf(part affine field),paf也是这项工作的关键所在。
paf是两个关节点连接的向量场,可以把它看做肢体,以paf为基础,把group的问题转化文二分图匹配(bipartite graph)的问题,使用匈牙利算法求解。
这篇也是估计了offset来做refine,并且也是multi-task的,估计了short mid long三种offsets,各自都有不同的作用。
short-range offsets to refine heatmaps
mid-range to predict pairs of keypoints
greedy decoding to group keypoints into instances
关键点由PIF给出,关键点之间的连接由PAF给出,接下来就是使用Greedy Decoding进行group的过程了。
字节跳动Bin Xiao团队的工作,基于之前的HRNet工作和associative embedding。
HRNet在bottom-up方法中的尝试,associative embedding加上更强大的网络。
^Kocabas, M., Karagoz, S., & Akbas, E. (2018). MultiPoseNet: Fast Multi-Person Pose Estimation Using Pose Residual Network.
^Su, K., Yu, D., Xu, Z., Geng, X., & Wang, C. (2019). Multi-person pose estimation with enhanced channel-wise and spatial information.
^Nie, X., Feng, J., Zhang, J., & Yan, S. (2019). Single-stage multi-person pose machines.
^Cao, Z., Simon, T., Wei, S. E., & Sheikh, Y. (2017). Realtime multi-person 2D pose estimation using part affinity fields.
