Rethinking on Multi-Stage Networks for Human Pose Estimation

无聊翻arxiv发现的文章,先放地址: 文章地址. 本来一开始觉得是和凯明大神那篇’rethinking imagenet pretrain’ 文章一样,干货满满, 读完之后略有失望.

这篇文章是Face++团队出品的,旨在设计出一个好的multi-stage的pose 检测. 这篇文章的主要目的,是为了设计一个随着网络stage数目增加, 模型的预测能力逐步提高的网络. 而不是像之前的hourglass或者其它网络一样,增加stage数目并不会显著提高模型的预测能力. 对比图如下:
Rethinking on Multi-Stage Networks for Human Pose Estimation_第1张图片
图1 可以看出,Hourglass和single-stage这两个模型,随着stage数目的增加,coco ap值并没有显著提高.而网络提出的MSPN网络却可以近似做到. 文章的主要目的就是这个, 那怎么设计multi-stage网络呢,主要做了三点:

  1. 魔改hourglass module. hourglass module是top-down 和 down-up层级沙漏结构,而且在整个hourglass module中,所有的通道数都保持固定(256). 文章提出这样做在downsample的过程中,featuremap的空间分辨率变小了,但通道数没有增加,这样就会损失一部分信息. 而pose的检测其实如果在网络前期有一点误差,就可能对最后的结果产生很大的影响. 所以, 文章提出的MSPN网络类似于hourglass的设计理念,在downsample过程中, 逐步提高每个scale的channel数, 如下图所示:Rethinking on Multi-Stage Networks for Human Pose Estimation_第2张图片
  2. 抛弃hourglass的每个stage的连接方式,而使用U-net这种连接方式. 文章认为这种做法可以有效的传递上一个stage的信息给下一个stage,从而促进下一个stage更好的预测pose.
  3. 不同的stage对应的label heatmap 高斯核范围大小不同. 下一stage的heatmap label 高斯核要比上一stage的heatmap label 高斯核更小,如图所示:Rethinking on Multi-Stage Networks for Human Pose Estimation_第3张图片

对每个stage都加入一个中继监督,这已经是multi-stage pose模型的标配了.

文章主要的创新点大体就这三个, 感谢文章作者的贡献,另外文章还是做单人pose的,属于 top-down 结构.

你可能感兴趣的:(human,pose,multi-stege)