2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》

《Cascaded Pyramid Network for Multi-Person Pose Estimation》
机构:Face++
源码:https://github.com/chenyilun95/tf-cpn
效果:COCO 17关键点冠军

文章目录

  • 1 中心思想
  • 2 CPN结构
  • 3 设计理念
  • 4 Loss
  • 5 效果

1 中心思想

  1)面对问题:
  在多人姿态估计中,有诸多具备挑战性问题,如关键点遮挡,关键点不可见,复杂背景等;文中将这些点称为“hard keypoint”
 2)本文方案:
  A)提出了Cascaded Pyramid Network (CPN)网络结构,采用top-down模式进行多人姿态估计
  B)CPN包含two stages: GlobalNet and RefineNet
  C)GlobalNet解决相对容易的关键点估计;RefineNet采用online hard keypoint mining loss实现hard keypoint估计
2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》_第1张图片

2 CPN结构

2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》_第2张图片
1)BackBone
  采用ResNet作为基础特征网络(ResNet50/ResNet101等);可以理解为上图中输入图像后的箭头
2)CPN
  A)参考FPN(Feature Pyramid Networks)设计多层级特征提取网络–GlobalNet;该网络采用L2 Loss作为Loss function
  B)在GlobalNet基础上增加RefineNet,加强对hard keypoint的估计;该网络采用L2 Loss* 作为Loss function
3)GlobalNet
  A)采用ResNet的不同Stage的最后一个残差块输出(C2,C3,C4,C5)作为组合为特征金字塔;拿ResNet50来说,当输入大小为1×3×256×192时:
  C2 = res2c(1×256×64×48)
  C3 = res3d(1×512×32×24)
  C4 = res4f(1×1024×16×12)
  C5 = res5c(1×2048×8×6)
  这样就构成特征金字塔
   C2,C3具有较高的空间分辨率和较低语义信息,而C4,C5具有较低空间分辨率和更丰富的语义信息;将他们结合在一起,则即可利用C2,C3空间分辨率优势定位关键点,也可利用C4,C5丰富语义信息识别关键点
  B)然后各层进行1×1卷积将通道都变为256
  C)将分辨率小的层上采样一次,在对应神经元相加,输出P2,P3,P4,P5


2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》_第3张图片

  D)输出:对每层,即P2,P3,P4,P5都进行3×3卷积,再生成heatmaps

4)RefineNet
  A)对GlobalNet的4层输出P2,P3,P4,P5分别接上不同个数的Bottleneck模块
  B)将这4路输出,上采样到同一分辨率,这里以P2路(64×48)为基础,P3路放大2倍,P4路放大4倍,P4路放大8倍
  C)将4路按通道Concat一起,再接bottleneck,最后接输出层

3 设计理念

2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》_第4张图片

 在上图中一些Visible easy keypoints,比如说鼻子,从它会有相对固定的形状和纹理,且其点周围具备一些上下文信息,比较容易识别;而对于Visible hard keypoints来说,比如被衣服遮挡的关节点,在没有上下文信息情况下,人都很难识别是什么。

 那么人是怎么样去看比较难的关节点呢?人可能会无意识地放大或者利用可见点的上下文信息来推断其他点的信息。有些点是隐藏的,不仅是被衣服遮挡,识别这一类关节点会更难,需要利用更多的上下文信息。

 但是怎么样做才可以把看keypoint这个过程体现在卷积神经网络里呢。我们很难人为定义哪些关节点是可见容易关节点,哪些是被遮挡的关节点,哪些是隐藏的关节点。

 为了解决这个问题,我们退而求其次,把人体的关节点,大致分类两类:简单的部分和难的部分。用不同的方案去解决简单点和难点,先解决容易点,再解决难点。在解决难关节点部分时,提供更多的上下文信息,更大的可感受野。

4 Loss

 1)GlobalNet Loss就是L2 Loss,没什么可说的
 2)RefineNet Loss
  它与L2是同理的,但是在训练时,动态地将loss值比较大的几个channels进行反向学习;个人理解是RefineNet Loss更加关注loss值比较大的点,而这些点往往就是hard keypoint;实验验证,回传前8个loss效果较好


2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》_第5张图片

5 效果

2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》_第6张图片
2D多人关键点:《Cascaded Pyramid Network for Multi-Person Pose Estimation》_第7张图片

你可能感兴趣的:(2D,Pose,论文阅读)