MPII Human Pose

介绍

CVPR 2014 - 2D Human Pose Estimation: New Benchmark and State of the Art Analysis

2D的人体姿态估计数据库,元老级别,在标注规范化和评价系统完善方面进行突破

本文只关注它所做的标注内容以及评价系统

标注内容

MPII Human Pose_第1张图片

  • 主要的人体关节点坐标可见性,被遮挡的用红色标记
  • 眼睛、鼻子坐标
  • 头部边界框

MPII Human Pose_第2张图片

  • 主要的人体部分的遮挡程度,被遮挡的用实心矩形表示

MPII Human Pose_第3张图片

  • 头部和躯干的三维视角,红色在前

注意标注的左右是指图中人的左右,而非图像的左右

实验协议和评估指标

约定:

  • 在测试时,人体的大概位置和尺度是已知的(还没理解)
  • 排除多人互相接近的情况

这些简化对于数据集的快速采用是必要的,因为当前的大多数方法不处理多个人员的姿态估计,也不搜索人员的位置和比例。

 

指标:

  • PCP 如果估计的主体段端点距离它们的真实位置在ground-truth段长度的50%以内,则认为主体部分是正确定位的。
  • PCPm 
  • PCK Percentage of Correct Keypoints 测量身体关节定位的准确性,当下这个指标比较主流

计算检测的关键点与其对应的groundtruth间的归一化距离小于设定阈值的比例(the percentage of detections that fall within a normalized distance of the ground truth).

FLIC 中是以躯干直径(torso size) 作为归一化参考. 
MPII (本论文)中是以头部长度(head length) 作为归一化参考,即 PCKh.

代码和介绍参考   关键点估计之 PCK, PCKh, PDJ 评价度量

 

对前沿方法分析

分析了

两种全身的方法:flexible mixture of parts (FMP) 和 pictorial structures (PS)(和本文同源,都是他们的工作)

两种上半身的方法:multimodal decomposable models (MODEC) 当时在FLIC中表现最好 和 Armlets 在Armlets dataset表现最好

 

除了整数据集评价之外,关注5个因素对结果的影响:部分遮挡,前景透视,身体的姿势,视点,人的活动

定义了一个人的标注为L=\{L^{pose},L^{view},L^{vis}\}

L^{pose}=\{l_i,i=1,\dots,N\}是关节坐标

L^{view}=\{\alpha_1,\alpha_2,\alpha_3\} 是欧拉角表示的躯干旋转

L^{vis}=\{(\rho_i,\theta_i),i=1,\dots,N\}身体各部分的可见性, \rho_i\in\{0,1\} 是遮挡标签,\theta_i\in\{0,1\}是截断标签

定义了复杂度测量

姿态的复杂度定义为和整个集合平均姿态的不同程度: m_{pose}(L) = \prod _{(i,j)\in E}p_{ps}(l_i|l_j)(这个概率分布还没看懂)

透视收缩程度m_f(L)=\sum_{i=1}^N|d(l_i)-m_i|/m_i 其中d(l_i) 是身体某部位的长度,m_i 是该部位在全数据上的平均长度

视点复杂度由与正面视点的偏差来衡量: m_v(L)=\sum_{i=1}^{3}\alpha_i

遮挡和截断的数量与遮挡和截断的身体部位数量对应: m_{occ}=\sum_{i=1}^N\rho_im_{t}=\sum_{i=1}^N\tau_i

 

MPII Human Pose_第4张图片MPII Human Pose_第5张图片

把横轴看成各种困难的程度,纵轴是表现,可以看出以下规律

对表现影响最大的是姿态复杂度

然后是视点复杂度

第三的是遮挡

各部位长度截断 的影响较少

在上半身估计的情况下,由于两个因素,随着截断量的增加,性能甚至略有提高。

作为截断,如果更有可能为下半身,这些方法遭受较少的截断,也截断体位是偏向正面的观点,这些方法更适合。我们现在更详细地讨论和分析每个因素

MPII Human Pose_第6张图片

对姿态进行聚类,然后选择了50类,根据姿态复杂度排序,得到上图,随着姿态变得复杂,性能下降

其它几种分析原理差不多

你可能感兴趣的:(pose)