论文阅读:Deepcut&Deepercut:Joint Subset Partition and Labeling for Multi Person Pose Estimation

引言

本篇一起介绍两篇相关文章——
《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》 CVPR 2016
《DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model》 ECCV 2016

Deepcut

概述

本文可以理解为还是采用了自顶向下的方法针对多人进行姿态估计,所谓自顶向下的方法就是先使用CNN检测人体,即body part candidates,再判断这些关节点属于哪一个人。最后使用ILP优化模型进行姿态估计。不过两者在执行顺序上有交叉的部分。

模型

论文阅读:Deepcut&Deepercut:Joint Subset Partition and Labeling for Multi Person Pose Estimation_第1张图片

首先使用CNN提取body part candidates,每一个候选区域对应的是一个关节点, 每一个关节点作为图中的一个节点,所有的这些候选关节点组成代表的节点组成一副完整的图,正如上图dense graph所示。节点之间的关联性作为图中的节点之间的权重。这时,可以将其看作是一个优化问题,将属于同一个人的关节点(图中的节点)归为一类,每一个人作为一个单独的类。同时,另一条分支,需要对检测出来的节点进行标记,确定他们属于人体的哪一个部分。最后,使用分类的人结合标记的部分构成最终的每个人的姿态估计。

模型优点

1. 在人数位置的情况下可以解决多人姿态估计问题,通过归类可以得到每个人的关节点分布
2. 通过图论节点的聚类问题,有效的使用了非极大值抑制
3. 优化问题表示为integer linear program(ILP)问题,可以用数学方法得到有效的求解

细节

1. 对于多人姿态估计问题,可以转换为一个优化问题。优化问题需要解决三个问题:
a,body part candidate 的选择,即节点的选择
b,每个选择的节点的标记问题,即该节点属于身体的哪个部分,eg:胳膊,腿,手等
c,分类问题,即每个选择的节点属于哪一个人
2. 通过图论节点的聚类问题,有效的使用了非极大值抑制
3. 优化问题表示为integer linear program(ILP)问题,可以用数学方法得到有效的求解

不足

由于使用了自适应的fast R-CNN进行人体的检测,同时又使用ILP进行人体姿态估计,所以计算复杂度非常大,因此下面这篇文章DeeperCut就是对其的一个加速实现。

Deepercut

本文是在deepcut的基础上,对其进行改进,改进的方式基于以下两个方面:
(1)使用最新提出的residual net进行body part的提取,效果更加准确,精度更高
(2)使用Image-Conditioned Pairwise Terms的方法,能够将众多候选区域的节点压缩到更少数量的节点,这也是本文为什么stronger和faster的原因所在。该方法的原理是通过候选节点之间的距离来判断其是否为同一个重要节点。

你可能感兴趣的:(人体姿态估计)