RMPE: Regional Multi-Person Pose Estimation
多人姿态估计top-down方法,多人情况下小的定位与识别的错误难以避免,这篇文章提出的方法是regional multiperson pose estimation(RMPE),包括三个部分: Symmetric Spatial Transformer Network (SSTN), Parametric Pose Non-Maximum Suppression (NMS), and Pose-Guided Proposals Generator (PGPG). 空间转换网络,身体部件位置获取,姿态候选发生器。
多人检测比单人检查要复杂,现在的网络一般是分成两个阶段。或是先检测个体再检测身体部件,或是先检测身体部件,然后再检测个体。两种方法各有利弊,先检测个体严重依赖这个检测个体的结果。先检测部件呢,组合这些部件的方法当人靠的比较近的时候有点不靠谱,而且这种方法目前无法利用全局特征去发现身体部件。
目前的人体检测方法会产生两个主要问题:定位错误,以及多余的检测结果,尤其是SPPE (singal person pose estimation)。这篇文章就是为解决这个问题而来的,提出了RMPE方法。包括了三个模块:Symmetric Spatial Transformer Network (SSTN)用于在不准确的bounding box下仍能提取准确的单个人的范围,这是组合到SPPE里面的。NMS是处理多余的候选框的,它是采用了新的距离量测的方法来计算姿态的相似度,且是数据驱动的,不是预先设定的。PGPG用于增多训练样本。
SPPE{单人姿态检测}:
传统方法使用图形结构, pictorial structure models比如 tree models [37, 30, 40, 36] 以及 random forest models [31, 8] 就用在了人体姿态检测上。图形的模型Graph based models 比如random field models [20] 还有dependency graph models [14]也有广泛应用 [13, 32, 21, 26]。不得不提的是,random field models在神经网络中也有改型,{论文Multi-Context Attention for Human Pose Estimation}。
神经网络的人体姿态检查的代表性作品有DeepPose (Toshev et al) [34], DNN based models [24, 11] and various CNN based models [19, 33, 23, 4, 38]
多人检测:
bottom-up方法(这篇文章中称为part based framework):
代表性的有[7,12,35,27,17]。[7]使用图形模型能提取被遮挡的人,[12]使用k-poselets检测人以及预测身体部件的位置(有点类似与K-means,只是需要means的特征空间是身体部件),[27]提出的是Deepcut,经典两步走,part detect & assemble,还有[15]提出的基于ResNet的模型,[17]提出的优化策略deepercut。(但就网络来说,有FCN全连接网络,ResNet,以及Hourglass)
top-down方法(这篇文章中称为 two-step framework):
多人的2017年之前的工作比如deepercut,基于Faser Rcnn的方法。
包含的步骤如图所示,STN和2D仿射变换[18],SDTN是STN的反过程。这两个过程作者当然有给出了正反变换。变换的目的是为了提取高精度的人体范围。然后,STN后面加了特别的结构,一个并行的SPPE,这个结构不是为了姿态而设计的,是为了反馈得到准确的位置center-located。然后这个过程之后就是普通的SPPE单人姿态检查了,单人姿态检测中会得到产生多余候选框的问题,这篇论文也给出了一个解决方案,parametric pose NMS。
那NMS是怎么回事:从多余的候选框中选择参考,置信度最高的作为参考。和参考相似的就被消除,elimination criterion,直到只剩下一个候选框。‘相似’这篇给出了自己的定义pose distance:a soft matching function得到姿态和关节大致的(softly)匹配度,最后的距离公式还加入了身体部件的距离。
优化:
本来这个没什么,因为是具体的框架设计的具体的结构(eliminate criterion)而设计的优化策略,即它只服务于这一个结构,而非模块化的东西。但这一块透露出作者对神经网络深刻 理解,尤其是“怎么将普通算法设置成网络的形式”。原文摘录如下:
后面高能:
在如何实施上,作者放大招了:他将人体姿态设置为原子姿态(没什么新意),然后将躯干缩放到相同长度(有点意思喽,同是今年2017年的论文有人做过pose normalization),然后根据调整后的姿态做聚类(同为今年的论文有人做过基于模式的人类姿态估计PAF),然后区分处理不同特征。不过,说到姿态的聚类,早在2014年就有人做过[Articulated pose estimation by a graphical model with image dependent pairwise relations. In: Advances in Neural Information Processing Systems (NIPS).]根据这个时间点来看,当时可能不会太好,还要去看看。
不知作者是有心还是无意,这种大招放到一个附属地位来写,反倒是他的网络,仅做了不惊喜的更新(相当于扩展了Hourglass到多人场景,迫不得已加的附件)。当然,还有一种可能,作者可能完全没意识到这点的意义,或许这儿有个机会。实际上,他扩展很少,是将PAF [ Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields(发表于2017年4月14)] “翻译”到了两个阶段,除此之外可以认为基本一致。所以,扩展这两个阶段,完全可以生成更强的多人识别网络,这将是一种和Hourglass同一级别的基础框架的结构。