Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文阅读笔记-1

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文阅读笔记-1

  • 多人姿态识别问题和研究现状
  • 本文的方法框架
  • 总结和一点个人感受

今天依据吴恩达教授介绍的论文阅读方法浅读了OpenPose项目的前身论文《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》,主要聚焦于论文的标题、摘要、引言、关键图表及结论,对OpenPose实时多人姿态识别的框架有了大概的认识,现对其做一总结。

值得注意的是,本篇论文文章格式不是很严谨,作者在之后又发布了一篇该文章的新版本,在格式上更为符合学术论文规范,且在内容上也有很多改进之处,可作为参考一并阅读

多人姿态识别问题和研究现状

首先明确,什么是人体姿态识别问题,给定一个含有人物的2D的图片或视频,我们可以轻易从图中分析出有几个人,他们的肢体动作各是什么,这种近乎人类本能的反应,对于计算机来说确实难以做到的,人体姿态识别的目标,就是教会计算机从2D的人物图片或视频复杂的信息中,分析得到人体的关键部位信息和肢体信息。在这一基础上更进一步,如果图片或视频中人物的数量多于1,原本问题的领域就从“单人”变为“多人”,而当问题的应用场景从事先处理变为即时处理时,问题的约束就要加上“实时”。而相应的,解决问题也变得更为复杂和困难。

目前对于多人姿态识别领域来说,各种解决手段,基本可以分成两种思路,一类是自顶向下,先检测出画面中有多少个人,分别在哪,然后对每一个单个的人进行姿态识别;另一类是自底向上,先识别出画面中所有的部位信息和肢体信息,再将属于同一个人的肢体拼接在一起,从而将不同人的肢体分开,最终也得到了每个人的姿态信息。一般而言,自顶向下的方法往往存在时间复杂度受制于画面中人物个数的问题,并且姿态识别受到人体检测的影响很大,如果人体检测得到的结果有误或者干脆检测失败,后续的姿态识别就无法进行。而对于自底向上的方法来说,虽然理论上可以避免运行时间收到人物个数较大的影响,但早期的实践中并没有充分利用到这种效率上的收益,因为在最后进行人物分割的时候需要耗费大量的全局推断信息。本篇文章就旨在解决自底向上多人姿态识别中的这一问题,期望大幅提高时间效率,最终达到实时处理的效果。

本文的方法框架

本文所采用的神经网络结构使用了双分支多阶段CNN,第一分支预测人体部位信息,第二分支预测部位亲和场,每一阶段预测的结果与图的特征信息融合,一并作为下一阶段的输入,在经过多个阶段的处理后,最终得到预测结果。

部位信息很好理解,主要是身体各关节,还有一些额外的身体关键点。关于部位亲和场,更为通俗的理解方式是关于某一肢体的向量场,之所以为向量,是因为肢体既有位置信息,也有方向信息,这是姿态识别结果中必须体现的。如果某一肢体出现在画面中某一位置的概率较高,则此处就有该肢体的部位亲和场,且场中向量的方向为肢体最可能的方向。

最终对于多人分割,本文采取二部图匹配的匈牙利算法,并结合之前得到的部位亲和场信息,给二部图中的边按照其是否与相应的部位亲和场相关度高而赋权重,最终得到最有可能的匹配结果,即得到经过分割的多人姿态识别信息。

总结和一点个人感受

总结而言,本文提出的多人姿态识别方法通过采用部位亲和场以及二部图匹配的方法,避免了自底向上方法在最终多人分割阶段大量的计算开销,最终达到了实时的效果,困扰学界长久以来的问题竟被如此简单易懂的方法解决,不得不感叹学术创新往往需要从固有视角中走出来,打开新的思路。

关于本篇论文的阅读,今后需要仔细研究其具体的实现方法,慢慢由浅入深理解数学推导过程。此外文中用到了一些CNN的知识,也需额外学习。

你可能感兴趣的:(学术方向基础实践,深度学习,人工智能,机器学习,神经网络)