姿态估计概述

定义和优势

单目摄像机拍摄的二维图像中预测行人的人体关键点坐标,为其他任务做支持如行人重识别、动作识别。目前分类两类:单人多人
基于计算机视觉的人体姿态佶计不需要额外的穿戴设备, 该技术比传统的穿戴式动作捕捉技术成本更加低廉且灵活性更高

人体姿态表示形式

1.二位坐标

关键点(人体主要关节)表达方式以二位坐标的形式(x,y),方法简洁,无序后处理

姿态估计概述_第1张图片

2.空间热力图

回归的数据是关键点落在该坐标的概率,优点定位更精准,缺点占用存储更多,当存储受限是时,会影响其精度并产生量化误差。
姿态估计概述_第2张图片

3.空间向量场

空间向量场中的每一个每个位置代表的都是一个向量V(I,J)=(C,X,Y),C表示执行度,XY代表偏执(方向),优点是结合了两种表达方式优点,是一种折中的方法,但是表达形式比较复杂,在回归和分类时有冲突,比较抽象难以以图像的形式描述:
姿态估计概述_第3张图片

传统方法(模板匹配)

1.弹簧形变模型。即对部件模型与整体模型的相对空间位置关系进行建模,利用了物体的一些空间先验知识,既合理约束加粗样式了整体模型和部件模型的空间相对位置,又保持了一定的灵活性。
姿态估计概述_第4张图片

2.通过身体部位检测,将每个肢体都细化来提高模板匹配的效果
姿态估计概述_第5张图片

基于深度学习的人体关键点检测

1.自上而下的人体关键点检测(Top-Down)

此方法主要包含两个部分,目标检测和单人人体骨骼关键点检测,

1.1 deeppose

参考:https://blog.csdn.net/sky_asher/article/details/80187726
https://arxiv.org/abs/1312.4659

第一阶段用Alexnet和额外的回归全连接层,来得到一对对的关键点坐标,将网络得到的粗分回归(x, y)坐标保存

姿态估计概述_第6张图片
第二阶段其实就是个Trick,使用级联回归器(Cascaded Regressors),以原图中(x, y)为中心,剪切一个区域图像,将区域图像传入CNN网络学习更高分辨率的特征,进行较高精度的坐标值回归。
姿态估计概述_第7张图片

1.2 alpha pose

基于Single Person Pose Estimation(sppe):https://zhuanlan.zhihu.com/p/370446942?utm_id=0
使用了fast rcnn和sppe

问题背景:

1.SPPE的检测结果很容易受到检测框的影响,gt和bbox的iou>0.5时也很容易得到错误的姿态估计结果。

姿态估计概述_第8张图片
提出了区域多人姿态估计(RMPE)框架:对称空间变换网络(SSTN)、参数姿态(p-Pose)NMS、姿态引导提议生成器(PGPG)

2.检测结果冗余
SPPE会为每个检测框都产生一个骨干点集合
姿态估计概述_第9张图片

2.自上而下的人体关键点检测(Bottom-Up)

先检测图像中人体部件,然后将图像中多人人体的部件分别组合成人体,因此这类方法在测试推断的时候往往更快速,准确度稍低。实现方法主要包含两个部分,关键点检测和关键点聚类

2.1 Part Segmentation:

通过目标分割定位四肢和躯干,关键点分布在分割后的特定区域内,最后部位分割对关键点之间的关系进行建模。显式的提供人体关键点的空间先验知识,指导网络的学习,同时在最后对不同人体关键点进行聚类时也能起到相应的连接关键点的作用。
姿态估计概述_第10张图片

你可能感兴趣的:(姿态估计)