CVPR‘15 Joint action recognition and pose estimation from video

任务:action recognition and pose estimation 

思路:对动作和姿态进行统一建模,将动作分成姿态,再将姿态分成part,学习三种level特征,通过动态规划有效的推断动作标签和姿态。

方法:统一建模,划分,推理,SVM

1.intro

1.1动机

动作识别和姿态估计都是基于视觉的人体运动理解重要任务。虽然两任务目标不同,但是这两个任务是高度耦合的,现有方法中分别训练两个模型,并一次组合推理:将姿态估计作为动作识别的输入。对于由身体部位的特定集合构型定义的某些动作,单张图像的姿态估计可能足以进行动作识别。

这类方法也有全店:动作识别的准确率高度依赖获得的姿态估计,由于姿态变化大且复杂,在动作数据集的背景中,具有鉴别性的部分(如手臂,手,腿,和腿)在姿态估计中经常被遗漏,从而恶化了后续的动作识别。然后这些人体部位再动作中有较大的运动,可以通过运动信息进行恢复。例如图1,用姿态估计方法错误检测到的手臂和腿被我们的方法成功检测到,除了手臂和腿部的运动信息外,动作识别还提供了对姿态序列的强先验。此外,如果动作限制再预定义的分类中,动作在空间和时间上对似然姿态提供了强约束。

1.2方法概述

首先建立一个时空和或图模型来联合表示动作和姿态,以及后续帧中的横向时间姿态关系。在顶层,通过粗层次特征捕获低分辨率动作信息,对动嘴进行分解胃每一帧的姿态。每一个姿态分解成五个独立的中层ST-part,所有细级别的部分都以他们的stpart父母为条件,每个st-part通过聚类被离散成几个组件。

2.贡献

(1)提出了时空AOG模型进行集成动作识别和姿态估计,两任务是互利的

(2)代表了三个尺度的的动作。粗,中和细的特征与pose特征联合训练。

3.表示以及建模

CVPR‘15 Joint action recognition and pose estimation from video_第1张图片

3.1. Spatial-Temporal And-Or Graph Model

时间帧上,动作表示成姿态

CVPR‘15 Joint action recognition and pose estimation from video_第2张图片

姿态表示为part ,以及part里面的特征表示

CVPR‘15 Joint action recognition and pose estimation from video_第3张图片

 ST-part中特征:classification feature 和 detection feature

classification feature for action classification

CVPR‘15 Joint action recognition and pose estimation from video_第4张图片

 detection feature for regularization其实就是姿态特征

 然后还有两种边的特征,

CVPR‘15 Joint action recognition and pose estimation from video_第5张图片

3.2 Score Functions

主要就是之前的集中特征,放进去算评分,一步一步算下去

4. Inference

CVPR‘15 Joint action recognition and pose estimation from video_第6张图片

通过推理得到动作标签内和part的位置,粗水平和中水平特征直接通过SVM得来,细水平特征对应M个独立想,每项对应一个st-part的医院粉丝和二元转换分数的总和,用动态规划来寻找最佳路径。

5. Learning

CVPR‘15 Joint action recognition and pose estimation from video_第7张图片

5.1st-part学习

ST-parts分为:head, left elbow, right elbow, left knee, right knee.

st-part的特征可以表示为,作为聚类距离

 5.2 ST-part Clustering

主要就是通过上面的聚类距离,来分类每个part

你可能感兴趣的:(姿态估计,人工智能,深度学习)