[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition

A New Representation of Skeleton Sequences for 3D Action Recognition
CVPR 2017
本文的主要思想是将3d骨架坐标转换成图片,然后再用卷积网络提取特征,时域上的特征通过特殊的卷积核来提取,以达到时序记忆的目的。

一、主要方法

1.New Representation

每一段3d skeleton sequence都转换成四张图片。
以左肩、右肩、左臀、右臀作为基准点,计算和其他节点的相对位置,由此得到四个矩阵,再把这四个矩阵归一化到0-255之间,变成灰度图片,再送入网络提特征。
四个图片维度 m1t ( m − 1 ) ∗ t

m m :关节点个数
t t :帧数

[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition_第1张图片
因为每张图片都是针对同一个基准点的,因此同一张图片都是 spatial invariarant的,所以描述出来的temporal dynaminc都很鲁棒。

2.网络结构:

先用VGG的前五层提特征,得到14X14x512的特征向量
在行上(时间上)做池化,池化kernel 14x1,这样就实现了时域上的信息融合,而不是采用LSTM.
池化是取平均池化:
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition_第2张图片
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition_第3张图片
再将得到的14X512个feature map压成一个7168维的向量

3.Multi-task

4张图片,看成四个task,训练时这4个task的损失加起来变成一个总的损失函数。测试时,这四个task预测的值做一个平均。
单个task的损失函数:
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition_第4张图片
总的损失函数:
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition_第5张图片

二、实验:

Frames + CNN: 用四个中的单个feature vector来做分类,最后结果取平均
Clips + CNN + Concatenation:将四个feature vector拼接起来
Clips + CNN + Pooling:对四个feature vector 做max pooling
Clips + CNN+ MTLN:对四个做multi-task.
由实验结果可见,multi-task是要好于四个特征拼接的,在ntu-rgbd上相对于拼接差不多有3%的提升。按说这四个都是同类特征,用拼接是没有问题的。可是结果却令人深思。

NTU-RGBD数据集
[骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition_第6张图片
SBU数据集:93.57%
CMU数据集:93.22% ,88.30%

你可能感兴趣的:(paper阅读)