【CVPR2022】论文阅读:Revisiting Skeleton-based Action Recognition

基于GCN的局限性:

1.输入特征是坐标,坐标对预测影响太大,一个小偏移会导致不同的结果

2.不容易与其他特征聚合

3.GCN的Gflops太大

1. Introduction

在本文中,作者提出了一个新的框架poseconov3d,它可以作为基于GCN的方法的竞争替代方案。特别是,PoseConv3D将图1所示的现代姿势估计器获得的2D姿势作为输入。2D姿势由骨骼关节的热图堆栈表示,而不是在人体骨骼图上操作的坐标。不同时间步的热图将沿时间维度堆叠,以形成3D热图体积。PoseConv3D然后在3D热图体积的顶部采用3D卷积神经网络来识别动作。

【CVPR2022】论文阅读:Revisiting Skeleton-based Action Recognition_第1张图片

对比基于GCN的方法,PoseConv3D主要有以下优势:

(1)使用3D热图体素对上游姿势估计更具鲁棒性:PoseConv3D在通过不同方法获得的输入骨架上具有良好的通用性。

(2)poseconov3d依赖于基于表示的热图,享有卷积网络架构的最新进展,并且更容易与其他模式集成到多流卷积网络中。这一特性为进一步提高识别性能开辟了很大的设计空间。

(3)最后,poseconov3d可以处理不同数量的人,而不会增加计算开销,因为3D热图体积的复杂性与人数无关。

2. Related Work

GCN for skeleton-based action recognition 

CNN for skeleton-based action recognition 

3. Framework 

【CVPR2022】论文阅读:Revisiting Skeleton-based Action Recognition_第2张图片

3.1. Good Practices for Pose Extraction 

坐标三元组(x,y,c),其中c表示热图的最大得分,(x,y)是c的对应坐标。在实验中,我们发现坐标三元组(x,y,c)在性能几乎没有下降为代价的情况下,有助于节省大部分存储空间。

3.2. From 2D Poses to 3D Heatmap Volumes 

从视频帧中提取2D姿势后,为了将其输入PoseConv3D,我们将其重新格式化为3D热图体积。形式上,我们将2D姿势表示为大小为K x H xW的热图,其中K是关节数,H和W是帧的高度和宽度。我们可以直接使用自顶向下姿态估计器生成的热图作为目标热图,在给定相应边界框的情况下,对热图进行零填充以匹配原始帧。如果我们只有骨架关节的坐标三元组(xk,yk,ck),我们可以通过合成以每个关节为中心的K个高斯贴图来获得关节热图J:

σ控制高斯位图(Gaussian maps)的方差,(xk,yk)和ck分别是第k个关节的位置和置信度得分。我们还可以创建肢体热图L:

第k个肢体位于两个关节ak和bk之间。函数D计算从点(i;j)到段[(xak,yak),(xbk,ybk)]的距离。

可以很容易地将其扩展到多人情况,在这种情况下,我们可以直接累积所有人的第k个高斯位图,而无需放大热图。最后,通过沿时间维度叠加所有热图(J或L),获得三维热图体积,因此其大小为K x T x H x W。

在实践中,我们进一步应用两种技术来减少3D热图体积的冗余:

(1) Subjects-Centered Cropping  使热图与框架一样大是低效的,尤其是当感兴趣的人只在一个小区域内活动时,

(2) Uniform Sampling 通过对帧子集进行采样,还可以沿时间维度减小3D热图体积。为了从视频中采样n帧,我们将视频分成n个等长的片段,并随机选择片段中的一帧。均匀采样策略更能保持视频的全局动态。我们的实证研究表明,均匀采样策略对基于骨架的动作识别非常有利。

4. Experiments 

4.1. Dataset Preparation

FineGYM【49】、NTURGB+D【38、48】、Kinetics400【6、71】、UCF101【57】、HMDB51【29】和排球【23】 

Performance & Efficiency 

【CVPR2022】论文阅读:Revisiting Skeleton-based Action Recognition_第3张图片

Robustness 为了测试这两个模型的稳健性,我们可以在输入中去掉一部分关键点,看看这种扰动会如何影响最终的精度 

【CVPR2022】论文阅读:Revisiting Skeleton-based Action Recognition_第4张图片

 Generalization 为了比较GCN和3D-CNN的泛化,我们在FineGYM上设计了一个交叉模型检查

【CVPR2022】论文阅读:Revisiting Skeleton-based Action Recognition_第5张图片

5. Conclusion

PoseConv3D解决了基于GCN的方法在健壮性、互操作性和可扩展性方面的局限性。

因此,参考这篇论文,再其他数据集用姿态估计heatmap去辅助动作识别会有不错得效果 

你可能感兴趣的:(姿态估计,论文阅读)