【论文笔记】2020行为识别综述A Survey on 3D Skeleton-Based Action Recognition Using Learning Method

A Survey on 3D Skeleton-Based Action Recognition Using Learning Method

论文地址
CVPR2020

基于深度学习方法的三维骨骼动作识别综述

这是第一个对使用3D骨架数据的基于深度学习的动作识别进行全面讨论的研究。

骨架序列三个显著的优势:

  1. 空间信息:关节节点与其相邻节点之间存在强相关性,因此可以以帧内方式在骨骼数据中发现丰富的身体结构信息
  2. 时间信息:帧间方式可以使用强时间相关性
  3. 当考虑关节和骨骼时,空间和时间区域之间的贡献关系

使用深度学习方法从原始RGB序列或视频到最终动作类别的基于3D骨架的动作识别一般流程:

【论文笔记】2020行为识别综述A Survey on 3D Skeleton-Based Action Recognition Using Learning Method_第1张图片

主要内容:

  1. 介绍了3D骨架序列数据的优越性和三种深度学习模型特点的介绍,举例使用3D骨骼数据的基于深度学习方法的行为识别pipeline
  2. 对每种深度模型,从数据驱动角度(数据驱动方式:讨论的核心都是这三种结构都是如何从3D骨架序列数据中构建、获取时空信息的)介绍了基于骨架数据的最新算法,例如时空建模、骨架数据表示、共现特征学习等方面,这些部分也是现存的待解决的经典问题
  3. 首先讨论最新的具有挑战的数据集NTU-RGB+D 120及其附带的几种top-rank方法,然后讨论未来研究方向
  4. 首个在基于3D骨架数据的行为识别研究中考虑了各种深度模型(RNN CNN GCN)的综述

II 3D Skeleton-Based Action Recognition with Deep Learning

  1. RNN-based

    RNN通过将上一时刻的输出作为当前时刻的输入来形成其结构内部的递归连接,这被证明是一种处理序列数据的有效方法。

    • 时空建模算是行为识别任务的首要原则:

      • 双流RNN结构(H. Wang and W. Liang, “Modeling temporal dynamics and spatial configurations of actions using two-stream recurrent neural networks,” 2017.):为骨架数据建模时域和空域特征,骨架轴的交换作为数据预处理来更好地学习空间域特征,该工作的框架如下图所示:

        【论文笔记】2020行为识别综述A Survey on 3D Skeleton-Based Action Recognition Using Learning Method_第2张图片

      • 一般方法将关节排列成简单链从而忽略相邻关节之间的动态依赖关系,这种基于树结构的关节遍历方法(J. Liu, A. Shahroudy, D. Xu, and G. Wang, “Spatio-temporal lstm with trust gates for 3d human action recognition,” 2016.)在人体关节联系不够牢固时也不会添加虚假连接。使用带有trust gate的LSTM来区分输入,即如果树状输入单元是可靠的,则将使用输入的潜在空间信息来更新记忆单元。

      • 注意力RNN和CNN模型(C. Xie, C. Li, B. Zhang, C. Chen, and J. Liu, “Memory attention networks for skeleton-based action recognition,” 2018.)改善复杂的时空建模。首先在残差学习模块中使用时间注意模块来重新校准骨架序列中的时域注意力,然后后接时空卷积模块,将校准后的联合序列视为图像。

      • (L. Lin, Z. Wu, Z. Zhang, H. Yan, and W. Liang, “Skeleton-based relational modeling for action recognition,” 2018.)使用一个注意力循环关系LSTM网络,其中循环关系网络recurrent relation network学习骨架序列空间特征、多层LSTM学习时域特征。

    • 网络结构被视为RNN的弱点驱动方面:为了解决层间梯度衰减

      • 独立的循环神经网络(L. Shuai, W. Li, C. Cook, C. Zhu, and Y. Gao, “Independently recurrent neural network (indrnn): Building a longer and deeper rnn,” 2018.)解决梯度爆炸和消失问题,通过它可以构建一个更长更深的RNN网络来学习鲁棒性更好的高级语义特征。一层中的神经元彼此独立,因此可以用于处理更长的序列。
    • 数据驱动方面:

      • (J. Liu, G. Wang, P. Hu, L. Y. Duan, and A. C. Kot, “Global contextaware attention lstm networks for 3d action recognition,” in IEEE Conference on Computer Vision & Pattern Recognition, 2017.)在LSTM网络中添加全局意识关注global contex-aware attention来选择性地关注骨架序列中信息丰富的关节。可视化效果:信息更多的关节用红圈颜色区域表示,表明这些关节对这一特殊动作更重要。

        【论文笔记】2020行为识别综述A Survey on 3D Skeleton-Based Action Recognition Using Learning Method_第3张图片

        • (I. Lee, D. Kim, S. Kang, and S. Lee, “Ensemble deep learning for skeleton-based action recognition using temporal sliding lstm networks,” in IEEE International Conference on Computer Vision, 2017.)将骨架转换为另一种坐标系统来提升尺度变化、旋转、平移的鲁棒性,然后从转换后的数据中提取显著运动特征,而不是直接将原始骨架数据输入到LSTM中。
  2. CNN-based:如何平衡且更充分利用空间信息和时域信息

    • (P. Wang, W. Li, C. Li, and Y. Hou, “Action recognition based on joint trajectory maps with convolutional neural networks,” in Acm on Multimedia Conference, 2016.)提出关联轨迹图(Joint Trajectory Maps, JTM),通过颜色编码将关节轨迹的空间配置和动态信息表示为三个纹理图像。缺点:复杂、映射中失去重要性。
    • (L. Bo, Y. Dai, X. Cheng, H. Chen, and M. He, “Skeleton based action recognition using translation-scale invariant image mapping and multiscale deep cnn,” in IEEE International Conference on Multimedia & Expo Workshops, 2017.)使用平移不变的图像映射策略,先根据人体物理结构将每帧图像人体骨架关节分为五个主要部分然后映射为2D形式。缺点:孤立了人体骨架关节,没有紧密联系。
    • (Expo Workshops, 2017. [57] L. Yanshan, X. Rongjie, L. Xing, and H. Qinghua, “Learning shapemotion representations from geometric algebra spatio-temporal model for skeleton-based action recognition,” in IEEE International Conference on Multimedia & Expo, 2019)从几何代数中提出形状运动表示法shape-motion representaion解决了关节和骨骼的重要性,充分利用了骨架序列所提供的信息。
    • (C. Caetano, J. Sena, F. Bremond, J. A. dos Santos, and W. R. Schwartz, ´ “Skelemotion: A new representation of skeleton joint sequences based on motion information for 3d action recognition,” in IEEE International Conference on Advanced Video and Signal-based Surveillance (AVSS), 2019.)基于运动信息提出SkeleMotion方法,通过显示计算关节运动的幅度和方向值来编码时间动态信息。
    • ( C. Caetano, F. Bremond, and W. R. Schwartz, “Skeleton image ´ representation for 3d action recognition based on tree structure and reference joints,” in Conference on Graphics, Patterns and Images (SIBGRAPI), 2019.)使用SkeleMotion方法框架但是基于树结构和参考关节来表示骨架图像。

    【论文笔记】2020行为识别综述A Survey on 3D Skeleton-Based Action Recognition Using Learning Method_第4张图片

    • 上述方法通常把时域动态和关节简单地编码为行和列来将骨架序列表示为图像。仅考虑卷积核内相邻关节来学习共现特征,一些潜在相关关节会被忽略。

      (L. Chao, Q. Zhong, X. Di, and S. Pu, “Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation,” 2018.)使用一个端到端框架通过分层方法学习共现特征,在框架中逐步汇总不同层级的上下文信息。首先对点级point-level信息进行独立编码,然后在时域和空域将它们组合成语义表示。

  3. GCN-based:作为CNN的一种推广形式可应用于包括骨架图在内的任意结构。最重要的问题仍然与骨架数据的表示有关,即如何将原始数据组织成特定的图形。

    • ST-GCN:首先将人的关节作为时空图的顶点,以人体结构和时间的自然联系作为图的边,构造一个时空图;使用标准softmax分类器来将ST-GCN上获取的高级特征图划分为对应的类别。

    • AS-GCN:不仅可以识别人的动作还可以使用多任务学习策略输出目标下一个可能的pose。图结构通过A-links和S-links来捕获关节之间更丰富的依赖性。

      【论文笔记】2020行为识别综述A Survey on 3D Skeleton-Based Action Recognition Using Learning Method_第5张图片

    最常见的关注点仍然是数据驱动,GCN-based主要围着“如何获取”展开,骨骼数据本身是一种时空耦合,此外将骨架数据转换为图时,关节和骨骼之间的连接也是时空耦合的。

III 数据集和性能

【论文笔记】2020行为识别综述A Survey on 3D Skeleton-Based Action Recognition Using Learning Method_第6张图片

现存的算法已经在NTU-RGB+D数据集上取得了极好的性能,在NTU-RGB+D 120数据集上仍然还有很大进步空间。

IIII 结论

RNN-Based和CNN-Based方法通过骨架数据表示和详细的网络结构设计来解决时空特征问题,在GCN-based方法中,最重要的事情是如何充分利用关节和骨骼的信息和联系。

在三种不同的学习结构中最常见的仍然是从3D骨架中获取有效信息,而拓扑图是人类骨架关节最自然的表示。这并不意味着CNN-based和RNN-based方法就不适合骨架行为识别任务,相反当在这些模型上应用一些策略(例如多任务学习)时,CV和CS性能都会得到提升。然而,在NTU-RGB+D上的精度已经很高了,很难去进一步提升,所以注意力应该放到更难的数据集上,例如NTU-RGB+D 120。

些模型上应用一些策略(例如多任务学习)时,CV和CS性能都会得到提升。然而,在NTU-RGB+D上的精度已经很高了,很难去进一步提升,所以注意力应该放到更难的数据集上,例如NTU-RGB+D 120。

未来方向:长期行为识别、更有效的3D骨架序列表示、实时识别等都是待解决的问题,此外无监督和弱监督策略以及zero-shot学习也可能会得到发展。

你可能感兴趣的:(论文学习)