A Cuboid CNN Model with an Attention Mechanism for Skeleton-based Action Recognition---论文理解

翻译

一个有注意力的长方体CNN模型基于骨架的动作识别机制

摘要

深度传感器(如微软Kinect)的引入推动了人类动作识别的研究。深度传感器收集的人体骨骼数据为动作识别传递了大量的信息。虽然在动作识别方面已经取得了相当大的进展,但是大多数现有的基于骨架的方法忽略了这样一个事实,即并非所有的人体部位都在许多动作中活动,而且它们没有考虑到身体关节的顺序位置。在此,由于动作的类别是由局部关节动作决定的,我们提出了基于骨架的动作识别的长方体模型。具体地说,提出了一种长方体排列策略来组织身体各关节之间的两两位移,从而得到长方体动作表示。这样的表示结构良好,允许深度CNN模型将分析重点放在动作上。此外,在深度模型中利用了注意机制,从而提取出最相关的特征。在我们新的云南大学-中国科学院-多模态人体动作数据集(CAS)上进行了广泛的实验NTU RGB+D数据集,utdmhad和UTKinect-Action3D数据集的比较表明了我们的方法的有效性。索引词- cnn,动作识别,注意机制,特征长方体。

介绍

人类行为识别[1][2][3][4][5]是这是一个活跃而富有挑战性的研究领域在许多应用程序中探索,包括医疗保健、智能监测和安全性。RGB传感器和深度传感器(例如,微软Kinect传感器)已经被用来提高人类动作识别性能。捕获的信息,如深度和3D位置。与RGB数据相比,深度数据可以通过使用红外辐射来适应光照条件的变化。Xiao et al.[6]和Ji et al.[7]提出了一种从深度映射序列中识别人类动作的有效方法。然而,由于深度映射中的冗余,大量的数据增加了计算复杂度,使得它们在现实世界中无法使用。
幸运的是,深度传感器的进步使得从深度图中可以很容易地估计出人类骨骼关节的位置,因为关节包含了丰富的人类动作信息。人类行为可以单独通过骨架数据来表达。因此,骨架数据成为研究热点。骨骼数据对透视的变化是健壮的,因为骨骼坐标不会随着视角的变化而变化。而基于骨架的动作识别方法在计算复杂度上比其他许多基于手工骨架特征的动作识别方法要低被提议的(见Vemulapalli等[8],luvizon等[9],王等人(10)。
虽然基于手工特征的动作识别方法[111]的性能一般都很好,但这些方法有其固有的局限性,尤其是特征比较浅。深度学习提供了一种获取高容量表示的方法。例如,递归神经网络(RNN)[121,长短期记忆(LSTM)[131,[141]。[15]适用于分析顺序数据,通过有效提取时间信息和寻找关键信息,实现可接受的识别[161]。在不同的地方。但是,在训练数据不足的情况下。这些方法往往过分强调时间序列,导致过拟合。卷积神经网络(CNNs)也被用于处理动作序列,是分类和识别的优秀工具。而RNNs。在使用CNNs时,一个重要的挑战是如何组织自然输入到模型中的顺序数据。在大多数基于骨架的动作识别方法中。骨架数据被转换为图像[18]、[19],但这种转换可能会造成空间信息的丢失,且通常计算复杂,限制了其实际应用。
为了更详细地探讨这些局限性,我们认识到大多数方法直接采用不同关节之间的绝对距离作为动作表示,而忽略了方向信息[20]。特别是,当把这些距离转换成图像时,关节的空间坐标会丢失,而产生的图像可能会显示出来空间分布结构。这可能会在类似的动作之间引入歧义,比如举手和举手。这些空间上分散的结构并没有被现有的方法完全解决。这导致对动作最相关的关节缺乏关注,从而减少了提取的CNN特征的识别力。

你可能感兴趣的:(行为识别,深度学习,机器学习,神经网络)