Temporal-Spatial Mapping for Action Recognition

Xiaolin Song, Cuiling Lan, Wenjun Zeng, Fellow, IEEE, Junliang Xing, Member, IEEE, Xiaoyan Sun, Senior
Member, IEEE, and Jingyu Yang, Senior Member, IEEE
Song X, Lan C, Zeng W, et al. Temporal-Spatial Mapping for Action Recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019.

深度学习模型在图像分类和目标检测等与图像相关的计算机视觉任务中取得了巨大的成功。然而,对于与视频相关的任务,如人类动作识别,目前的进展并不显著。主要的挑战在于缺乏有效的模型来对视频中丰富的时空信息进行建模。我们介绍了一种简单而有效的操作,称为时空映射(TSM),通过联合分析视频的所有帧来捕捉帧的时间演化。我们提出了一种视频级二维特征表示方法,将所有帧的卷积特征转换为二维特征图,称为VideoMap。每一行都是一个帧的矢量化特征表示,压缩了时空特征的表示,同时很好地嵌入了时间动态演化。在VideoMap表示的基础上,提出了一种基于浅卷积神经网络的时间注意模型,有效地利用了时间-空间动态特性。实验结果表明,该方案在具有挑战性的人体动作基准数据集HMDB51上,实现了最先进的性能,在时域分段网络(TSN)上获得了4.2%的精度增益。

与图像分类[12][14]和目标检测[15][17]等与图像相关的计算机视觉任务相比,这些技术的进步并不显著。主要原因是视频中的动作不仅涉及到每帧的空间信息,还涉及到每帧的时间演化。

为了克服这些限制,我们需要一个能够联合有效地学习时空特征表示并能够探索密集帧信息的网络架构。**为此,我们提出一项简单而有效的操作,即,用于联合时空特征建模。我们使用VideoMap简洁地表示整个视频的时空特性,这是逐帧矢量化ConvNet特性的行布局,如图1中间所示。这使得可以一眼看到密集的框架,从而执行有效的时空联合分析。所提出的TSM操作是通用的,可以在任何卷积特征之后用于视频级时空特征学习。**部署这个TSM操作动作识别,我们首先训练骨干2D卷积模型来提取视频序列的每一帧卷积特性,然后执行TSM操作生成时空VideoMap特性,这自然的在2D特征图上编码了时空信息。注意,目前可用的卷积神经网络用于动作识别,如VGG16 [5], TSN with BN-Inception[3],可以作为我们提取卷积特征的骨干卷积神经网络.

在紧凑的VideoMap表示的基础上,我们进一步提出了头部卷积网络中的时间注意模型,提取有效的视频级特征嵌入,预测最终的动作类别。在HMDB51和UCF101两大基准上的实验结果证明了该网络结构的有效性及其最新性能。

这种TSM操作具有以下特点和优点。这种TSM操作是一种通用的操作,它可以应用于卷积神经网络的特征映射/特征,对一系列帧的时空动态进行编码。这种用于获取视频地图的TSM操作可以主要确定密集帧的时间顺序信息,这有助于区分与发生顺序相关的动作类别,例如,站立和坐下。这种TSM操作简单而有效。它不涉及复杂的操作。

在实际中,对于每个输入的视频子剪辑,3D卷积只覆盖序列的一小段(例如[19]中的5-7帧,C3D[20]中的16帧)。将子剪辑的分数取平均值,得到最终的预测结果。简单的平均法不能很好地研究子片段间的时间动态,丢失了子片段间的时间顺序信息。

针对目前存在的时间动态建模问题,已有的[6][9]利用长短时记忆再现神经网络(LSTM)对时间演化进行建模。RNN结构有利于从考虑时间顺序的密集帧中探索时序动态。然而,它只实现了与时序池化[6]类似的性能。这可能是由于长视频中梯度消失训练的难度。

与此相反,我们利用时空映射来获得一个嵌入时间动态和时间顺序信息的VideoMap。它有助于联合探索视频的密集帧,以便作出全局性的决定。

基于卷积神经网络用于图像分类中特征提取的成功,我们利用卷积神经网络来共同研究跨帧动态。

以VideoMap为输入,设计了头部卷积网络中的时间注意模型,用于视频级特征提取和动作识别。图3显示了这个网络结构,它由一个浅卷积网络和一个时序注意模块组成。注意,我们将这个浅层的ConvNet称为head ConvNet,因为它是特定于任务[44]的最后一个子网络。将时间注意模块的响应集成到head ConvNet中,调整时序特征的重要程度。将[3]中使用的交叉熵作为视频级损失函数。

要识别视频中的动作类,不同帧的重要性是不同的。有些帧更可能与动作类别无关或不太相关,并可能通过引入噪声而影响最终的性能。其他一些帧可能与动作类别更相关。以握手的动作为例,两个人靠近的帧与动作的相关性较低,可以被其他动作类型共享,而两个人手握在一起的帧则提供了更多的判别信息。因此,我们引入了一个时间注意模型来学习和确定重要性级别。

我们以基于两流的卷积神经网络为骨干网络,将提出的TSM操作嵌入到具有时间注意模型的头部卷积神经网络中,进行视频级分类。图4显示了最终框架的总体流程图。

时间段网络(TSN)[3]具有BN-Inception结构[45],在空间流和时间流上都提供了优越的性能。我们将TSN作为帧特征提取的骨干网络。该网络包括两个流:以RGB图像为输入的空间流和以光流为输入的时间流。将这两种流的结果融合在一起来预测视频标签。

在不失一般性的前提下,以空间流为例描述了整个网络结构。时间流类似。对于连续的视频帧,主干网空间ConvNet输出每帧的特征图。将每一帧的特征映射向一个特征向量向量化,将连续帧的特征向量逐行排列,形成一个VideoMap。videomap通过时间注意的头卷积,生成类分数。时空映射操作允许对整个网络进行端到端训练。由于内存的限制,在实际应用中,我们将网络训练分为两个阶段。在第一个阶段,我们训练骨干对流。然后,我们训练了用于videomap分类的头部卷积神经网络。

为了建立动作识别的视频时空演化模型,我们提出了一种简单而有效的操作——时空映射(TSM),从而能够对视频的密集帧进行联合分析。提出了一种视频级的二维特征表示方法,将序列的卷积特征转化为视频地图,在视频地图中嵌入了时间动态演化。利用带时间注意模型的head ConvNet进一步研究了VideoMap中的时空动态,并学习了有效的视频级特征表示方法进行分类。实验结果表明,该方案在HMDB51和UCF101数据集上分别获得了72.7%和94.3%的性能。

Temporal-Spatial Mapping for Action Recognition_第1张图片

你可能感兴趣的:(行为识别)