Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(时间段网络:使用深度行为识别的良好实现)

本文的原作者为Limin Wang等人原文地址

摘要

深度卷积网络在静止图像中的视觉识别方面取得了巨大成功。然而,对于视频中的动作识别,优于传统方法的优势并不明显。本文旨在探索为视频中的动作识别设计有效的ConvNet架构的原则,并在有限的训练样本下学习这些模型。我们的第一个贡献是时间片段网络(TSN),一种基于视频的动作识别的新颖框架。这是基于远程时间结构建模的思想。它结合了稀疏时间采样策略和视频级监控,可以使用整个动作视频实现高效,有效的学习。另一个贡献是我们在时间段网络的帮助下研究了一系列关于视频数据的ConvNets的良好实践。我们的方法HMDB51(69.4%)和UCF101(94.2%)的数据集上获得了最先进的性能。我们还可以对已学习的ConvNet模型进行可视化,这些模型定性地证明了时间段网络的有效性和提出的良好实践。

关键词:行为识别;时间段网路;良好实现;卷积神经网络

1.简介

基于视频的行动识别引起了学术界的极大关注[1,2,3,4,5,6],因为它在安全和行为分析等许多领域得到应用。在行动识别中,有两个关键和互补的方面:外观和动态。识别系统的性能在很大程度上取决于它是否能够从中提取和利用相关信息。然而,由于诸如比例变化,视点变化和相机运动之类的许多复杂性,提取这样的信息是非平凡的。因此,设计能够应对这些挑战的有效表示同时保留行动类别的分类信息变得至关重要。最近,卷积网络(ConvNets)[7]在对象,场景和复杂事件的图像分类方面取得了巨大成功[8,9,10,11]。还引入了ConvNets来解决基于视频的动作识别问题[12,1,13,14]。 Deep ConvNets具有出色的建模能力,能够在大规模监督数据集的帮助下学习原始视觉数据的判别表示。但是,与图像分类不同,端到端深度ConvNets仍然无法实现比基于视频的动作识别的传统手工制作功能更大的优势。
我们认为,ConvNets在基于视频的动作识别中的应用受到两个主要障碍的阻碍。首先,远程时间结构在理解动作视频中的动态变化中起着重要作用[15,16,17,18]。然而,主流的ConvNet框架[1,13]通常关注外观和短期运动,因此缺乏整合远程时间结构的能力。最近有一些尝试[19,4,20]来解决这个问题。这些方法主要依赖于具有预定义采样间隔的密集时间采样。当应用于长视频序列时,这种方法会产生过多的计算成本,这限制了其在现实世界中的应用,并且存在丢失长于最大序列长度的视频的重要信息的风险。其次,在实践中,深度ConvNets培训需要大量的训练样本才能达到最佳性能。然而,由于数据收集和注释的困难,公开可用的动作识别数据集(例如UCF101 [21],HMDB51 [22])在尺寸和多样性方面仍然是有限的。因此,非常深刻的ConvNets [9,23]在图像分类方面取得了显着的成功,面临着过度拟合的高风险。
这些挑战激励我们研究两个问题:1)如何设计一个有效和高效的视频级框架,用于学习能够捕捉长期时间结构的视频表示; 2)如何在有限的训练样本下学习ConvNet模型。特别是,我们在成功的双流架构[1]的基础上构建我们的方法,同时解决上述问题。在时间结构建模方面,关键的观察是连续帧是高度冗余的。因此,通常导致高度相似的采样帧的密集时间采样是不必要的。相反,在这种情况下,稀疏时间采样策略将更有利。受此观察的启发,我们开发了一个视频级框架,称为时间段网络(TSN)。该框架使用稀疏采样方案在长视频序列上提取短片段,其中样本沿时间维度均匀分布。在其上,采用分段结构来聚合来自采样片段的信息。在这个意义上,时间片段网络能够对整个视频的长程时间结构建模。此外,这种稀疏采样策略以极低的成本保留相关信息,从而在时间和计算资源的合理预算下实现对长视频序列的端到端学习。
为了释放时间段网络框架的全部潜力,我们采用了最近引入的非常深入的ConvNet架构[23,9],并探索了许多良好实践,以克服由有限数量的训练样本引起的上述困难,包括1)交叉模式前培训; 2)正规化; 3)增强的数据增强。同时,为了充分利用视频中的视觉内容,我们根据经验研究了两种输入模式到双流ConvNets,即单个RGB图像,堆叠RGB差异,堆叠光流场和堆叠翘曲光流场。
我们在两个具有挑战性的动作识别数据集上进行实验,即UCF101 [21]和HMDB51 [22],以验证我们方法的有效性。在实验中,使用时间片段网络学习的模型明显优于这两个具有挑战性的动作识别数据集的现有技术水平。我们还想象了我们学到的双流模型,试图为未来的行动识别研究提供一些见解。

2.相关工作

在过去几年中,行动识别已得到广泛研究[2,24,25,26,18]。 与我们相关的先前工作分为两类:(1)用于动作识别的卷积网络,(2)时间结构建模。

行为识别卷积网络

一些作品一直试图设计有效的ConvNet架构,用于视频中的动作识别[12,1,13,27,28]。 Karpathy等。 [12]在大型数据集(Sports-1M)上测试了具有深层结构的ConvNets。Simonyan等人。 [1]通过利用ImageNet数据集进行预训练和计算光流以明确捕获运动信息,设计了包含空间和时间网络的双流ConvNets。 Tran等人。 [13]探索了关于逼真和大规模视频数据集的3D ConvNets [27],他们试图通过3D卷积操作学习外观和运动特征。孙等人。 [28]提出了一个分解的时空ConvNets并利用不同的方法来分解3D卷积核。最近,有几项工作专注于使用ConvNets建模远程时间结构[4,19,20]。但是,这些方法直接在较长的连续视频流上运行。受计算成本的限制,这些方法通常处理64到120帧的固定长度的序列。由于时间覆盖范围有限,这些方法从整个视频中学习是非常重要的。我们的方法不同于这些端到端的深度ConvNets,它采用了稀疏时间采样策略,可以使用整个视频进行有效学习而不受序列长度的限制。

时序结构建模

时态结构建模。许多研究工作致力于对动作识别的时间结构进行建模[15,16,17,29,30,18]。 Gaidon等人。 [16]为每个视频注释了每个原子动作,并提出了动作检测的动作序列模型(ASM)。 Niebles等。 [15]提出使用潜在变量来模拟复杂动作的时间分解,并使用Latent SVM [31]以迭代方法学习模型参数。王等人。 [17]和Pirsiavash等人。 [29]分别使用Latent Hierarchical Model(LHM)和Segmental Grammar Model(SGM)将复杂动作的时间分解扩展为分层方式。王等人。 [30]设计了一个顺序骨架模型(SSM)来捕捉动态poselet之间的关系,并进行时空动作检测。费尔南多[18]模拟了BoVW表示用于动作识别的时间演变。然而,这些方法仍然无法组装用于对时间结构建模的端到端学习方案。提出的时间片段网络虽然也强调了这一原则,但却是整个视频端到端时间结构建模的第一个框架。

3.时间段网络的行为识别

在本节中,我们将详细描述使用时间段网络执行操作识别。 具体来说,我们首先介绍时间段网络框架中的基本概念。 然后,我们研究了在时间段网络框架内学习双流ConvNets的良好实践。 最后,我们描述了学习的双流ConvNets的测试细节。

3.1时间段网络

正如我们在第1节中讨论的那样,当前形式的双流ConvNets的一个明显问题是它们无法建模远程时间结构。这主要是由于它们对时间上下文的有限访问,因为它们被设计为仅在单个帧(空间网络)上操作或在短片段(时间网络)中的单个帧堆栈上操作。然而,诸如体育动作之类的复杂动作包括跨越相对长时间的多个阶段。如果不将这些行动中的远程时间结构用于ConvNet培训,那将是相当大的损失。为了解决这个问题,我们提出了时间片段网络,一个如图1所示的视频级框架,以便在整个视频中建模动态。
具体地,我们提出的旨在利用整个视频的视觉信息来执行视频级预测的时间片段网络框架也由空间流ConvNets和时间流ConvNets组成。时间片段网络不是在单帧或帧堆栈上工作,而是对从整个视频稀疏采样的一系列短片段进行操作。此序列中的每个片段将生成其自己的动作类的初步预测。然后,片段中的共识将被导出为视频级预测。在学习过程中,通过迭代更新模型参数来优化视频级预测的损失值,而不是在双流ConvNets中使用的片段级预测的损失值。
形式上,给定视频V,我们将其分成相等持续时间的K个段{S1,S2,···,SK}。 然后,时间片段网络对片段序列进行建模,如下所示:



图1.时间段网络:一个输入视频被分成K个片段,并且从每个片段中随机选择一个短片段。 不同片段的类别得分通过节段共识函数融合以产生节段共识,这是视频级预测。 然后融合所有形态的预测以产生最终预测。 所有代码段上的ConvNets共享参数。

这里(T1,T2,···,TK)是一系列片段。 每个片段Tk从其对应的片段Sk中随机采样。 F(Tk; W)是表示具有参数W的ConvNet的函数,其在短片段Tk上操作并且为所有类产生类别分数。 节段共识函数G组合来自多个短片段的输出以获得它们之间的类假设的一致性。 基于该共识,预测函数H预测整个视频的每个动作类的概率。 这里我们选择广泛使用的H的Softmax函数。结合标准分类交叉熵损失,关于节段共识的最终损失函数G = G(F(T1; W),F(T2; W),···, F(TK; W))形成为



其中C是动作类的数量,yi是关于类i的groundtruth标签。在实验中,根据先前关于时间建模的工作,片段K的数量被设置为3 [16,17]。共识函数G的形式仍然是一个悬而未决的问题。在这项工作中,我们使用最简单的G形式,其中Gi = g(Fi(T1),...,Fi(TK))。这里,使用聚合函数g,从所有片段上的相同类的分数推断出类得分Gi。我们凭经验评估了几种不同形式的聚合函数g,包括在我们的实验中均匀平均,最大和加权平均。其中,均匀平均用于报告我们的最终识别准确度。
根据g的选择,该时间片段网络是可微分的或至少具有子梯度。这允许我们利用多个片段来利用标准反向传播算法联合优化模型参数W.在反向传播过程中,可以导出模型参数W相对于损耗值L的梯度

其中K是时间段网络使用的段数。
当我们使用基于梯度的优化方法(如随机梯度下降(SGD))来学习模型参数时,公式 3保证参数更新利用从所有片段级预测导出的节段共识G. 以这种方式优化,时间片段网络可以从整个视频而不是简短的片段学习模型参数。 同时,通过为所有视频固定K,我们组装了稀疏时间采样策略,其中采样的片段仅包含一小部分帧。 与使用密集采样帧的先前工作相比,它大大降低了评估帧上的ConvNets的计算成本[4,19,20]。

3.2时间段网络的学习

时间段网络提供了执行视频级学习的可靠框架,但是为了实现最佳性能,必须考虑一些实际问题,例如有限数量的训练样本。 为此,我们研究了一系列关于视频数据深度训练的良好实践,这些实践也直接适用于学习时间片段网络。

网络结构

网络架构是神经网络设计的重要因素。 一些研究表明,更深层的结构可以提高物体识别性能[9,10]。 然而,最初的双流ConvNets [1]采用了相对较浅的网络结构(ClarifaiNet [32])。 在这项工作中,我们选择具有批量标准化(BN-Inception)[23]的Inception作为构建块,因为它在准确性和效率之间具有良好的平衡。 我们将原始的BN-Inception架构适应于双流ConvNets的设计。 与原始的双流ConvNets [1]一样,空间流ConvNet在单个RGB图像上运行,时间流ConvNet将一堆连续的光流场作为输入。

网络输出

我们也有兴趣探索更多的输入模式,以增强时间段网络的判别力。最初,双流ConvNets将RGB图像用于空间流,并将堆叠的光流场用于时间流。在这里,我们建议研究两种额外的模态,即RGB差异和翘曲光流场。
单个RGB图像通常在特定时间点编码静态外观,并且缺少关于前一帧和下一帧的上下文信息。如图2所示,两个连续帧之间的RGB差异描述了外观变化,其可以对应于运动显着区域。受[28]的启发,我们尝试将叠加的RGB差异作为另一种输入模态添加,并研究其在动作识别中的表现。
时间流ConvNets将光流场作为输入并且旨在捕获运动信息。然而,在逼真的视频中,通常存在相机运动,并且光流场可能不会集中在人类动作上。如图2所示,由于相机的运动,在背景中突出显示了大量的水平移动。受到改进的密集轨迹[2]的启发,我们建议采用弯曲光流场作为附加输入模态。在[2]之后,我们通过首先估计单应矩阵然后补偿相机运动来提取翘曲光流。如图2所示,翘曲的光流抑制了背景运动并使运动集中在演员身上。


图2.四种输入模态的示例:RGB图像,RGB差异,光流场(x,y方向)和翘曲光流场(x,y方向)
网络训练

由于动作识别的数据集相对较小,因此训练深度ConvNets会受到过度拟合风险的挑战。为了缓解这个问题,我们设计了几种在时间段网络中训练ConvNets的策略,如下所示。
交叉模态预训练。当目标数据集没有足够的训练样本时,预训练已经成为初始化深度ConvNets的有效方法[1]。由于空间网络将RGB图像作为输入,因此将在ImageNet [33]上训练的模型用作初始化是很自然的。对于诸如光流场和RGB差异的其他模态,它们基本上捕获视频数据的不同视觉方面,并且它们的分布与RGB图像的分布不同。我们提出了一种交叉模态预训练技术,其中我们利用RGB模型来初始化时间网络。首先,我们通过线性变换将光流场离散化为0到255的区间。该步骤使得光学流场的范围与RGB图像相同。然后,我们修改RGB模型的第一卷积层的权重以处理光流场的输入。具体来说,我们平均RGB通道的权重,并通过时间网络输入的通道数复制此平均值。这种初始化方法对于时间网络非常有效,并且可以减少实验中过度拟合的影响。
正规化技术。批量标准化[23]是解决协变量偏移问题的重要组成部分。在学习过程中,批量标准化将估计每批中的激活均值和方差,并使用它们将这些激活值转换为标准高斯分布。由于对来自有限数量的训练样本的激活分布的偏差估计,该操作加速了训练的收敛,但也导致过渡过程中的过度拟合。因此,在使用预先训练的模型进行初始化之后,我们选择冻结除第一个之外的所有批量标准化层的均值和方差参数。由于光流的分布不同于RGB图像,第一卷积层的激活值将具有不同的分布,并且我们需要相应地重新估计均值和方差。我们将此策略称为部分BN。同时,我们在BN-Inception体系结构中的全局池层之后添加了一个额外的dropout层,以进一步减少过度拟合的影响。对于空间流ConvNets,丢失率设置为0.8,对于时间流ConvNets,丢失率设置为0.7。
数据扩充。数据增强可以生成不同的训练样本并防止严重的过度拟合。在原始的双流ConvNets中,采用随机裁剪和水平翻转来增强训练样本。我们利用两种新的数据增强技术:角落裁剪和缩放抖动。在角落裁剪技术中,仅从图像的角落或中心选择所提取的区域,以避免隐含地聚焦在图像的中心区域上。在多尺度裁剪技术中,我们将ImageNet分类中使用的尺度抖动技术[9]应用于动作识别。我们提出了规模抖动的有效实现。我们将输入图像或光流场的大小固定为256×340,并且从{256,224,192,168}中随机选择裁剪区域的宽度和高度。最后,这些裁剪区域将调整为224×224,用于网络培训。实际上,这种实现不仅包含尺度抖动,还涉及纵横比抖动。

3.3时间段网络的测试

最后,我们提出了时间段网络的测试方法。由于所有片段级别的ConvNets共享时间片段网络中的模型参数,因此学习的模型可以像普通的ConvNets一样执行逐帧评估。这使我们能够与没有时间段网络框架的模型进行公平比较。具体来说,我们遵循原始双流ConvNets [1]的测试方案,我们从动作视频中采样25个RGB帧或光流堆栈。同时,我们裁剪4个角和1个中心,并从采样帧中水平翻转以评估ConvNets。对于空间和时间流网络的融合,我们对它们进行加权平均。当在时间段网络框架内学习时,空间流ConvNets和时间流ConvNets之间的性能差距远小于原始双流ConvNets中的性能差距。基于这一事实,我们通过将权重设置为1而将时间流设置为1.5来为空间流提供更多信用。当使用正常和翘曲的光流场时,对于光流,时间流的权重被分为1,对于翘曲的光流,时间流的权重为0.5。它在第二节中描述。 3.1在Softmax归一化之前应用分段共识函数。为了测试模型是否符合他们的训练,我们在Softmax标准化之前融合了25帧和不同流的预测分数。

4.实验

在本节中,我们首先介绍评估数据集和我们方法的实现细节。 然后,我们探讨了学习时间片段网络的建议良好实践。 在此之后,我们通过应用时间段网络框架证明了建模长期时间结构的重要性。 我们还将我们的方法的性能与现有技术进行了比较。 最后,我们可视化我们学到的ConvNet模型。

4.1数据集和实施细节

我们在两个大型动作数据集上进行实验,即HMDB51 [22]和UCF101 [21]。 UCF101数据集包含101个动作类和13,320个视频剪辑。 我们遵循THUMOS13挑战[34]的评估方案,并采用三个培训/测试分组进行评估。 HMDB51数据集是来自各种来源(如电影和网络视频)的大量逼真视频。 该数据集由来自51个动作类别的6,766个视频剪辑组成。 我们的实验遵循原始评估方案,使用三个训练/测试分组并报告这些分组的平均准确度。
我们使用小批量随机梯度下降算法来学习网络参数,批量大小设置为256,动量设置为0.9。我们使用ImageNet预先训练的模型初始化网络权重[33]。我们在实验中设置了较小的学习率。对于空间网络,学习速率初始化为0.001,并且每2,000次迭代减少到1/10。整个训练过程在4,500次迭代时停止。对于时间网络,我们将学习率初始化为0.005,在12,000次和18,000次迭代后减少到1/10。最大迭代次数设置为20,000。关于数据增加,我们使用位置抖动,水平翻转,角落裁剪和比例抖动等技术,如第3.2节所述。为了提取光流和翘曲光流,我们选择在OpenCV中用CUDA实现的TVL1光流算法[35]。为了加速培训,我们采用了多个GPU的数据并行策略,使用我们的修改版Caffe [36]和OpenMPI 2实现。对于空间TSN,UCF101的整个培训时间约为2小时,对于时间TSN,整个培训时间为9小时4个TITANX GPU。

4.2探索研究

在本节中,我们将重点放在调查第二节中描述的良好实践上。 3.2,包括培训策略和输入方式。在这项探索性研究中,我们使用具有非常深的架构的双流ConvNets,改编自[23]并在UCF101数据集的分裂1上执行所有实验。
我们在3.2节中提出了两种训练策略,即交叉模态预训练和部分BN与辍学。具体来说,我们比较了四种设置:(1)从头开始训练,(2)只有[1]中的训练前空间流,(3)交叉模态预训练,(4)交叉模态预训练和部分BN有辍学。结果总结在表1中。首先,我们看到从头开始的训练表现比原来的双流ConvNets(基线)差很多,这意味着精心设计的学习策略对于降低过度风险是必要的。拟合,特别是对于空间网络。然后,我们采用空间流的预训练和时间流的交叉模态预训练来帮助初始化双流ConvNets,并且它实现了比基线更好的性能。我们进一步利用具有辍学的部分BN来规范训练过程,从而将识别性能提高到92.0%。


表1.在UCF101数据集上探索双流ConvNets的不同训练策略(分裂1)。

我们在3.2节中提出了两种新的模态:RGB差分和翘曲光流场。表2中报告了比较不同模态性能的结果。这些实验是在表1中验证的所有良好实践的情况下进行的。我们首先观察到RGB图像和RGB差异的组合将识别性能提高到87.3%。该结果表明RGB图像和RGB差异可以编码互补信息。然后表明光流和翘曲光流产生非常相似的性能(87.2%对86.9%),它们的融合可以将性能提高到87.8%。结合所有四种模态可以获得91.7%的准确率。由于RGB差异可能描述相似但不稳定的运动模式,我们还评估了组合其他三种模态的性能,这带来了更好的识别准确度(92.3%对91.7%)。我们推测光流更好地捕获运动信息,并且有时RGB差异可能不稳定以描述运动。另一方面,RGB差异可以作为运动表示的低质量,高速替代。

4.3时间段网络的评估

在本小节中,我们将重点研究时间段网络框架。我们首先研究分段共识函数的影响,然后比较不同的ConvNet架构对UCF101数据集的分裂1。为了公平比较,我们在此探索中仅使用RGB图像和光流场作为输入模态。如第3.1节所述,段K的数量设置为3。


表2.在UCF101数据集上对双流ConvNets的不同输入模态的探索(分裂1)。

表3.在UCF101数据集上探索时间片段网络的不同节段共识函数(分裂1)。

在公式(1),分段共识函数由其聚合函数g定义。在这里,我们评估三个候选人:(1)最大汇集,(2)平均汇集,(3)加权平均,以g的形式。实验结果总结在表3中。我们看到平均汇集函数达到了最佳性能。因此,在以下实验中,我们选择平均池作为默认聚合函数。然后我们比较不同网络体系结构的性能,结果总结在表4中。具体来说,我们比较了三种非常深的体系结构:BN-Inception [23],GoogLeNet [10]和VGGNet-16 [9],所有这些体系结构接受上述良好做法的培训。在比较的架构中,从BN-Inception [23]改编的非常深的双流ConvNets实现了92.0%的最佳精度。这符合其在图像分类任务中的更好性能。因此,我们选择BN-Inception [23]作为时间段网络的ConvNet架构。
在设置了所有设计选择之后,我们现在将时间片段网络(TSN)应用于动作识别。结果如表4所示。表5中还给出了组件在识别精度方面的分量分析。我们可以看到,即使所有讨论过的好,时间段网络也能够提高模型的性能。实践应用。这证实了建模长期时间结构对于更好地理解视频中的动作至关重要。它是通过时间段网络实现的。


表4.在UCF101数据集上探索不同的非常深的ConvNet体系结构(分裂1)。 “BN-Inception + TSN”指的是在最佳性能BN-Inception [23]架构之上应用时间段网络框架的设置。

表5. UCF101数据集上建议方法的组件分析(分组1)。 从左到右,我们逐个添加组件。 BN-Inception [23]用作ConvNet架构。

4.4与现有最好结果相比较

在探索了良好实践并理解时间段网络的影响后,我们准备建立我们的最终行动识别方法。具体来说,我们汇总了三种输入模态和所有描述为最终识别方法的技术,并在两个具有挑战性的数据集上进行测试:HMDB51和UCF101。结果总结在表6中,其中我们将我们的方法与传统方法进行比较,例如改进的轨迹(iDT)[2],MoFAP表示[39]和深度学习表示,例如3D卷积网络(C3D)[13] ,轨迹汇集深度卷积描述符(TDD)[5],分解时空卷积网络(FSTCN)[28],长期卷积网络(LTC)[19]和密钥量挖掘框架(KVMF)[41] 。我们的最佳结果在HMDB51数据集上优于其他方法3.9%,在UCF101数据集上优于1.1%。我们的方法的优越性能证明了时间段网络的有效性,并证明了长期时间建模的重要性。

4.5模型的可视化

除了识别准确性,我们希望进一步了解学习的ConvNet模型。从这个意义上讲,我们采用了DeepDraw [42]工具箱。该工具在输入图像上进行迭代梯度上升,仅有白噪声。因此,在多次迭代之后的输出可以被视为仅基于ConvNet模型内的类知识的类可视化。该工具的原始版本仅处理RGB数据。为了在基于光流的模型上进行可视化,我们调整工具以使用我们的时间控制。因此,我们首次在动作识别ConvNet模型中可视化有趣的类信息。我们从UCF101数据集中选择五个类,Taichi,Punch,Diving,Long Jump和Biking进行可视化。结果显示在图3中。对于RGB和光流,我们通过以下三种设置可视化学习的ConvNet模型:(1)无需预先训练; (2)只有预先培训; (3)具有时间段网络。
一般而言,具有预训练的模型比没有预训练的模型更能够表示视觉概念。可以看出,没有预训练的空间和时间模型几乎不能产生任何有意义的视觉结构。利用从预训练过程传递的知识,空间和时间模型能够捕获结构化的视觉模式。
人们也很容易注意到,仅使用单帧等短期信息进行训练的模型往往会误认为视频中的风景模式和物体是行动识别的重要证据。例如,在“潜水”课程中,单帧空间流ConvNet主要寻找水上和潜水平台,而不是潜水人员。它的时间流对应物,致力于光流,倾向于关注由地表水波引起的运动。通过时间片段网络引入的长期时间建模,很明显,学习模型更多地关注视频中的人类,并且似乎是对动作类的远程结构进行建模。仍然以“潜水”为例,具有时间片段网络的空间ConvNet生成一个人类是主要视觉信息的图像。并且可以在图像中识别不同的姿势,描绘一个潜水动作的各个阶段。这表明用所提出的方法学习的模型可能表现更好,这在我们的定量实验中得到很好的反映。我们建议读者阅读更多动作类的可视化补充材料以及可视化过程的更多细节。


表6.基于时间分段网络(TSN)的方法与其他最先进方法的比较。我们分别展示了使用两种输入模态(RGB + Flow)和三种输入模态(RGB + Flow + Warped Flow)的结果。

图3.使用DeepDraw进行动作识别的ConvNet模型的可视化[42]。我们比较了三种设置:(1)没有前期训练; (2)有前期训练; (3)具有时间段网络。对于空间ConvNets,我们将三个生成的可视化绘制为彩色图像。对于时间ConvNets,我们绘制灰度的x(左)和y(右)方向的流图。请注意,所有这些图像都是从纯随机像素生成的。

5.结论

在本文中,我们介绍了时间段网络(TSN),这是一个旨在模拟长期时间结构的视频级框架。 正如两个具有挑战性的数据集所示,这项工作将现有技术提升到了一个新的水平,同时保持了合理的计算成本。 这很大程度上归功于稀疏采样的分段架构,以及我们在这项工作中探索的一系列良好实践。 前者提供了捕获长期时间结构的有效且高效的方式,而后者使得有可能在有限的训练集上训练非常深的网络而没有严重的过度拟合。

参考文献

  1. Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recog- nition in videos. In: NIPS. (2014) 568–576
  2. Wang, H., Schmid, C.: Action recognition with improved trajectories. In: ICCV. (2013) 3551–3558
  3. Wang, L., Qiao, Y., Tang, X.: Motionlets: Mid-level 3D parts for human motion recognition. In: CVPR. (2013) 2674–2681
  4. Ng, J.Y.H., Hausknecht, M., Vijayanarasimhan, S., Vinyals, O., Monga, R., Toderici, G.: Beyond short snippets: Deep networks for video classification. In: CVPR. (2015) 4694–4702
  5. Wang, L., Qiao, Y., Tang, X.: Action recognition with trajectory-pooled deep- convolutional descriptors. In: CVPR. (2015) 4305–4314
  6. Gan, C., Wang, N., Yang, Y., Yeung, D.Y., Hauptmann, A.G.: Devnet: A deep event network for multimedia event detection and evidence recounting. In: CVPR. (2015) 2568–2577
  7. LeCun, Y., Bottou, L., Bengio, Y., Haffner, P.: Gradient-based learning applied to document recognition. Proceedings of the IEEE 86(11) (1998) 2278–2324
  8. Krizhevsky, A., Sutskever, I., Hinton, G.E.: ImageNet classification with deep convolutional neural networks. In: NIPS. (2012) 1106–1114
  9. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: ICLR. (2015) 1–14
  10. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: CVPR. (2015) 1–9
  11. Xiong, Y., Zhu, K., Lin, D., Tang, X.: Recognize complex events from static images by fusing deep channels. In: CVPR. (2015) 1600–1609
  12. Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Fei-Fei, L.: Large- scale video classification with convolutional neural networks. In: CVPR. (2014) 1725–1732
  13. Tran, D., Bourdev, L.D., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotem- poral features with 3d convolutional networks. In: ICCV. (2015) 4489–4497
  14. Zhang, B., Wang, L., Wang, Z., Qiao, Y., Wang, H.: Real-time action recognition with enhanced motion vector CNNs. In: CVPR. (2016) 2718–2726
  15. Niebles, J.C., Chen, C.W., Li, F.F.: Modeling temporal structure of decomposable motion segments for activity classification. In: ECCV. (2010) 392–405
  16. Gaidon, A., Harchaoui, Z., Schmid, C.: Temporal localization of actions with actoms. IEEE Trans. Pattern Anal. Mach. Intell. 35(11) (2013) 2782–2795
  17. Wang, L., Qiao, Y., Tang, X.: Latent hierarchical model of temporal structure for complex activity classification. IEEE Trans. Image Processing 23(2) (2014) 810–822
  18. Fernando, B., Gavves, E., M., J.O., Ghodrati, A., Tuytelaars, T.: Modeling video evolution for action recognition. In: CVPR. (2015) 5378–5387
  19. Varol, G., Laptev, I., Schmid, C.: Long-term temporal convolutions for action recognition. CoRR abs/1604.04494 (2016)
  20. Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., Darrell, T.: Long-term recurrent convolutional networks for visual recognition and description. In: CVPR. (2015) 2625–2634
  21. Soomro, K., Zamir, A.R., Shah, M.: UCF101: A dataset of 101 human actions classes from videos in the wild. CoRR abs/1212.0402 (2012)
  22. Kuehne, H., Jhuang, H., Garrote, E., Poggio, T.A., Serre, T.: HMDB: A large video database for human motion recognition. In: ICCV. (2011) 2556–2563
  23. Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: ICML. (2015) 448–456
  24. Gan, C., Yao, T., Yang, K., Yang, Y., Mei, T.: You lead, we exceed: Labor-free video concept learning by jointly exploiting web videos and images. In: CVPR. (2016) 923–932
  25. Peng, X., Wang, L., Wang, X., Qiao, Y.: Bag of visual words and fusion methods for action recognition: Comprehensive study and good practice. Computer Vision and Image Understanding 150 (2016) 109–125
  26. Gan, C., Yang, Y., Zhu, L., Zhao, D., Zhuang, Y.: Recognizing an action using its name: A knowledge-based approach. International Journal of Computer Vision (2016) 1–17
  27. Ji, S., Xu, W., Yang, M., Yu, K.: 3D convolutional neural networks for human action recognition. IEEE Trans. Pattern Anal. Mach. Intell. 35(1) (2013) 221–231
  28. Sun, L., Jia, K., Yeung, D., Shi, B.E.: Human action recognition using factorized spatio-temporal convolutional networks. In: ICCV. (2015) 4597–4605
  29. Pirsiavash, H., Ramanan, D.: Parsing videos of actions with segmental grammars. In: CVPR. (2014) 612–619
  30. Wang, L., Qiao, Y., Tang, X.: Video action detection with relational dynamic- poselets. In: ECCV. (2014) 565–580
  31. Felzenszwalb, P.F., Girshick, R.B., McAllester, D.A., Ramanan, D.: Object detec- tion with discriminatively trained part-based models. IEEE Trans. Pattern Anal. Mach. Intell. 32(9) (2010) 1627–1645
  32. Zeiler, M.D., Fergus, R.: Visualizing and understanding convolutional networks. In: ECCV. (2014) 818–833
  33. Deng, J., Dong, W., Socher, R., Li, L., Li, K., Li, F.: ImageNet: A large-scale hierarchical image database. In: CVPR. (2009) 248–255
  34. Jiang, Y.G., Liu, J., Roshan Zamir, A., Laptev, I., Piccardi, M., Shah, M., Suk- thankar, R.: THUMOS challenge: Action recognition with a large number of classes (2013)
  35. Zach, C., Pock, T., Bischof, H.: A duality based approach for realtime tv-L1 optical flow. In: 29th DAGM Symposium on Pattern Recognition. (2007) 214–223
  36. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R.B., Guadar- rama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding. CoRR abs/1408.5093
  37. Cai, Z., Wang, L., Peng, X., Qiao, Y.: Multi-view super vector for action recogni- tion. In: CVPR. (2014) 596–603
  38. Wang, H., Schmid, C.: LEAR-INRIA submission for the thumos workshop. In: ICCV Workshop on THUMOS Challenge. (2013) 1–3
  39. Wang, L., Qiao, Y., Tang, X.: MoFAP: A multi-level representation for action recognition. International Journal of Computer Vision 119(3) (2016) 254–271
  40. Ni, B., Moulin, P., Yang, X., Yan, S.: Motion part regularization: Improving action recognition via trajectory group selection. In: CVPR. (2015) 3698–3706
  41. Zhu, W., Hu, J., Sun, G., Cao, X., Qiao, Y.: A key volume mining deep framework for action recognition. In: CVPR. (2016) 1991–1999 42.
  42. : Deep draw. https://github.com/auduno/deepdraw

你可能感兴趣的:(Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(时间段网络:使用深度行为识别的良好实现))