[文献翻译]Deep Local Video Feature for Action Recognition

摘要:我们研究了使用CNN提取人体动作识别整个视频的特征表示问题。由于GPU内存的限制,目前整个视频尚无法进行CNN/RNN的端到端学习,因此一种常见的做法是使用采样帧作为输入,并使用视频标签作为监督。但是,视频全局标签可能不适合所有局部时间样本,因为视频通常包含除关注动作之外的内容。 因此,我们提出将在局部训练的深度网络视为特征提取器。然后,将局部特征汇总以形成全局特征,这些全局特征在第二分类阶段对应视频级标签。该框架对于传播视频标签而产生的杂乱的局部标签更加健壮。 我们针对这种局部特征提取方法研究了许多设计,例如最佳采样和聚合方法。在HMDB51和UCF101数据集上的实验结果表明,在稀疏采样的局部特征上进行简单的最大合并可显着提高性能。

1.介绍

尽管付出了很多努力,但深度卷积神经网络(CNN)和递归神经网络(RNN)仍未在视频分类中获得与图像分类相同的性能。这在很大程度上可以归因于图像和视频之间的以下两个差异,这些差异是基于深度学习的方法的关键。首先,视频的大小要大得多,因此在视频级别训练和应用CNN / RNN变得难以存储。其次,构建训练深度网络所需的视频数据集标签非常困难。最近的方法[14、22、23]通过学习采样帧或带有视频全局标签的短视频剪辑(时间局部输入)来解决这些问题。

但是,视频级标签信息可能不完整,甚至有所缺失。信息不匹配会导致标签分配错误的问题。换句话说,从视频标签填充的帧级标签太杂乱,无法反应从局部视频片段到标签的精确映射。为了解决这个问题,通常的做法是在测试时从视频中采样多个片段,并汇总这些采样片段的预测分数,以获得该视频的最终结果。但是,仅对预测分数取平均值而没有其他映射,不足以弥补由错误标签分配带来的损害。 特别是对于现实中未修剪的长视频[7,4],问题变得更加严重。

相反,我们通过将在局部输入上训练的深层网络视为特征提取器来补偿标签,如图1所示。使用预训练的网络提取的局部特征被汇总为全局视频特征和另一个映射模块(例如,浅层网络)使用相同的数据集学习视频级标签分配。

因此,我们的方法与图像分类中流行的微调相关。主要的区别在于,我们用局部数据和由于错误的标签分配而产生的标签来训练我们的特征提取网络。因此,我们严重依赖浅层网络来补偿局部特征学习。

我们的方法也类似于使用在ImageNet图像分类任务上预训练的网络来提取用于视频分类的帧级(局部)特征的实践[26,9]。主要区别在于我们的局部特征提取器(深层网络)是在目标数据集上训练的。因此,从深层网络提取的特征是数据集域内的。我们不像在使用经过ImageNet训练的深层网络那样存在领域差距问题。

我们将局部视频特征的新类别命名为深度局部视频特征(DOVF)。

总之,DOVF是一类局部视频特征,它们是从使用全局视频标签在局部视频上训练的深层神经网络中提取的。在这篇文章中,我们探讨了如下几个关于DOVF设计的选择:

1:应该从哪一层的神经网络中提取局部特征?在没有进一步研究的情况下,我们唯一的指导是我们应该避免概率输出层,因为它可能会严重地过拟合有噪声的训练数据,从而导致训练集和测试集之间的分布差异很大。

2:将局部特征聚合成视频级全局特征的最佳方式是什么?我们考虑了许多特征聚合方法,如平均池、最大池、费希尔矢量编码等

3:提取局部特征的密度应该是多少?从效率的角度来看,稀疏时间采样是首选。

4:DOVF与IDT[20]等传统特征间的互补程度如何?它们的互补性越强,应用为传统特征提取技术进行改进的机会就越大。

本文的其余部分组织如下。我们首先提供一些视频特征的背景,重点介绍最近在深度神经网络学习方面的工作。然后,我们描述了在HMDB51和UCF101数据集上评估我们的实验框架设置。最后我们讨论潜在的改进方向。

2相关工作

新的视频表示通常是视频分类突破的主要来源。

在传统的视频表示中,基于轨迹的方法[20,6],尤其是密集轨迹(DT)及其改进形式IDT[19,20],是当前最先进的手工特征提取的基础。这些基于轨迹的方法旨在解决图像扩展视频特征的缺点。它们卓越的性能证明了对运动特征表示的需求。由于IDT的成功,许多研究试图对其进行改进。Peng等[11]通过增加码本大小和融合多种编码方法增强了的性能。Sapienza等人[13]探索了对DT特征进行下采样和生成词汇的方法。Hoai和Zisserman [5]通过应用数据增强、对视频子序列上的分数分布建模以及捕捉动作类之间的关系,在几个动作识别数据集上取得了优异的性能。Fernando等人的[3]模拟了视频中外观的演变,并在Hollywood2数据集上获得了最先进的结果。[10]建议以多种回放速度从视频中提取特征,以实现速度不变性。然而,这些传统的手工方法最近开始被使用神经网络的深度学习的兴起所掩盖。

受CNN网络成功的激励,研究人员已经投入大量精力开发学习视频特征的CNN工具。在视频中使用CNN进行动作识别已取得了一些成就[27、25、16、29]。Karpathy等[8]使用一百万个带有弱标签的YouTube视频训练了深层的CNN,并报道了使用网络作为特征提取器取得的成功。Simonyan和Zisserman [14]通过使用采样帧和堆叠光流训练深层的CNN,与IDT [20]有了相似结果。Tran等[15]探索了3D CNN以同时学习时空特征而无需预先计算光流。这使他们能够以更快的速度训练网络。Wang等 [21,22,23]提供了关于改进双流框架的分析,例如预训练双流CNN,使用较小的学习率,使用更深的网络等。这些改进使得基于CNN的方法最终胜过IDT[20],在UCF101数据集上有很大的差距。但是,这些方法都依赖局部预测来确定最终的视频标签,并且不使用全局特征。

最近在arXiv上发布了两篇关于动作识别的全局特征的著作文章[1,12]。两者都提出了新的特征聚合方法,以汇集局部网络特征形成全局视频特征。Diba等[1]提出了一个双线性模型,以合并预训练网络的最后卷积层的输出,并在HMDB51和UCF101数据集上均达到SOTA。Qiu等[12]提出了一种类似于FV的新量化方法,并实现了与[1]相当的性能。但是,这两项工作都没有提供对所使用的局部神经网络功能的详细分析。在本文中,我们进行了广泛的分析,结果表明,与[1,12]中的方法相比,简单的最大池化可以实现相似或更好的结果。

3方法

在本节中,我们首先回顾时间分段网络[23],这是我们构建方法的基础。 接下来,我们描述深层视频视频特征(DOVF),将它们聚合以形成全局特征的方法以及全局特征到视频级标签的映射。 最后,我们提供实验设置。

3.1时间分段网络

为了捕获长时间结构以改善动作识别,Wang等人提出了具有稀疏采样策略的时域网(TSN)[23]。这样就可以以合理的计算成本来分析整个视频。TSN首先将视频平均分成三个片段,然后从每个片段中随机选择一个简短的片段。然后将双流网络应用于这些简短摘要,以获得初始动作类预测分数。TSN最后使用分段共识函数来组合多个简短片段的输出,以预测整个视频的动作类别概率。

Wang等[23]显示TSN在流行的动作识别数据集UCF101和HMDB51上取得了最先进的结果。这些结果证明了捕获长时间信息以进行视频分析的重要性。但是,局部片段分类器的训练是使用视频级标签执行的。 如前所述,这些标签可能很嘈杂,因此会限制片段分类的准确性。

我们因此建议改为使用片段分析进行局部特征提取,并添加第二阶段将聚合特征映射到视频级标签。 DOVF和第二阶段的组合补偿了嘈杂的训练数据集导致的分类。

3.2:DOVF

我们的框架不是由像[23,1]这样的单个步骤执行动作识别,而是由两个阶段组成。在第一阶段,使用视频级标签训练分类的深度网络(例如TSN)用作局部特征提取器。在第二阶段,将局部特征汇总以形成全局特征,并且使用视频级标签训练的另一个分类器执行视频分类。

我们的分类框架的训练如下进行,其中训练集中的每个视频V都有真实标签p。 在第一阶段,将V均匀地划分为N个片段,分别为v1,v2,...,vN,并从每个片段中随机选择一个简短的片段s1,s2,...,sN。这些片段被分配了视频级别的标签,所有训练视频中的片段被用来训练一个双流CNN(单个RGB视频帧和连续光流图像的堆栈)。有关训练双流CNN的详细信息,请参见[22,23]。 经过训练后,该网络将用于从视频中提取局部特征f1,f2,...,fN。

在第二阶段,将局部特征汇总到全局特征中,

其中G表示聚合函数。我们将在第4.2节中探讨不同的聚合函数。然后,我们学习将全局特征映射到视频标签p的分类器:

训练后,该框架可用于预测视频的标签。 图1包含该框架的概述。

3.3实验设置

我们比较了两个网络VGG16和Inception-BN,以进行局部特征提取。(我们使用由Wang等人训练的网络[22,23]。)我们进一步比较每个网络的最后五层的输出作为我们的特征。 表1列出了每个网络层名称和相应的特征尺寸。我们将这些层分为两类:全连接(FC)层和卷积(Conv)层(池化层被视为Conv层)。 与Conv层相比,FC层具有更多的参数,因此更可能过拟合训练数据。 如图所示,VGG16具有三个FC层,而Inception-BN仅具有一个FC层。

按照[14,23]的方案,我们为每个视频均匀采样25帧和光流剪辑。 对于每个帧/片段,我们通过裁剪4个角和中心以及水平翻转来执行数据增强。通过对增强数据进行平均,可以为每个帧/片段计算一个特征。 这样就为每个视频设置了25个局部特征。 表1显示了从不同网络/层组合中提取的局部特征的尺寸。

我们比较了从简单均值和最大池化到更复杂的特征编码方法(例如词袋(BoW),局部聚集描述符向量(V LAD)和费舍尔向量(FV)编码)的多种局部特征聚集方法。为了合并全局时间信息,我们将每个视频分为三个部分,并分别进行汇总。 也就是说,将25个局部特征中的前8个,中9个和最后8个分别汇总,然后合并形成最终的全局特征。这样会将最终特征尺寸增加了三倍。连接后,我们对全局特征执行平方根归一化和L2归一化,如[10]。

我们使用支持向量机(SVM)将全局特征映射(分类)到视频级标签。 除了FV和VLAD聚合特征(如[18]中建议的使用线性核)外,我们使用[10]中的卡方核和C = 100。请注意,虽然我们使用SVM预测视频动作标签,但也可以使用其他映射/分类器,例如浅层神经网络。

如[23]中所示,双流网络的空间网和时间网预测分数分别权重为1和1.5进行融合。

4评价

在本节中,我们将使用UCF101和HMDB51数据集实验性地探索引言中提出的设计选择。

UCF101由来自YouTube的真实动作视频组成。 它包含13320个视频片段,分布在101个动作类中。 HMDB51包括6766个从51个动作中提取的视频片段,这些片段是从多种资源(例如在线视频和电影)中提取的。UCF101和HMDB51都具有标准的三分割。我们测试了三个分割的平均识别精度。

我们的默认配置将Inception-BN网络中全局池层的输出用作局部特征主要是由于该层的尺寸较小(具有全局信息编码尺寸为3072)。它还使用最大池来聚合局部特征以形成全局要素。

4.1应该从哪一层提取局部特征?

我们使用VGG16和Inception-BN进行实验,以探索哪些层最适合提取局部特征。 表2显示了在UCF101拆分1使用不同层的提取的视频动作分类准确性。

Inception-BN的L-2层和VGG16的L-4层提供了最佳性能。 这些是每个网络中的最后卷积层,表明其优越性能的有以下三个原因。 首先,与全连接层相比,卷积层的参数要少得多,因此不太可能过拟合具有错误标签问题的训练数据。其次,全连接层不会像卷积层一样保留空间信息。第三,较早的卷积层编码的全局(空间)信息更多。 我们得出结论,从最后卷积层提取局部特征是最佳选择。 我们相信这一发现有助于解释最近的一些发现,[26,1,12]也选择了最终卷积层的输出进行进一步处理。

与Wang等人的结果[23]相比,我们可以看到我们的方法确实提高了空间网络和时间网络的性能。但是,空间网络的改进要大得多。 较大的改进可能是因为,在训练局部特征提取器时,用于空间网络的输入是单帧,而用于时间网络的输入是具有10个堆叠帧的视频剪辑。 与我们的全局特征方法相比,较小的输入量会导致错误分配标签的机会更大,从而导致更大的性能差距。

先前使用ImageNet数据集预训练的网络中使用局部特征的工作[27、9、26]显示,组合来自多个层的特征可以显着提高整体性能。 我们研究了多层的组合特征,但没有发现任何改进。这种差异表明微调为局部特征带来了一些新特征。

在其余的实验中,我们使用Inception-BN网络的全局池化层的输出,因为它可以实现最佳性能。

4.2什么是最佳聚合策略

我们考虑对UCF101和HMDB51数据集的拆分一使用六种聚合方法。

给定n个局部特征,每个局部特征的维数为d,六种不同的聚合方法如下:

1平均值计算沿每个维度的n个局部特征的平均值。

2Max在每个维度上选择最大值。

3Mean_Std受Fisher Vector编码的启发,计算沿每个维度的均值和标准差。

4BoW使用通过k均值聚类生成的码本将n个局部特征中的每一个量化为k个码字之一。

5VLAD与BoW相似,但对n个局部特征中的每个特征与分配的代码字之间的距离进行编码。

6FV使用具有k个分量的高斯混合模型(GMM)对局部特征的分布进行建模,并计算n个局部特征与这k个分量之间的加权差的均值和标准差。

对于那些需要聚类的特征聚合方法,我们使用PCA将每个局部特征投影到256维,并将聚类数设置为256。这与[26]中的建议类似,只是我们不将局部特征分解为多个子特征。

如表3所示,最大池化(Max)可获得最佳的整体性能(双流网络结果)。此结果与[9]的结果不同,后者的平均池(Mean)比最大池(Max)更好。 同样有趣的是,Mean_std始终比Mean更好。BoW,FV和V LAD等较复杂的编码方法比简单合并的性能要差得多。我们推测,为每个视频提取大量的局部特征并将特征划分为较低维度的子特征(如[26]中所述)可能会改善更为复杂的方法的性能。 但是,这将导致过多的计算成本并限制实际应用。

我们在剩余的实验中使用最大池化。

4.3应该提取出多大的局部特征?

我们将从每个视频中提取3到25个局部特征。我们还尝试通过提取每个帧/片段的特征来使用最大数量(Max)(对于光流,我们使用步长等于 1)。HMDB51和UCF101中的视频平均分别包含92和185帧。

表4中的结果表明,在大约15的阈值之后,采样帧/片段的数量对性能没有太大影响。 采样25帧/片段可获得与全部使用相似的性能。 这与[9]中的观察结果一致,并且可能是由于帧之间的高冗余度。但是,由于UCF101和HMDB51中的视频很短且数据集很小,因此,在使用这些结果时应谨慎。

4.4与SOTA相比较

表5将我们的最佳性能与最新技术进行了比较。我们对构成我们方法基础的TSN [23]进行了改进,分别在HMDB51和UCF101上分别提高了约3%和1%。 我们的结果也比传统的基于IDT的方法[10]和原始的双流CNN [14]都好得多。与TLE [1]和Deep Quantization [12]相比,我们的最大合并量达到了与更复杂的双线性模型和FV-VAE框架相似的性能。

5结论

我们提出了一种有效的方法,可以从使用CNN提取的局部特征中获取全局视频特征。我们研究了一组设计选择,例如从中提取要素的层,如何对其进行聚合以及对它们进行采样的密度。基于对UCF101和HMDB51数据集的一组实验,我们得出以下结论:1)从最终的卷积层中提取局部特征;2)最大合并比其他特征聚合方法(包括需要进一步编码的方法)更好地工作;和3)每个视频大约15帧/片段的稀疏采样就足够了。 尽管我们为这些结论提出了合理的解释,但有必要对DOVF进行进一步的研究。 另外,当前的两阶段方法只能在发生错误后纠正错误,我们认为更好的方法是将整个视频直接映射到全局标签中,即所谓的端到端学习。 我们未来的工作将集中在这些方向上。

你可能感兴趣的:([文献翻译]Deep Local Video Feature for Action Recognition)