**摘要:**近年来,卷积神经网络对视频中人类行为识别的应用提出了不同的解决方案,用于整合外观(spatial)和运动(temporal)信息。为了更好地利用时空信息,我们研究了许多在空间和时间上融合卷积网络层的方法。我们得出以下结论: (i)不是在softmax层进行融合,而是在一个卷积层上融合空间和时间网络,即不会损失性能,而且在参数上有大量的节省;(ii)最好在最后一个卷积层而不是之前的层上(spatially)融合,并且在分类预测层上的融合可以额外提高准确性;最后(iii)将抽象的卷积特征在时空上池化,进一步提高了性能。 在这些研究的基础上,我们提出了一种新的卷积神经网络结构,用于视频片段的时空融合,并对其在标准基准(benchmarks)上的性能进行评估,该结构取得了最先进(state-of-the-art)的结果。
视频中的行为识别是一项非常活跃的研究领域,而最先进的方法仍然远离人类的表现。与计算机视觉的其他领域一样,最近的工作主要集中在将卷积神经网络(ConvNets)应用到这项任务上,并在许多方面取得进展: 学习局部时空过滤器[11, 28, 30],结合了光流片段[22],并对更长的时间序列进行建模[6, 17] 。
然而,ConvNets在行为识别领域中,还没有像在其他领域那样取得的显著进展,例如,图像分类 [12, 23, 27]、人脸识别[21]和人类姿势估计[29]。 事实上,在诸如UCF-101和HMDB51[13]这样的标准基准测试中,当前的最先进的方法是由一种由卷积神经网络和一个手工特征的 Fisher Vector编码[20](如稠密轨迹[33]的 HOF [14] )结合的方法。
这种缺乏成功的部分原因可能是当前用于训练的数据集要么太小,要么太多噪音(我们在相关工作中回到这一点)。与图像分类相比,视频中的动作分类在运动和视点上有更多的挑战,因此可能需要比ImageNet(每类1000个)更多的训练例子,但是UCF-101每类只有100个例子。另一个重要的原因是,当前的“卷积神经网络”架构不能充分利用时序信息,因此它们的性能常常被空间(外观)识别所主导。
从图1可以看出,一些动作可以从静止的图像中识别出来(在这个例子中是箭术)。然而,对于另一些来说,单独的帧可能是模糊的,而运动线索是必要的。举个例子,你可以考虑一下,从跑步区分走,从大笑中区分打哈欠,或者在游泳中区分蛙泳。双流架构 [22]包含了运动信息,通过分别为静态图像的外观和堆叠的光流独立的训练ConvNets。事实上,这项研究表明光流信息本身就足以区分UCF101中的大部分行为。
然而,双流架构(或任何以前的方法)不能在视频中利用两个非常重要的线索来实现动作识别:(i)识别移动的位置,即记录外观识别(空间线索)与光流识别(时间线索);(ii)这些线索是如何随着时间演变的。
我们的目标是通过开发一种架构来修正这一问题,这种体系结构能够在特征抽象的几个层次上融合空间和时间线索,以及空间和时间的集成。特别地,Sec. 3研究了融合的三个方面: (i)在sec3.1 考虑记录空间信息将如何融合两个网络(空间和时间)?(ii)在sec3.2中在哪融合两个网络的?最后,在sec3.3(iii)如何在时序上融合网络? 在每一项研究中,我们都选择了最佳的结果(sec4),然后,将这些结果组合在一起,提出了一个新的架构(Sec.3.4),用于两个流网络的时空融合,从而达到了sec4.6的最先进的性能。
我们使用MatConvNet toolbox [31] 实现了我们的方法,并在https://github.com/feichtenhofer/twostreamfusion中公开了我们的代码。
最近的几项关于在时间序列中使用卷积神经网络的研究已经研究了如何超越简单地使用帧的外观信息,以及利用时间信息的问题。一个自然的扩展是堆叠连续的视频帧,并将2D的卷积神经扩展到时间 [10],这样第一层就可以学习时空特征。[11]研究几种时间采样的方法,包括早期的融合(让第一层过滤器在帧中进行操作,如[10]),慢速融合(随着层的增加而连续增加时间的接收域)和后期融合(在时间较远的帧上运行合并两个独立网络的全连接层)。他们的架构对时间模型并不是特别敏感,他们通过纯粹的空间网络达到了类似的性能水平,这表明他们的模型并没有从时间信息中获得很多。
最近提出的C3D方法[30]在有限的时间支持下,在16个连续的帧上学习3D的卷积神经网络,所有的过滤器的核都是3x3x3。通过让所有的过滤器在空间和时间上运行,它们的性能比[11]更好。然而,他们的网络比[10,11]的网络要深得多,其结构类似于[23]中非常深的网络。另一种学习时空关系的方法是在[26]中提出的,作者将三维卷积分解成二维空间和一维时间卷积。具体地说,它们的时间卷积是一个随时间而来的二维卷积,特征通道上也是,并且只在网络的较高层次上执行。
[17]比较了几个时序特征的池化架构,以便在更长的时间周期内组合信息。他们得出的结论是,卷积层的时间序列池化比slow, local, or late pooling,以及时间的卷积更好。他们还研究了有序的序列建模方法,将卷积神经网络的特征输入到一个具有长短期记忆(LSTM)单元的循环网络中。然而,使用LSTMs并没有对卷积特征的时间池进行改进。
与我们最密切相关的工作,也是我们在这里扩展的,是[22]中提出的 two-stream ConvNet架构。该方法首先利用RGB和光流帧将视频分解成空间和时间分量。这些组件被输入到不同的深度卷积神经网络结构中,以学习在场景中关于外表和运动的空间以及时间信息。每个流都是自己进行视频识别并且得到最终的分类,softmax得分在后期融合中结合。作者比较了几种使光流帧对齐的技术,并得出结论: L=10水平和垂直光流场的简单叠加效果最好。 他们还在UCF101和HMDB51上使用多任务学习,以增加培训数据的数量,并提高两者的性能。到目前为止,这种方法是将深度学习应用于动作识别的最有效方法,特别是在有限的训练数据方面。这种双流方法最近被应用于几个动作识别方法,[4, 6, 7, 17, 25, 32, 35]。
与我们的工作相关的还有就是双线性方法 [15],它通过在图像的每个位置外积来关联两个卷积层的输出。产生的双线性特征在所有位置被池化,形成一个无序的描述符。请注意,这与手工制作的SIFT特征的二阶池化[2]密切相关。
在数据集方面,[11]引入了具有大量视频(≈1M)和类(487)。然而,这些视频是自动收集的,因此并不是没有标签的噪音。另一个大型数据集是超过4500万帧的THUMOS数据集 [8]。然而,其中只有一小部分实际上包含了被标记的动作并且对于监督特性学习是很有用的。由于标签的噪声,学习时空的卷积神经网络在很大程度上依赖于更小的,但时序一致的数据集,例如UCF101[24]或HMDB51 [13],其中包含了简短的动作视频。这有助于学习,但也有可能严重过拟合训练数据。
3. 方法
我们建立在[22]的双流架构上的基础上。这个架构有两个主要缺点: (i)是不能在空间和时间特征之间学习像素级的对应关系(因为融合只是分类的分数上),和(ii)有限时间规模,因为空间卷积操作只在单帧上,时序卷积操作只在堆叠的L个时序相邻的光流帧上(例如L=10)。 在视频中,[22]的实现通过在规则的空间采样上使用时间池化在一定程度上解决了后一个问题,但这并不允许对行为的时间演变进行建模(译者注:意思是当表达这个行为的时间超过L=10帧时,此时模型将不能准确识别这个行为)。
3.1 空间融合
在本节中,我们考虑了用于融合双流网络的不同架构。然而,当空间融合任何两个网络时,也会出现同样的问题,因此不绑定这个特定应用。
需要说明的是, 我们的目的是将两个网络(在一个特定的卷积层)融合在一起,这样在相同像素位置的通道响应就会被放在对应的位置。 为了实现这一点,不妨考虑一下刷牙和梳头之间的区别。如果一只手在某个空间位置周期性地移动,那么时间网络就能识别这个动作,而空间网络可以识别位置(牙齿或毛发)和它们的组合,然后辨别动作。
当两个网络在融合层上有相同的空间分辨率(译者注:feature map 大小一样)时,就很容易实现这种空间通信,只需通过一个网络上的重叠(叠加)层(我们在下面做这个精确的)。然而,还有一个问题是,一个网络中的通道(或channels)对应于另一个网络的哪个通道(或channels)。
假设在空间网络中不同的通道负责不同的面部区域(嘴、毛发等),而时序网络中的一个通道负责这类的周期性运动场。然后,在通道被堆起来之后,后续层中的过滤器必须学习这些合适的通道之间的对应关系(例如,在卷积过滤器中加权),以便最好地区分这些操作。
为了使这个更具体,我们现在讨论了在两个网络之间融合层的许多方法,并且每个网络都描述了在通信之后的后果。
一个融合函数f在时间t融合两个特征图来产生一个输出图,这里 W,H,D分别是特征图宽,高和通道数。当应用于前馈的卷积神经网络结构时,它由卷积、全连通、池和非线性层组成,可以应用于网络的不同节点,例如早期融合、后期融合或多层融合。可以使用各种不同的融合函数。我们在本文中研究了下面的内容,为了简单起见,我们假设H=H’=H’’,W=W’=W’’,D=D’=D’’,并删除t下标。
Sum fusion 。y sum=f sum(x a,x b)计算两个特征图在相同的空间位置i,j和特征通道d的和:
由于通道的编号是任意的,sum fusion简单地定义了网络之间的任意通信。当然,随后的学习可以利用这种任意的通信来达到最佳效果,优化每个网络的过滤器,使这种通信变得有用。
Max fusion. y max = f max (x a ,x b ) 类似的采用两个特征图的最大值:
这里所有的变量定义如(1)和sum fusion类似,网络通道上的对应是任意的。
Concatenation fusion. y cat = f cat (x a ,x b ) 堆叠两个特征图在通道d上在相同的空间位置 i,j,:
连接并没有定义通信,但是将其留给后续的层来定义(通过学习适当的过滤器来对层进行加权),正如我们接下来要说明的那样。
Conv fusion. y conv = f conv (x a ,x b ) 首先在通道d的相同的空间位置i,j堆叠两个特征图如上面的(3),随后将堆叠的数据与一组过滤器进行卷积f ∈ R^1×1×2D×D and biases b ∈ R^D
这里输出的通道数量是D,而过滤器的尺寸是1x1x2D。在这里,过滤器f用于将维度减少2倍,并且能够在相同的空间(像素)位置上对两个特征图x_a、x_b进行加权组合。当在网络中作为可训练的过滤器内核时,f能够学习两个特征映射的对应关系,从而最小化一个关联的损失函数。例如,如果f被学习为两个permuted identity矩阵1’ ∈ R^1×1×D×D的连接,那么一个网络的第i个通道只与另一个通道的第i通道(通过求和)结合在一起。
请注意,如果在连接后没有维度减少卷积层,那么即将到来的层的输入通道的数量是2D的。
Bilinear fusion. y bil = f bil (x a ,x b ) 计算两个特征图在每个像素位置的矩阵外积,然后求和:
由此产生的特征ybil ∈ RD²捕获了相应空间位置的乘法交互。这个特性的主要缺点是它的高维度。为了使双线性特性在实践中可用,它通常应用于ReLU5,全连接的层将被移除[15] ,而power- and L2-normalisation将应用于线性SVMs以有效分类。
双线性融合的优点是一个网络的每个通道都与其他网络的每个通道相结合 (作为一个产出作用)。然而,缺点是所有的空间信息在这一点被边缘化了 。
讨论: 这些操作说明了一系列可能的融合方法。其他的也可以考虑,例如:采用通道的像素级的乘法(而不是它们的和或最大),或者(分解的)外积,而不需要在位置之间进行池化 [18]。
注入融合层可以对双流网络中的参数和层数产生重大影响,特别是如果只保留了被融合的网络,而且其他网络塔被截断,如图2所示(左)。表1显示了不同的融合方法是如何对层数和参数产生影响的,例如在两个VGG-M-2048(在[22]中使用)模型中包含了5个卷积层,然后是三个全连接层。在ReLU5之后(在最后的卷积层之后)的Max,Sum和Conv-fusion在结构中去掉了近一半的参数,因为在融合之后只使用了一个全连接的层。Conv融合稍微地有更多的参数(97.58 M),与sum和max fusion(97.31 M)相比,由于额外的过滤器用于减少通道的融合和维度。Concatenation (连接)融合中涉及到更多的参数,在融合后不涉及维数的减少,因此在第一个全连接的层中,参数的数量会增加一倍。相比之下,在softmax层的sum-fusion需要两个流(网络)的所有层(16)和所有参数(181.4M)。
在实验部分(sec4.2.2)中,我们对每种可能的融合方法的性能进行了评估和比较,并对它们的分类精度进行了比较。
如上所述,融合可以应用于这两个网络中的任何一点,唯一的约束条件是两个输入映射(特征图) X_ta∈R(H×W×D) 和X_tb∈R(H1×W1×D)在t时刻具有相同的空间维度;也就是H=H’, W=W’。这可以通过使用“向上卷积”层来实现[36],或者如果维度是相似的,可以通过在较小的映射上填充0来实现向上采样。
表2比较了在使用VGG-M模型的两个网络中不同层的融合后的参数的数量。在不同的卷积层层之后进行融合,对参数的数量产生了大致相同的影响,因为大多数这些参数都存储在全连接的层中。两个网络也可以在两层融合,如图2所示(右)。这就实现了从每个网络(在卷积5)中对通道进行像素级记录的最初目标,但不会导致参数数量的减少(例如,如果只在conv5层进行融合,参数则会减少一半)。在实验部分(sec4.3)中,我们对不同级别的融合性能进行评估和比较,并同时在多个层进行融合。
现在,我们考虑将在时间t上结合特征图x_t,生成输出映射y_t的技术。处理时间输入的一种方法是通过对网络预测的在时间上进行平均平均(在[22]中使用)。在这种情况下,架构只在2D(xy)中池化;参见图3(a)。
3D Pooling: 将max-pooling应用于一个大小为W’H’ T’的3D池化层中。这是对时间域的2D池化的直接扩展,如图3(b)所示。例如,如果将三个时间样本集中在一起,那么可以在三个堆叠的相应通道中使用3x3x3 max池。注意,在不同的通道上没有池。
3DConv+Pooling: 首先用D’个滤波器对四维输入x进行卷积 f ∈ R^W’’ ×H’’ ×T’’ ×D×D’ and biases b ∈ R^D
在[30]中,将会有上面描述的3D池化。图3(c)说明了该方法。过滤器f能够在一个局部的时空区域中使用大小为W’‘× H ‘’ × T’’ × D的内核来对特征的加权组合进行建模,通常这个区域是3x3 x3(空间x时间)。
**Discussion. ** [17]的作者们评估了几个额外的方法,以便在一段时间内结合双流网络。他们发现在最后的卷积层进行最大池化效果不错。我们将最大池推广到3D池,它提供了特征位置随时间小的变化的不变性。此外,3D conv可以让时空过滤器被学习 [28, 30]。例如,过滤器可以学习如何将重心放在中心时间样本上,或者在时间或空间上进行区分。
我们现在把前几节的想法结合在一起,提出一个新的时空融合架构,并根据我们在第4节中的实验评估来确定我们的选择。空间融合方法、层和时间融合的选择分别基于第4.2、4.3和4.5节的实验。
我们提出的架构(如图4所示)可以看作是图2(左)架构的扩展。在最后一个卷积层(在ReLU之后)我们将这两个网络融合进入空间流,通过使用3D Conv融合和3D池化(见图4,左)将其转换为时空流。此外,我们不会截断时间流,并在时间网络中执行3D池化(见图4,右)。这两种流的损失都用于训练,在测试期间,我们对这两种流的预测进行平均。在我们的经验评估(sec4.6.6)中,我们发现保持这两个流的性能比在融合后截断时间流略胜一筹。
在讨论了如何随时间融合网络时,我们在这里讨论了采样时间序列的频率。时间融合层接收的T时间的chunks,他们是 τ帧分开的;也就是说,双流网络被应用到在 t,t+τ,…t+Tτ的输入视频中。如图4所示,这使我们能够捕捉短尺度(t±L2)时间特征的输入时间网络(如箭的画),并把它们放在上下文较长时间(t + Tτ)在更高一层的网络(如箭,弓弯,和射击一个箭头)。
由于光流有一个时间接受的L=10帧,所以这个结构的作用是在一个TxL的时间接受域上。注意, τ < L导致时间流的重叠输入,而τ ≥ L产生时序上的非重叠特性。
在融合之后,我们让3D池化在T空间特性地图上运行,这些特征图是分开的。随着时间的推移,特性可能会改变它们的空间位置,将空间和时间池化结合到3D池化是有意义的。例如,一个VGG-M网络在卷积神经网络的输出有16个像素的输入,并从139x139像素的接收域捕捉高水平的特征。因此,在时间上遥远的空间上的卷积图可以捕捉到同一物体的特征,即使它们稍微移动。
Two-Stream architecture。 我们采用了两种预先训练的ImageNet模型。首先,为了比较原始的双流方法 [22],VGG-M-2048模型[3]。第二,非常深的VGG-16模型 [23]。我们首先分别对这两种流进行单独的训练,如[22]所描述的那样,但是有一些细微的差别:我们不使用RGB颜色的jittering;我们不是按照固定的时间表来降低学习速率,而是在验证错误饱和之后降低它;为了训练空间网络,我们使用对前两个全连接层的使用0.85 dropout ratios。甚至更低的dropout ratios(高达0.5)并没有显著降低其表现。
对于时间网,我们使用L=10帧叠加光流[22]。我们还用一个在ImageNet上预先训练的模型来初始化时间网,因为这通常会促进训练速度,而不像我们从头训练的模型那样降低性能。网络输入预先进行了重新调整,因此帧的最小的边等于256。我们还在训练前预先计算光流 [1],并将光流场存储为JPEG图像(带有大于20像素的位移矢量的剪辑)。我们不使用批量归一化[9]。
Two-Stream ConvNet fusion。 对于融合来说,这些网络微调的批大小为96个,学习速率从10-3开始,当验证精度饱和时,它的学习速率将降低10倍。我们只会反向传播到注入的融合层,因为完全的反向传播并没有导致改进。在我们的实验中,我们只在具有相同输出分辨率的层之间进行融合;除了在VGG-16模型的ReLU5层与VGG-M的ReLU5层融合,我们将VGG-M(13 13,比14 14)稍微小一些的输出,并有一行和一列0。对于Conv fusion,我们发现注入的融合层(如(4))的仔细初始化是非常重要的。我们比较了几种方法,发现通过 identity matrices (对两个网络求和)的初始化和随机初始化一样。
Spatiotemporal architecture。 为我们最终的架构描述在Sec. 3.4。3D Conv融合核f维度3×3×3×1024×512,T = 5,即时空过滤器尺寸H’’ ×W ‘’ ×T ‘’ = 3×3×3,D = 1024结果来自时空流ReLU5连接,和D’ = 512匹配FC6层输入通道的数量。
3D Conv过滤器也被初始化,通过将两个identity matrices叠加起来,将1024个特征通道映射到512。由于在最后一个卷积层上的时间卷积神经网络的激活大约比它的外表对应的时间要低3倍,所以我们将f的时间单位矩阵初始化了3倍。f的时空部分是由3 × 3 × 3 and σ = 1的高斯函数初始化的。此外,在训练过程中,我们不会在预测层上融合,因为这将会导致对时间架构的损失,因为时空结构需要更长的时间来适应融合的特性。
训练三维卷积神经网络比双流的回旋网更容易过度拟合,并且需要额外的数据增强。在finetuning期间,在每一次训练迭代中,我们从96个视频中的每一个中抽取T=5帧,随机选择起始帧,然后随机抽取时间跨度 (τ)∈ [1,10](因此在15到50帧之间进行操作)。我们没有裁剪一个固定大小的224x224输入patch,而是随机地将其宽度和高度抖动±25%,并将其重新调整为224x224。重新选择的方法是随机选择的,可能会改变长宽比。补丁只在与图像边界(相对于宽度和高度)的距离上最多25%的距离。注意,在第一帧(一个多帧叠加)中随机选择了crop的位置(以及大小、比例、水平翻转),然后将相同的空间crop应用于堆栈中的所有帧。
测试。 除非另有说明,只有T=5帧(和它们的水平翻转)被取样,与[22]的25帧相比较,以促进快速的经验评估。此外,我们还使用了全的卷积测试,在整个帧中使用(而不是空间crops)。
我们在两个流行的动作识别数据集上评估我们的方法。首先是UCF101 [24],它包含了101个类别的13320个动作视频。第二个数据集是HMDB51 [13],它包含了6766个视频,这些视频已经被注释为51个动作类。对于这两个数据集,我们使用所提供的评估协议,并将报告三个分割了的训练和测试数据的平均精度。
对于这些实验,我们使用的网络架构与[22]相同的网络结构;也就是2个VGG-M-2048网络[3]。融合层被注入在最后的卷积层,经过修正,也就是说,它的输入是来自两个流的ReLU5的输出。之所以选择这一方法,是因为在初步实验中,它提供了比非修正的conv5输出结果更好的结果。在这一点上,这些特性已经提供了大量的信息,同时还提供了粗糙的位置信息。在融合层之后,使用一个单一的处理流。
我们比较了表1中不同的融合策略,我们报告了在UCF101的第一个分割的平均精度。我们首先观察到,我们对 softmax averaging (85.94%) 的性能与[22]的报告相比是比较好的。其次,我们看到Max和Concatenation的性能要比Sum和Conv融合要低得多。Conv融合表现最好,比双线性融合和简单加和融合略好。对于所报告的Conv-fusion结果,卷积的内核f是由(单位矩阵)identity matrices初始化的,它执行了这两个特征图的总和。然而,与单位矩阵(85.96%)相比,通过随机高斯噪声的初始化结果与单位矩阵的相似度达到了85.59%,而在更长的训练时间内。这很有趣,因为这一点,以及Sum-fusion的高结果表明,简单地对特征图进行求和已经是一种很好的融合技术,并且学习一个随机初始化的组合不会导致显著的不同/更好的结果。
对于表1中所示的所有融合方法,在FC层的融合与ReLU5相比,其性能较低,而方法的顺序与表1相同,除了在FC层不可能的双线性融合。在所有的FC层中,FC8的性能优于FC7和FC6,Conv fusion为85.9%,紧随其后的是85.1%。我们认为ReLU5的表现稍好一些的原因是,在这一层,外观和运动之间的空间对应是融合在一起的,这在FC层 [16]已经被瓦解了。
在表2中比较了不同层的融合。使用Conv融合,融合层是由一个单位矩阵初始化的,这个单位矩阵与前一层的激活相结合。有趣的是,在ReLU5中,融合和截断一个网络,在UCF101的第一次分割(85.96%vs 86.04%)上达到了相同的分类精度,作为预测层(FC8)的额外融合,但是在总参数(97.57 M和181.68 M)的数量要少得多。图2显示了这两个示例是如何实现的。
由于计算复杂性的原因,以前所有的实验都是用两个VGG-M-2048网络进行的(如22)。然而,使用更深层的模型,比如[23]中的非常深的网络,可以在图像识别任务中获得更好的性能,比如[5、15、27]。在此之后,我们将在UCF101和HMDB51上训练16层网络,VGG-16,23。所有的模型都在ImageNet上进行了预先训练,并分别为目标数据集进行了训练,除了从时间UCF101模型中初始化的临时HMDB51网络。我们采用了同样的增强技术来进行三维的卷积训练(在sec3.5.3中描述),但是从图像的中心进行了采样。当验证目标饱和时,学习率被设置为50-4,并减少10倍。表3显示了深度和非常深的模型之间的比较。在这两个数据集上,观察到一个更深层次的空间模型可以显著提高性能(8.11%和10.29%),而更深的时间网络会产生更低的精度增益(3.91%和3.73%)。
不同的时间融合策略如表4所示。在表4的第一行中,我们观察到conv fusion比平均的softmax输出(cf表3)性能更好。接下来,我们发现在融合层之后,应用3D池化而不是使用2D池化,在两个数据集上都增加了性能,在HMDB51上获得了更大的收益。最后,表4的最后一行列出了应用3D过滤器进行融合的结果,这进一步提高了识别率。
最后,我们在表5中将最先进的方法在UCF101和HMDB51三个分割数据集上进行比较。我们使用的方法与上面所示的方法相同,即通过3D Conv和3D池(图4所示)进行融合。为了测试,我们通过对输入帧-堆帧和水平翻转进行密集采样,对每个网络的20个时间预测进行平均。一个有趣的比较是原始的双流方法[22],我们在UCF101和HMDB51上使用VGG-16空间(S)网络和VGG-M时间(T)模型提高了3%,以及在两流都使用VGG-16时分别提高4.5%(HMDB)和6% (HMDB)。另一个有趣的比较是,在[17]的双流网络中,GoogLeNet [27]架构的最后一个维度缩减层之后,使用了时序池化。UCF101上当使用120帧时报告88.2%,在使用LSTM进行池时88.6%。在这里,我们的结果是92.5%,这清楚地强调了我们提出的方法的重要性。还要注意的是,在时间融合之后使用单个流可以达到91.8%,相比之下,保持两个流可以达到92.5%,但是更简单的体系结构参数要少得多。
作为最后的实验,我们探讨了手工制作的IDT特征 [33]与我们的表示的后期融合的好处。我们只是简单地将FV-encoded IDT descriptors (i.e. HOG, HOF, MBH)的SVM评分与我们的卷积表示(在softmax之前)预测进行平均。结果的性能如表6所示。我们在UCF101上取得93.5%,在HMDB51上达到了69.2%。这个最先进的结果表明,手工制作的表示和我们的端到端学习的卷积方法之间仍然有一定程度的互补。
我们为双流网络提出了一个新的时空结构,在网络之间有一个新的卷积融合层,一个新的时间融合层(包含了三维卷积和池化)。新的结构不会比以前的方法显著增加参数的数量,但是在两个标准的基准数据集上最先进的方法。我们的研究结果表明,在空间和时间上,学习高度抽象的卷积神经网络特征的对应是非常重要的。一个有趣的发现是,通过将卷积神经网络的预测与FV-encoded IDT特征结合起来,仍然有这样的改进。我们怀疑,鉴于更多的训练数据,这种差异可能会随着时间的推移而消失,但除此之外,它肯定表明了未来的研究应该在哪里进行。最后,我们回到了当前数据集要么太小,要么太多噪声。出于这个原因,本文中的一些结论应该谨慎对待。