A Closer Look at Spatio temporal Convolutions for Action Recognition

Abstract

  • 在本文中,我们讨论了用于视频分析的几种时空卷积形式,并研究了它们对动作识别的影响。 从观察到2DCNN应用于视频的各个帧的动机来看,我们的动机仍然是动作识别方面的佼佼者。 在这项工作中,我们通过经验证明了在残差学习框架内3D CNN相对于2D CNN的准确性优势。 此外,我们表明将3D卷积滤波器分解为单独的空间和时间分量会显着提高准确性。 我们的经验研究导致了新的时空卷积块“ R(2 + 1)D”的设计,该块产生的CNN的结果可与Sports-1M,Kinetics,UCF101和HMDB51上的最新技术相媲美或优于最新技术。

Introduction

  • 自从AlexNet [19]引入以来,深度学习通过一系列有见地的设计创新,如较小的空间滤波器[30],多尺度卷积[34], 残差学习[13]和紧密联系[14]。相反,可以说,视频领域还没有见证它的“AlexNet时刻”。虽然深度网络(i3d[4])目前在动作识别方面确实取得了最好的效果,但是相对于最好的手工制作方法(idt[38])的改进幅度并不如本案那么令人印象深刻。此外,在视频的各个帧上运行的基于图像的2D CNN(ResNet-152 [25])实现的性能非常接近具有挑战性的Sports-1M基准的最新技术。鉴于2D CNN无法建模时间信息和运动模式,这一结果既令人惊讶又令人沮丧,这将被视为视频分析的关键方面。 基于这样的结果,可以假定时间推理对于准确的动作识别不是必需的,因为序列的静态帧中已经包含了强大的动作类信息。
  • 在这项工作中,我们对这一观点提出了挑战,并通过3D CNN(即在时空视频量上执行3D卷积的网络)重新审视了时间推理在动作识别中的作用。 尽管3D CNN在动作识别的设置中已被广泛探索[15,35,36,4],但在这里我们在残差学习的框架内重新考虑它们,这已被证明是静止图像识别领域中的有力工具。我们证明,在大规模,具有挑战性的动作识别基准(例如Sports1M [16]和Kinetics [17])上进行训练和评估时,相同深度的3D ResNets明显优于2D ResNets。
  • 受这些结果的启发,我们介绍了两种新的时空卷积形式,可以将其视为2D(空间卷积)和完整3D极端之间的中间地带。 第一个公式称为混合卷积(MC),它包括仅在网络的早期使用3D卷积,在顶层使用2D卷积。 这种设计的基本原理是,运动建模是一种低/中级操作,可以通过网络早期的3D卷积实现,并通过这些中级运动特征进行空间推理(在顶部通过2D卷积实现) 层)导致准确的动作识别。我们证明,与同等容量的2D ResNet相比,MC ResNet可以在剪辑级别的准确性方面提高3-4%,并且与3D ResNet的性能相匹配,后者的参数是其3倍。第二个时空变体是“(2 + 1)D”卷积块,它将3D卷积显式分解为两个单独的连续操作,即2D空间卷积和1D时间卷积。 我们从这种分解中得到什么? 第一个优势是这两个操作之间的附加非线性整流。 与对于相同数量的参数使用完整3D卷积的网络相比,这有效地使非线性数量增加了一倍,从而使模型能够表示更复杂的功能。第二个时空变体是“(2 + 1)D”卷积块,它将3D卷积显式分解为两个单独的连续操作,即2D空间卷积和1D时间卷积。 我们从这种分解中得到什么? 第一个优势是这两个操作之间的附加非线性整流。 与对于相同数量的参数使用完整3D卷积的网络相比,这有效地使非线性数量增加了一倍,从而使模型能够表示更复杂的功能。第二个潜在好处是分解有助于优化,在实践中既降低了训练损失,又降低了测试损失。 换句话说,我们发现,与外观和动力学共同交织的完整3D滤波器相比,(2 + 1)D块(具有分解的时空成分)更易于优化。 我们的实验表明,在所有层中均匀采用(2 + 1)D块的ResNets在Kinetics和Sports-1M上均达到了最先进的性能。

Related Work

  • 视频理解是计算机视觉的核心问题之一,已经研究了数十年。 视频理解方面的许多研究贡献都集中在开发视频分析的时空特征上。 一些提议的视频表示包括时空兴趣点(STIP)[21],SIFT-3D [27],HOG3D [18],运动边界直方图[5],长方体[6]和ActionBank [26]。 这些表示是手工设计的,并使用不同的特征编码方案,例如基于直方图或金字塔的特征编码方案。在这些手工制作的表示中,改进的密集轨迹(iDT)[38]由于其在视频分类方面的出色成果而被广泛认为是最新技术。
  • 自从引入AlexNet模型[19]导致静态图像识别中的深度学习取得突破之后,就开展了针对视频深度网络设计的积极研究。 该类型的许多尝试都利用在图像上训练的CNN从单个帧中提取特征,然后使用合并,高维特征编码[41,11]或递归神经网络[将这些特征暂时整合到固定大小的描述符中] [ 42、7、32、2]。 Karpathy等。 [16]提出了关于如何在CNN中融合时间信息的透彻研究,并提出了一种“慢融合”模型,该模型可以扩展所有卷积层的连通性,并通过时间卷积和空间卷积来计算激活。但是,他们发现,在单个帧上运行的网络与处理视频整个时空量的网络具有同等的性能。 Baccouche等人最早提出使用时间卷积识别视频中人类动作的3D CNN。 [1]和纪等人。[15]。 但是,还使用限制的Boltzmann机器[35]和堆叠式ISA [22]并行研究了3D卷积用于无监督的时空特征学习。 最近,当在大规模数据集上训练时,3D CNN被证明可导致强大的动作识别结果[36]。 3D CNN的功能还可以很好地推广到其他任务,包括动作检测[28],视频字幕[24]和手势检测[23]。Simonyan和Zisserman [29]提出的两流框架代表了基于CNN的视频建模的另一种有效方法,他们提出将从光学流中提取的深层特征与从彩色RGB输入计算出的更传统的深层CNN激活融合在一起。 Feichtenhofer等。 使用ResNet架构[13]和流之间的附加连接[9]增强了这些两流网络。 附加的两流方法包括时间分段网络[39],动作转换[40]和卷积融合[10]。 值得注意的是,Carreira和Zisserman最近推出了一种结合了两流处理和3D卷积的模型(I3D)。 目前,I3D在大规模的动力学数据集上拥有最佳的动作识别结果。
  • 我们的工作在实证分析的背景下重新审视了许多上述方法(特别是3D CNN,两流网络和ResNet),重点是理解各种时空卷积对动作识别性能的影响。我们在这项研究中包括帧上的2D卷积,剪辑上的2D卷积,3D卷积,交错的3D-2D卷积(混合)以及将3D卷积分解为2D空间卷积,然后是1D时间卷积,我们将其命名为( 2 + 1)D卷积。我们证明,在ResNet体系结构中使用[13]时,(2 + 1)D卷积会在4种不同的动作识别基准上产生最新的结果。 我们的体系结构称为R(2 + 1)D,它与时空卷积网络[33](FSTCN)有关,其方式是将时空卷积分解为时空卷积。但是,FSTCN专注于网络分解,例如 FSTCN由较低层的几个空间层和顶部的两个并行时间层实现。 另一方面,R(2 + 1)D集中于层分解,即将每个时空卷积分解为空间卷积和时间卷积的块。结果,R(2 + 1)D在整个网络的空间和时间卷积之间交替。 R(2 + 1)D也与Pseudo-3D网络(P3D)密切相关[25],Pseudo-3D网络包括三个不同的残差块,这些残差块使2D ResNets的瓶颈块适应视频。 这些块实现了不同形式的时空卷积:分别是空间跟随时间,空间和时间并行,以及空间跟随时间,分别具有从空间卷积到块输出的跳跃连接。P3D模型是通过在整个网络深度中依次插入这三个块而形成的。 相比之下,我们的R(2 + 1)D模型在所有层中均等使用单一类型的时空残差块,并且不包含瓶颈。 相反,我们显示出通过为每个块中的时空分解仔细选择维数,我们可以获得尺寸紧凑的模型,但仍可得出最新的动作识别精度。 例如,在使用RGB作为输入的Sports-1M上,尽管P3D使用152层 ResNet,R(2 + 1)D在Clip @ 1精度上的表现仍优于P3D 9.1%(57.0%对47.9%)。而我们的模型只有34层。

Convolutional residual blocks for video

  • A Closer Look at Spatio temporal Convolutions for Action Recognition_第1张图片
  • A Closer Look at Spatio temporal Convolutions for Action Recognition_第2张图片
  • A Closer Look at Spatio temporal Convolutions for Action Recognition_第3张图片
  • 在本节中,我们将讨论残差学习框架内的几种时空卷积变体。 令x表示尺寸为3×L×H×W的输入剪辑,其中L是剪辑中的帧数,H和W是帧的高度和宽度,而3表示RGB通道。 令zi为残差网络中第i个卷积块计算的张量。 在这项工作中,我们仅考虑“原始”残差块(即无瓶颈)[13],每个块由两个卷积层组成,每层后均具有ReLU激活功能。 然后,第i个残差块的输出为
  • 其中实现了由权重θi参数化的两个卷积的合成以及ReLU函数的应用。 在这项工作中,我们考虑网络,其中卷积残差块的序列最终达到顶层,在整个时空量上执行全局平均池化,并负责最终分类预测。
  • 视频的2D CNN [29]忽略了视频中的时间顺序,并以与通道类似的方式处理L帧。 因此,我们可以将这些模型视为将输入4D张量x重塑为大小为3L×H×W的3D张量。第i个残差块的输出zi也是3D张量。 它的大小为Ni×Hi×Wi,其中Ni表示应用在第i个块中的卷积滤波器的数量,而Hi,Wi是空间尺寸,由于合并或跨步,它可能小于原始输入帧。 每个过滤器均为3D,尺寸为Ni-1×d×d,其中d表示空间的宽度和高度。请注意,尽管过滤器是3维的,但仅在前张量Zi-1的空间尺寸上以2D卷积。 每个滤波器产生一个单通道输出。 因此,R2D中的第一个卷积层在单通道特征图中折叠了视频的整个时间信息,从而防止了在随后的层中发生任何时间推理。 这种CNN体系结构如图1(a)所示。 注意,由于特征图没有时间意义,因此我们不对该网络执行时间跨度。
  • 另一种2D CNN方法涉及通过一系列2D卷积残差块独立处理L帧。 相同的过滤器应用于所有L帧。 在这种情况下,在卷积层中不执行任何时间建模,并且顶部的全局时空池层仅将独立于L帧提取的信息融合在一起。 我们将此架构变体称为f-R2D(基于帧的R2D)。
  • 3D CNN [15、36]保留时间信息,并将其传播通过网络的各个层。 在这种情况下,张量zi为4D,大小为Ni×L×Hi×Wi,其中Ni是第i个块中使用的滤波器的数量。 每个过滤器都是4维的,大小为Ni-1×t×d×d,其中t表示过滤器的时间范围(在本文中,我们使用t = 3,如[36,4]中所示)。 过滤器以3D形式卷积,即在时间和空间维度上。 这种CNN体系结构如图1(d)所示。
  • 在顶层使用2D卷积。由于在这项工作中我们考虑了具有5组卷积的3D ResNet(R3D)(请参见表1),因此我们的第一个变体是用2D卷积代替第5组中的所有3D卷积。我们用MC5(混合卷积)表示此变体。我们设计了第二个变体,该变体在组4和5中使用2D卷积,并将此模型命名为MC4(从组4和更深的层开始,所有卷积都是2D)。按照这种模式,我们还创建了MC3和MC2版本。我们忽略考虑MC1,因为它等效于应用于剪辑输入的2D ResNet(fR2D)。这种CNN体系结构如图1(b)所示。另一种假设是,在深层中进行时间建模可能更有利,并且可以通过2D卷积尽早捕获外观信息。为了解决这种可能性,我们还尝试了“反向”混合卷积。遵循MC模型的命名约定,我们将这些模型表示为rMC2,rMC3,rMC4和rMC5。因此,rMC3将在块1和2中包括2D卷积,在组3和更深的组中包括3D卷积。这种CNN体系结构如图1(c)所示。
  • 另一种可能的理论是,完整的3D卷积可以更方便地通过2D卷积和1D卷积来近似,将空间和时间建模分解为两个单独的步骤。 因此,我们设计了一个名为R(2 + 1)D的网络体系结构,在其中用大小为Ni-1×t×d×d的Ni 3D卷积滤波器替换为(2 + 1)D块,该块由Mi 2D卷积滤波器组成。 Ni-1×1×d×d大小,以及Mi×t×1×1大小的Ni时间卷积滤波器。 超参数Mi确定信号在空间和时间卷积之间投影的中间子空间的维数。我们选择,以便(2 + 1)D块中的参数数量大约等于实现完整3D卷积的参数数量。 我们注意到,这种时空分解可以应用于任何3D卷积层。 图2给出了简化设置的分解示意图,其中输入张量zi-1包含单个通道(即Ni-1 = 1)。 如果3D卷积具有空间或时间跨度(执行降采样),则该跨度将相应地分解为其空间或时间维度。 图1(e)中说明了这种架构。
  • 与完全3D卷积相比,我们的(2 + 1)D分解具有两个优点。首先,尽管不改变参数的数量,但是由于每个块中2D和1D卷积之间的附加ReLU,使得网络中的非线性数量翻了一番。非线性数量的增加也增加了可以表示的函数的复杂性,正如VGG网络[30]所指出的那样,该网络通过应用多个较小的滤波器,并在其间附加了非线性,从而近似了一个大型滤波器的效果。第二个好处是,将3D卷积强制为单独的空间和时间分量会使优化更加容易。与相同容量的3D卷积网络相比,这表现为更低的训练误差。这在图3中进行了说明,图3显示了具有18(左)和34(右)层的R3D和R(2 + 1)D的训练和测试错误。可以看出,对于相同数量的层(和参数),与R3D相比,R(2 + 1)D不仅产生较低的测试误差,而且产生较低的训练误差。这表明当时空滤波器分解时,优化变得更容易。对于具有34层的网,训练损失的差距特别大,这表明优化的便利性随着深度的增大而增加。
  • 我们注意到,我们的因式分解与伪3D块(P3D)密切相关[25],提出了将R2D的瓶颈块用于视频分类的建议。引入了三个不同的伪3D块:P3D-A,P3D-B和P3D-C。这些块实现了不同的卷积顺序:分别是空间跟随时间,空间和时间并行,以及空间跟随时间以及从空间卷积到块输出的跳跃连接。我们的(2 + 1)D卷积与P3D-A块最紧密相关,但是P3D-A块包含瓶颈。此外,最终的P3D架构是通过在整个网络中依次插入这三个块构成的,除了使用2D卷积的第一层之外。相反,我们提出一种均质架构,其中在所有块中使用相同的(2 + 1)分解。另一个区别是P3D-A并非故意设计为将参数数量与3D卷积匹配。尽管R(2 + 1)D在结构上非常简单且同质,但我们的实验表明,它在Sports-1M上明显优于R3D,R2D和P3D(请参见表4)。

Conclusions

  • 我们已经提出了一种不同时空卷积对视频中动作识别效果的实证研究。 我们建议的体系结构R(2 + 1)D在Sports 1M,Kinetics,UCF101和HMDB51上达到了与现有技术相当或更高的结果。 我们希望我们的分析将激发时空卷积的潜在效率和建模灵活性,从而激发新的网络设计。 虽然我们的研究集中在单一类型的网络(ResNet)和(2 + 1)D时空分解的同质使用上,但未来的工作将致力于为我们的方法寻找更合适的体系结构。

你可能感兴趣的:(论文大全)