Abstract
我们提出了用于视频识别的 SlowFast 网络。我们的模型涉及 (i) 以低帧速率运行的慢速路径,以捕获空间语义,以及 (ii) 以高帧速率运行以捕获精细时间分辨率的运动的快速路径。 Fast 路径可以通过减少其通道容量而变得非常轻量级,但可以学习用于视频识别的有用时间信息。 - 概念。我们在主要视频识别基准、Kinetics、Charades 和 AVA 上报告了最先进的准确性。
1.Introduction
在识别图像I(x,y)的过程中,通常会对两个空间维度x和y进行对称性处理。这是由自然图像的统计学所证明的,自然图像首先是各向同性的,所有方向的可能性是相同的,并且是移位不变的[41,26]。但是视频信号I(x,y,t)呢?运动是方位的时空对应物[2],但所有的时空方位都是同等可能的。 慢速运动比快速运动更有可能(事实上,我们看到的大部分世界在某一时刻是静止的),这一点在人类如何感知运动刺激的贝叶斯描述中得到了利用[58]。例如,如果我们孤立地看到一条移动的边缘,我们会认为它是垂直于自身的运动,尽管原则上它也可能有一个与自身相切的任意运动成分(光流中的孔径问题)。如果先验倾向于慢速运动,这种感知是合理的,如果所有时空方向的可能性不同,那么我们就没有理由对称地处理空间和时间,这在基于时空卷积的视频识别方法中是隐含的 [49,5]。相反,我们可能会“考虑”架构以分别处理空间结构和时间事件。为了具体起见,让我们在识别的背景下研究这一点。视觉内容的分类空间语义通常发展缓慢。例如,挥舞的手在挥舞的过程中不会改变其作为 "手 "的身份,而一个人总是在 "人 "的类别中,即使他/她可以从走路变成跑步。因此,对猫的语义(以及它们的颜色、质地、灯光等)的识别可以相对缓慢地被刷新。另一方面,正在进行的运动可以比它们的主体身份发展得更快,如拍手、挥手、摇晃、行走或跳跃。我们希望使用快速刷新的帧(高时间分辨率)来有效地模拟潜在的快速变化的运动。基于这种直觉,我们提出了一个用于视频识别的双路径慢速法模型(图1)。 其中一条路径被设计用来捕捉可由图像或少数稀疏帧提供的语义信息,它以低帧率和低刷新速度运行。相比之下,另一条路径负责捕捉快速变化的运动,它以快速的刷新速度和高时间分辨率运行。这是因为这条通路被设计成具有较少的通道和较弱的处理空间信息的能力,而这些信息可以由第一条通路以不太多余的方式提供。我们称第一条通路为慢速通路,第二条通路为快速通路,这是由它们不同的时间速度驱动的。这两条途径通过侧向连接融合在一起。
我们的概念思想为视频模型带来了灵活有效的设计。由于其轻量级特性,Fast 路径不需要执行任何时间池化——它可以在所有中间层的高帧率下运行并保持时间保真度。同时,由于较低的时间速率,Slow 路径可以更专注于空间域和语义。通过以不同的时间速率处理原始视频,我们的方法允许两种途径在视频建模方面拥有自己的专业知识。
还有另一种众所周知的视频识别架构,它采用双流设计 [44],但提供了概念上不同的视角。双流方法 [44] 没有探索不同时间速度的潜力,这是我们方法中的一个关键概念。双流方法对两个流采用相同的主干结构,而我们的 Fast 路径更轻量级。我们的方法不计算光流,因此,我们的模型是从原始数据中端到端学习的。在我们的实验中,我们观察到 SlowFast 网络在经验上更有效。
我们的方法部分受到灵长类视觉系统中视网膜神经节细胞的生物学研究的启发[27,37,8,14,51],尽管承认这种类比是粗略和不成熟的。这些研究发现,在这些细胞中,80%是副细胞(P-cells),15-20%是巨细胞(M-cells)。M细胞的工作频率很高,对快速的时间变化有反应,但对空间细节或颜色不敏感。P细胞提供精细的空间细节和颜色,但时间分辨率较低,对刺激的反应缓慢。我们的框架在以下方面是类似的。(i) 我们的模型有两条通路分别在低和高的时间分辨率下工作;(ii) 我们的快速通路旨在捕捉快速变化的运动,但空间细节较少,类似于M细胞;(iii) 我们的快速通路很轻,类似于M细胞的小比率。 我们希望这些关系将激励更多的计算机视觉模型用于视频识别。
我们在 Kinetics-400 [30]、Kinetics-600 [3]、Charades [43] 和 AVA [20] 数据集上评估我们的方法。我们对 Kinetics 动作分类的综合消融实验证明了 SlowFast 贡献的功效。SlowFast 网络在所有数据集上设置了新的最新技术,对文献中以前的系统有显着增益。
2. Related Work
时空过滤。行为可以被表述为时空对象,并通过时空的定向过滤来捕获,如HOG3D[31]和cuboids(立方体)[10]。 3D ConvNets[48,49,5]将二维图像模型[32,45,47,24]扩展到时空域,类似地处理空间和时间维度。 还有一些侧重于长期过滤和使用时间跨度的集合的方法[52,13,55,62],以及将卷积分解为单独的二维空间和一维时间过滤器[12,50,61,39]。
除了时空过滤或它们的可分离版本之外,我们的工作通过使用两种不同的时间速度来更彻底地分离建模专业知识。
视频识别中的光流。有一个经典的研究分支专注于基于光流的手工制作的时空特征。 这些方法,包括光流直方图[33]、运动边界直方图[6]和轨迹[53],在深度学习盛行之前,在动作识别方面表现出了有竞争力的性能。
在深度神经网络的背景下,双流方法 [44] 通过将光流视为另一种输入模式来利用光流。这种方法已成为文献 [12,13,55] 中许多竞争结果的基础。然而,鉴于光流是一种手工设计的表示,并且双流方法通常不会与流一起端到端地学习,因此在方法上并不令人满意。
3. SlowFast Networks
SlowFast 网络可以被描述为以两种不同帧速率运行的单一流架构,但我们使用通路的概念来反映与生物细小细胞和大细胞对应物的类比。我们的通用架构有一个慢路径(第 3.1 节)和一个快速路径(第 3.2 节),它们通过横向连接融合到 aSlowFast 网络(第 3.3 节)。图 1 说明了我们的概念。
3.1. Slow pathway
慢速路径可以是任何卷积模型(例如,[12,49,5,56]),它可以将视频剪辑作为时空卷。我们慢速路径中的关键概念是输入帧上的大时间步幅τ,即它只处理τ帧中的一个。我们研究的 τ 的典型值是 16——对于 30-fps 的视频,这个刷新速度大约是每秒采样 2 帧。将Slow path采样的帧数表示为T,原始剪辑长度为T×τ frames
3.2. Fast pathway
与Slow 路径并行,Fast 路径是另一种具有以下特性的卷积模型。
**高帧率。**我们的目标是在时间维度上有一个很好的表示。我们的快速路径以 τ/α 的小时间步幅工作,其中 α > 1 是快速路径和慢速路径之间的帧速率比。这两条路径在同一个原始剪辑上运行,因此 Fastpathway 采样 αTframes,比 Slowpathway 密集 α 倍。在我们的实验中,典型值是α= 8。
α的存在是SlowFast概念的关键(图1,时间轴)。它明确表明这两种路径以不同的时间速度工作,从而推动了两个子网实例化这两条路径的专业知识。
高时间分辨率特征。我们的快速路径不仅具有高输入分辨率,而且在整个网络层次结构中都追求高分辨率特征。在我们的实例中,我们在整个 Fast 路径中使用非时间下采样层(既不是时间池化也不是时间跨度卷积),直到分类前的全局池化层。因此,我们的特征张量在时间维度上总是有αT frames,尽可能保持时间保真度。
低信道容量。我们的 Fast 路径与现有模型的区别还在于,它可以使用显着较低的信道容量来实现慢速模型的良好准确性。这使它变得轻巧。
简而言之,我们的 Fast 通路是一个类似于 Slow 通路的卷积网络,但具有慢通路的 β(β <1) 通道比率。在我们的实验中,典型值为β= 1/8。请注意,公共层的计算(浮点数运算或 FLOP)通常是其通道缩放比的二次项。这就是使 Fast 路径比慢速路径更具计算效率的原因。在我们的实例中,Fast 路径通常占总计算量的 20%。有趣的是,正如 Sec 中提到的。如图 1 所示,证据表明灵长类视觉系统中约 15-20% 的视网膜细胞是 M 细胞(对快速运动敏感,但对颜色或空间细节不敏感)。
低信道容量也可以解释为表示空间语义的弱点。从技术上讲,我们的Fast 通路在空间维度上没有特殊处理,因此其空间建模能力应该低于Slow 通路,因为通道较少。我们模型的良好结果表明,Fast 路径在增强其时间建模能力的同时削弱其空间建模能力是一种理想的权衡。
受这种解释的启发,我们还探索了在 Fast 路径中削弱空间容量的不同方式,包括降低输入空间分辨率和去除颜色信息。正如我们将通过实验表明的那样,这些版本都可以提供良好的准确性,这表明空间容量较小的轻量级 Fastpathway 可以带来好处。
3.3. Lateral connections
两条路径的信息融合在一起,所以一条路径不会不知道另一条路径学到的表征。我们实现了这种旁侧连接,它已被用于融合基于光流的双流网络 [12,13]。在图像对象检测中,横向连接 [35] 是一种流行的技术,用于合并不同级别的空间分辨率和语义。
与 [12,35] 类似,我们在每个“阶段”的两个路径之间附加一个横向连接(图 1)。特别是对于 ResNets [24],这些连接是在后池 1、res2、res3 和res4. 两条路径具有不同的时间维度,因此横向连接执行转换以匹配它们(详见第 3.4 节)。我们使用单向连接,将 Fastpathway 的特征融合到慢速路径中(图 1)。我们已经尝试了双向融合,发现类似的结果。最后,对每个路径的输出进行全局平均池化,然后将两个池化后的特征向量连接起来作为全连接分类器层的输入。
3.4. Instantiations
我们对 SlowFast 的想法是通用的,它可以用不同的主干(例如,[45,47,24])和实现细节来实例化。 在本小节中,我们描述了网络架构的实例。表 1 中指定了一个示例慢速模型。我们用 T×S2(s平方)表示时空大小,其中 T 是时间长度,S 是方形空间作物的高度和宽度。 详情如下。
慢路径。表 1 中的慢路径是一个时间跨度的 3D ResNet,修改自 [12]。它有 T=4 帧作为网络输入,从 64 帧原始剪辑中稀疏采样,时间步长τ=16。我们选择在这个实例中不执行时间下采样,因为当输入步幅很大时这样做是有害的。
与典型的 C3D/I3D 模型不同,我们仅在 res4 和 res5 中使用非退化时间卷积(时间内核大小>1,表 1 中的下划线);从conv1到res3的所有过滤器在这个途径中基本上是2D卷积核。
我们认为这是因为当物体快速移动且时间跨度较大时,除非空间接受领域足够大(即在较后的层),否则在时间接受领域内几乎没有相关性。
Fast pathway。表 1 显示了快速路径的示例,其中 α= 8 和 β= 1/8。它具有更高的时间分辨率(绿色)和更低的通道容量(橙色)。Fast 路径在每个块中具有非退化的时间卷积。这是由于观察到该路径为时间卷积保持良好的时间分辨率以捕获详细的运动。此外,Fastpathway 在设计上没有时间下采样层。
横向连接。我们的横向连接从快速通道融合到慢速通道。它需要在融合之前匹配特征的大小。
横向连接的输出通过求和或串联融合到慢路径中
4. Experiments: Action Classification
我们使用标准评估协议在四个视频识别数据集上评估我们的方法。对于本节中介绍的动作分类实验,我们考虑广泛使用的 Kinetics-400 [30]、最近的 Kinetics600 [3] 和 Charades [43]。对于 Sec 中的动作检测实验。 5,我们使用具有挑战性的 AVA 数据集 [20]。
训练。我们的动力学模型是从随机初始化(“从头开始”)训练的,没有使用 ImageNet [7] 或任何预训练。我们按照 [19] 中的方法使用同步 SGD 训练。详见附录。
对于时间域,我们从全长视频中随机采样一个剪辑(αT×τ 帧),慢速和快速路径的输入分别为 T 和 αT 帧;对于空间域,我们从视频或其水平翻转中随机裁剪 224×224 像素,较短的边在 [256, 320] 像素 [45, 56] 中随机采样。
推理。按照惯例,我们沿时间轴从视频中统一采样 10 个剪辑。对于每个剪辑,我们将较短的空间边缩放到 256 像素,并采用 3 次 256×256 的裁剪来覆盖空间维度,作为全卷积测试的近似值,遵循 [56] 的代码。我们平均预测的 softmax 分数。我们报告了实际的推理时间计算。由于现有论文在空间和时间裁剪/裁剪的推理策略上有所不同。与之前的工作相比,我们报告了推理时每个时空“视图”(带有空间裁剪的时间剪辑)的 FLOP 和使用的视图数量。回想一下,在我们的例子中,推理时间空间大小是 2562(而不是 2242训练)和 10 个时间片段,每个片段有 3 个空间裁剪(30 个视图)。
数据集。 Kinetics-400 [30] 由 400 个人类动作类别中的 240k 个训练视频和 20k 个验证视频组成。 Kinetics-600 [3] 在 600 个类别中有 392k 个训练视频和 30k 个验证视频。我们报告了 top-1 和 top-5 分类准确率 (%)。我们报告了单个空间中心裁剪剪辑的计算成本(以 FLOP 为单位)。 Charades [43] 在一个多标签分类设置中的 157 个类别中包含 9.8k 训练视频和 1.8k 验证视频,平均跨度约为 30 秒。性能以平均平均精度 (mAP) 衡量。
4.1. Main Results
Kinetics-400。表 2 显示了使用各种输入采样 (T×τ) 和主干:ResNet-50/101 (R50/101) [24] 和 Nonlocal (NL) [56] 的 SlowFast 实例与最先进结果的比较。与之前的最新技术 [56] 相比,我们最好的模型提供了 2.1% 的 top-1 准确率。值得注意的是,我们所有的结果都比没有 ImageNet 预训练的现有结果要好得多。特别是,我们的模型 (79.8%) 绝对比之前同类最佳结果 (73.9%) 好 5.9%。我们已经针对 SlowFast 网络对 ImageNet 预训练进行了试验,发现它们对预训练和从头开始训练(随机初始化)变体的表现相似(±0.3%)。
我们的结果是在较低的推理时间成本下实现的。我们注意到,许多现有作品(如果有报道)沿时间轴使用极其密集的剪辑采样,这可能会导致推理时间超过 100 个视图。这笔费用在很大程度上被忽视了。相比之下,我们的方法不需要很多时间片段,因为它具有高时间分辨率但轻量级的 Fast 路径。我们每个时空视图的成本可能很低(例如,36.1 GFLOP),同时仍然准确。
表 2 中的 SlowFast 变体(具有不同的主干和采样率)在图 2 中与其对应的仅慢速路径进行了比较,以评估快速路径带来的改进。水平轴测量 2562 个空间大小的单个输入剪辑的模型容量,这与总推理成本的 1/30 成正比。