论文《SlowFast Networks for Video Recognition》
FAIR
我们提出用于视频识别的SlowFast网络。
我们的模型涉及(i)以低帧速率操作的慢速路径,捕获空间语义,以及(ii)以高帧速率操作的快速路径,以精细时间分辨率捕获运动。通过降低其信道容量,可以使快速路径非常轻量级,并且可以学习用于视频识别的有用时间信息。我们的模型在视频中的动作分类和检测方面都获得了强大的性能,而且我们的SlowFast概念也大大改进了大量的改进。我们在没有使用任何预训练的情况下报告Kinetics数据集的准确率为79.0%,大大超过此前的最佳结果。在AVA动作检测中,我们实现了28.3 mAP的新技术。代码将公开发布。
习惯于识别图像I(x; y)以对称地处理两个空间维度x和y。这通过自然图像的统计来证明是合理的,其是第一近似的各向同性 - 所有方向都是同样可能的 - 并且是移位不变的。
但视频信号I(x; y; t)怎么样?运动是方向的时空对应物[1],但所有时空方向都不是同等可能的。慢速运动比快速运动更可能(事实上我们看到的世界大部分时间都在某个特定时刻处于休息状态)并且这已经在贝叶斯人的人类感知运动刺激的过程中被利用[51]。例如,如果我们看到一个孤立的移动边缘,我们将其视为垂直于自身移动,即使原则上它也可以具有与其自身相切的任意运动分量(光流中的孔径问题)。如果先前有利于减慢运动,则该感知是合理的。
如果所有的时空方向都不是同等可能的话,那么我们就没有理由对称地处理空间和时间,正如基于时空卷积的视频识别方法所暗示的那样[44,3]。我们可能会“考虑”架构以分别处理空间结构和时间事件。为了具体,让我们在承认的背景下研究这一点。视觉内容的分类空间语义通常发展缓慢。例如,挥手不会在挥动动作的跨度上改变他们作为“手”的身份,并且即使他/她可以从步行转为跑步,人也总是处于“人”类别。因此,可以相对缓慢地刷新分类语义(以及它们的颜色,纹理,光照等)的识别。另一方面,正在执行的动作可以比其主体身份更快地发展,例如拍手,挥手,摇晃,行走或跳跃。可能期望使用快速刷新帧(高时间分辨率)来有效地建模可能快速变化的运动。
基于这种直觉,我们提出了一种用于视频识别的双通道SlowFast模型(图1)。
图1. SlowFast网络具有低帧速率,低时间分辨率慢通道和高帧速率,α×更高时间分辨率快速通道。通过使用分数(β,例如1/8)通道,快速通路是轻量级的。横向连接融合它们。此样本来自AVA数据集[17](注释:手势)。
一条路径旨在捕获可由图像或一些稀疏帧给出的语义信息,并且它以低帧速率和低刷新速度运行。相反,另一个路径负责通过以快速刷新速度和高时间分辨率操作来捕获快速变化的运动。尽管其具有高时间速率,但该路径非常轻,例如,总计算的约20%。这是因为该路径被设计为具有较少的信道和较弱的处理空间信息的能力,而这种信息可以由第一路径以较少冗余的方式提供。我们将第一个称为慢速通路,第二个称为快速通路,由它们的不同时间速度驱动。这两条通路通过横向连接融合。
我们的概念构思可为视频模型提供灵活有效的设计。快速路径由于其轻量级特性,不需要执行任何时间池 - 它可以在所有中间层的高帧速率下操作并保持时间保真度。同时,由于较低的时间速率,慢速路径可以更专注于空间域和语义。通过以不同的时间速率处理原始视频,我们的方法允许这两种途径在视频建模方面拥有自己的专业知识。
我们在Kinetics [27,2]和AVA [17]数据集上全面评估了我们的方法。在动力学行为分类中,我们的方法在没有任何预训练(例如ImageNet)的情况下达到79.0%的准确度,在很大程度上超过了这种文献中的最佳数量5.1%。消融实验令人信服地证明了SlowFast概念所带来的改进。在AVA动作检测方面,我们的模型实现了28.3%mAP的最新技术水平。
我们的方法部分受到灵长类动物视觉系统中视网膜神经节细胞的生物学研究的启发[24,34,6,11,46],尽管这种类比是粗略和过早的。这些研究发现,在这些细胞中,~80%是细小细胞(P细胞),约15-20%是Magnocellular(M细胞)。M细胞在高时间频率下操作并且对时间变化更敏感,但是对空间细节或颜色不敏感。 P细胞提供精细的空间细节和颜色,但具有较低的时间分辨率。
我们的框架类似于:
(i)我们的模型有两条分别在低时间和高时间分辨率下工作的路径;
(ii)我们的快速通道旨在捕捉快速变化的运动,但更少的空间细节,类似于Mcells;
(iii)我们的Fast途径轻巧,类似于M细胞的小比例。
我们希望这些关系将激发更多用于视频识别的计算机视觉模型。
在深度神经网络的背景下,双流方法[39]通过将其视为另一种输入模态来利用光流。
该方法已成为文献中许多竞争结果的基础[9,10,49]。然而,考虑到光流是手工设计的表示,在方法上不令人满意,并且双流方法通常不与流一起端到端地学习。
我们的工作与双流方法[39]有关,但提供了概念上不同的观点。 twostream方法[39]没有探索不同时间速度的潜力,这是我们方法中的一个关键概念。双流方法对两个流采用相同的骨干结构,而我们的快速路径更轻量级。我们的方法不计算光流,因此,我们的模型是从原始数据端到端学习的。
慢路径可以是任何卷积模型(例如,[9,44,3,50]),其作为时空体积在视频剪辑上工作。
我们的慢速路径中的关键概念是输入帧上的大时间步幅τ,即,它仅处理τ帧中的一个。我们研究的τ的典型值是16-对于30-fps视频,这种刷新速度大约是每秒采样2帧。将慢速路径采样的帧数表示为T,原始剪辑长度为T×τ帧。
与慢通道平行,快速通路是另一种具有以下特性的卷积模型
有趣的是,如第二节所述。 1,有证据表明灵长类视觉系统中~15-20%的视网膜细胞是M细胞(对快速运动敏感但对颜色或空间细节不敏感)。
低信道容量也可以被解释为表示空间语义的较弱能力。从技术上讲,我们的快速通道对空间维度没有特殊处理,因此其空间建模能力应低于慢通道,因为通道较少。我们模型的良好结果表明,快速通道削弱其空间建模能力,同时加强其时间建模能力是一个理想的权衡。
在这种解释的推动下,我们还探索了削弱快速通道中空间容量的不同方法,包括降低输入空间分辨率和去除颜色信息。正如我们将通过实验展示的那样,这些版本都可以提供良好的准确性,这表明可以使具有较小空间容量的轻量级快速通道变得有益。
两条通路的信息是融合的,因此一条通路并不是不知道另一条通路所学到的表示。我们通过横向连接来实现这一点,横向连接已被用于融合基于光流的双流网络[9,10]。在图像对象检测中,横向连接[32]是用于合并不同级别的空间分辨率和语义的流行技术。
类似于9,32],我们附上用于每个“阶段”两条通路之间的一个横向连接(图1)。具体地,对于ResNets [21]中,这些连接是正确的之后POOL1,RES2,RES3,和RES4该两条路径具有不同的时间尺寸,因此横向连接执行转换以匹配它们(详见3.4节)。我们使用单向连接将Fast路径的特征融合到慢速路径中(图1)。我们已经进行了实验双向融合并发现类似的结果。
最后,对每个路径的输出执行全局平均合并。然后将两个合并的特征向量连接为完全连接的分类器层的输入。
我们对SlowFast的想法是通用的,它可以用不同的主干(例如,[40,42,21])和实现细节来实例化。在本小节中,我们将描述网络体系结构的实例。表1中指定了示例SlowFast模型。我们通过T×S2表示时空尺寸,其中T是时间长度,S是正方形空间作物的高度和宽度。接下来描述细节。
表1. SlowFast网络的示例实例化。
对于时间,空间和信道大小,内核的维度由fT×S2,Cg表示。步幅表示为ftemporal stride,space stride2g。这里速度比是α= 8并且通道比是β= 1 = 8。 τ为16.绿色标记较高的时间分辨率,橙色标记较少的通道,用于快速通道。非简并时间滤波器加下划线。残差块用括号表示。骨干是ResNet-50。
慢路
表1中的慢速路径是从[9]修改的时间跨度3D ResNet。它具有T = 4帧作为网络输入,从具有时间步幅τ= 16的64帧原始剪辑中稀疏地采样。我们选择在该实例化中不执行时间下采样,因为当输入步幅是这样时,这样做将是有害的。大。与典型的C3D / I3D模型不同,我们仅在res4和res5中使用非简并时间卷积(时间内核大小> 1,表1中加下划线);
从conv1到res3的所有过滤器本质上都是2D卷积内核。这是由我们的实验观察推动的,即在早期层中使用时间卷积会降低准确性。我们认为这是因为当物体快速移动且时间步幅大时,在时间感受野内几乎没有相关性,除非空间感受野足够大(即,在后面的层中)。
快速通路。
表1显示了具有α= 8和β= 1 = 8的快速途径的实例。
它具有更高的时间分辨率(绿色)和更低的信道容量(橙色)。
快速通路在每个区块中具有非简并的时间卷积。
这是通过观察该通路保持时间旋转的精细时间分辨率以捕获详细运动来推动的。
此外,快速路径没有设计时间下采样层
横向连接。
我们的横向连接从快速通道到慢速通道融合,将来自Fast通道的数据通过侧向连接被送入Slow通道,这使得Slow通道可以了解Fast通道的处理结果。单一数据样本的形状在两个通道间是不同的(Fast通道是{αT, S², βC} 而Slow通道是 {T, S², αβC})它需要在融合之前匹配特征的大小。
我们在横向连接中尝试以下变换:
(i)时间到通道:我们将{αT, S², βC} 变形转置为 {T , S², αβC},这意味着我们将所有α帧打包到一帧的通道中(把α帧压入一帧)。
(ii)时间跨度采样:我们简单地对每个α帧中的一个进行采样,因此{αT , S², βC} 就变换为 {T , S², βC}。
(iii)时间跨度卷积:我们用2βC输出通道和stride =α进行5×12内核的3D卷积。
横向连接的输出通过求和或串联融合到慢速通路中。
时间轴是一个特殊的维度。本文研究了一种与此轴线速度形成对比的建筑设计。
它实现了视频动作分类和检测的最先进精度。我们希望这个SlowFast概念能够促进视频识别的进一步研究。