视频分类(三) SlowFast原理

该篇文章是在一年前所看的,也是何凯明参与的一篇文章,今天正好在视频分类的文章中做下总结。
code:SlowFast
paper: SlowFast Networks for Video Recognition

一、 原理


这篇文章的核心思想是借助双帧速率分治进行轻量视频识别,这里给出Abstract核心思想。

We present SlowFast networks for video recognition. Our model involves (i) a Slow pathway, operating at low frame rate, to capture spatial semantics, and (ii) a Fast pathway, operating at high frame rate, to capture motion at fine temporal resolution. The Fast pathway can be made very lightweight by reducing its channel capacity, yet can learn useful temporal information for video recognition. Our models achieve strong performance for both action classification and detection in video, and large improveLow frame rate Kaiming He CC T T H,W T C C T αT prediction αT αTβC ments are pin-pointed as contributions by our SlowFast concept.

文章主要分为两条支路分别为Slow Pathway以及Fast Pathway, 对于SlowPathway具有低帧率,主要目的是为了获取空间语义信息,而对于Fast Pathway具有高帧率,主要是为了获取时间信息。原理图如下所示:

1.帧率

1.1 slow path

slowpath中的stride , 对于30fps的视频我们一般原则为, 也就是说每16帧才处理一帧, 也就是说大约每秒处理两帧。

1.2 fast path

这里时间跨度为(, 一般),也就是说2帧处理一帧,对于30fps视频来说一般会每秒处理15帧。

2. 丰富时间分辨率特征

再fast path上整个网络层都在追求时间分辨率特征,再fast path上没有使用任何时间上的下采样层。直到最后分类前使用了全局池化层,这样我们的特征量正在时间维度上就能始终保持帧,尽可能保证时间的保真度。但fast通道数是slow通道数的倍(, 选择=。综上所述,fast path上我们的T(时间)的维度上是扩增了7倍, 但是C(通道)的维度是减少了7倍。

最后,对两个路径的输出进行全局平均池化global average pooling,再将两个池化后的特征向量拼接在一起输入到全连接分类器中。

低通道数也可以解释为具有较弱的空间语义表达能力,从技术上讲,我们的Fast路径在空间维度上没有特殊的处理,因此由于通道数的减少,其空间建模能力应该低于Slow路径。我们模型的良好结果表明Fast路径削弱其空间建模能力的同时增强其时间建模能力,这是一个理想的tradeoff。

Fast路径大概占总计算量的20%左右。有趣的是,第一节中提到过动物视觉系统中的15~20%细胞是M-cells(对快速运动很敏感,但是对颜色和空间细节不敏感的那一类细胞)。

3. 模型结构

表1指定了一个SlowFast模型的示例子,我们用T×S²来表示时空尺寸,其中T是时间长度,S是方形空间裁剪的宽高,接下来描述具体细节
3.1 slow path 与fast path 融合

下面是不同融合方法对应的效果



最后发现再T(时间维度)上进行卷积在进行融合效果会更好。



最后在经过全剧平均池化以及全连接层就可以进行分类了, 这就很好理解了, 如下所示。

你可能感兴趣的:(视频分类(三) SlowFast原理)