【Video Recognition】SlowFast Network 用快慢结合进行视频分类


这是我发布的第2篇文章,在这个专栏里,我会持续写一些最近看的文章,希望能够与大家有所交流。
欢迎访问我的知乎专栏 元麦没有山丘


论文题目: [ SlowFast Networks for Video Recognition ]

  • 论文地址:下载地址
  • 代码地址:暂无

FaceBook AI Research何凯明团队提出了一个快慢双通道网络,利用FastPath捕捉动作信息;SlowPath捕捉视觉语义信息,最后在无预训练的情况下,在Kinetics数据集上视频分类准确率达到了79.0%,在AVA action detection数据集上达到了当前最好的28.3mAP

先说结论:

  1. 空间信息与时序信息应分别对待,不能对称地同等对待
  2. 快慢网络可以不需要在ImageNet进行预训练
  3. Non-Local网络其实没多大的提升效果
  4. 快慢网络对动作幅度、速度更快的动作类别提升大

Motivation

我们所看到的世界大多数是属于静止的,在人类视觉细胞研究中研究者发现,视觉细胞由80%的P-Cell和20%的M-Cell组成,其中P-Cell对颜色、形状等图像信息更加敏感,而M-Cell对时间变化更加敏感。例如一个跳跃动作,整个过程中图像中的视觉语义信息是变化比较缓慢的,而相反移动、跳跃这些动作在时序上变化较快,我们是否能利用两个不同的网络对时序变化不同的信息进行捕捉,从而改善网络性能是这篇文章的主要思想,而基于上述研究与分析,作者提出了SlowFast网络。


正文

在图像识别处理中,我们会对称地处理RGB图像的x轴和y轴信息,自然图像的统计也证明了其合理性。但是在视频任务中,我们不禁想到,时序信息也应该和图像信息一样对称地处理吗?当然不是!作者提出用SlowPath在帧率较低的输入下进行空间语义信息提取,利用轻量级的FastPath在帧率较高的输入下进行时序信息提取,最后进行融合。

模型架构

整个网络的模型架构如下图所示,上面子线路是Slow Pathway,输入的时序帧率低,主要提取空间语义信息,下面的Fast Pathway输入时序帧率高,模型通道数量较少,主要提取时序信息。两条子路在每一个Block都会进行fuse,最后输入给分类器。


image

Slow Pathway架构

Slow Pathway可以是任何的一个视频卷积模,我们假设参数是一个输入视频帧的采样率,模型输入的总帧数设为T,则输入视频的总帧数为,这里我们一般取,压缩了输入中的时序信息,这样的做法是的Slow Pathway网络更加专注于提取空间的语义信息。

Fast Pathway架构

Fast Pathway是一个轻量级的时序信息提取模型。为减少运算量以及让模型专注于时序信息提取,作者设计时主要有以下几点:

  1. 更高的输入时序分辨率
  2. 更高的输出时序分辨率
  3. 较低的通道容量
  4. 较低的输入空间信息

更高的输入时序分辨率。SlowPath网络的帧采样率为,我们设系数,则SlowPath网络的输入帧采样率设为,即FastPath输入的帧数是SlowPath的倍。

更高的输出时序分辨率。FastPath网络整个过程中没有采用时序上的下采样,保证输入时序维度仍然为。

较低的通道容量。作者这里发现,FastPath网络降低通道数量,不仅降低了模型的复杂度,还能保证输出的精度,这里设置了一个系数,一般,使得FastPath的通道数量始终是Slowpath的倍。
这样的设定保证了FastPath网络的计算量大概占总网络计算量的20%,和我们在人类视觉细胞中发现M细胞的比例大约为20%吻合。

较低的输入空间信息。为了进一步削弱FastPath网络的空间建模能力,作者这里还提出降低输入图像空间分辨率、去除颜色信息等方式,使得网络能更加注重时序信息的变化。

网络整体参数列表

这里,作者以ResNet-50举例,其设计的SlowFast网络参数如下表所示,其中黄色是通道数量,绿色是时序帧分辨率。

SlowFast Network整体参数列表

实验

作者针对不同超参数设置以及融合方式,作者做了很多实验。

fuse method

融合方式中,Slow Pathway的特征尺寸为,而Fast Pathway的特征尺寸为,作者分别尝试time-to-channel(TtoC)、time-strided sampling(T-Sample)、time-strided convolution(T-conv)四种方法,结果如下,利用T-conv效果最好。

不同融合方式结果对比

Channel capacity ratio

在Fast Pathway中降低通道的数量,一方面可以使模型轻量化,另一方面,作者发现降低Fast Pathway模型的空间信息提取能力,可以增强其时序信息提取能力,故对不同的通道压缩比例设置做了实验,其结果如下。

通道压缩比例系数对模型结果的影响

其中设置成1/6和1/8时,Top-1、Top-5最高。
由此,作者思考,是否能进一步削减其空间信息能力来增强时序上的性能,为此,作者将输入的RGB图像分别改成灰度、光流等进行实验,最终发现,利用灰度图作为输入,模型的复杂度得以降低,且精度几乎没有变化。

不同输入模型的结果

ablation experiment

Fast+Slow的双模型结构是否真的有效,还是仅是模型复杂度增加带来的性能提升,对此,作者将Fast网络替换成其他以及单独的Slow网络进行训练,将结果进行了对比。

ablation experiment

从结果可以看出,快慢网络有效的降低了模型的复杂度,且在分类结果中效果非常好。

Various SlowFast instantiations

针对精度和速度不同的侧重,我们可以非常自由的选择Slow网络的输入帧数,其结果如下。

Various SlowFast instantiations

其中T是Slow网络输入的总帧数,输入视频序列的总帧数,为Fast网络输入总帧数。可以发现,当Slow网络输入帧数为2时,GFLOPS最低,且Top-1只损失了3.6%,且相比于Slow-only网络,不仅精度高,复杂度更低,充分说明了其模型的有效性。

Result on Kinetics and AVA dataset

何凯明团队提出的这篇文章,在Kinetics数据集上,与没有ImageNet预训练其他模型相比,目前是第一。在AVA action detection任务上取得了第一,其结果如下所示。

Kinetics-400 result
AVA action detection result

总结与展望

在这篇文章中,作者提出Slow+Fast网络,通过大量研究实验,证明了其有效性,总结整篇文章,其主要有以下结论:

  1. 空间信息与时序信息应分别对待,不能对称地同等对待
  2. 快慢网络可以不需要在ImageNet进行预训练
  3. Non-Local网络其实没多大的提升效果
  4. 快慢网络对动作幅度、速度更快的动作类别提升大

最后也利用SlowFast Network在Kinetics数据集和AVA action detection,达到了state-of-the-art。

Reference

[1] Feichtenhofer C, Fan H, Malik J, et al. SlowFast networks for video recognition[J]. arXiv preprint arXiv:1812.03982, 2018.


作者 @鼎鼎大明
2019 年 03月 18日

你可能感兴趣的:(【Video Recognition】SlowFast Network 用快慢结合进行视频分类)