论文笔记:SlowFast Networks

粗读概念

1.论文提出了什么?

论文提出了一种视频分类的新方法, 新方法有两条pathway. 第一条是Slow pathway,主要作用在低帧率的模式下,捕获spatial semantics;另外一条是Fast pathway,主要作用在高帧率的模式下,依靠时间维度上的高分辨率捕获视频的动作信息。这种方法的intuition是现实生活中大多数动作都是比较慢的,例如人,从整体看他可能在空间上没有动作,此时用Slow pathway能更好的捕获他的spatial semantic信息,而同时,他的手可能在以一个比较高的速度挥舞,此时利用Fast pathway可以更好的捕捉手部的动作信息,结合这两条通路信息,则可以更好地表示人物的spatial semantic和motion信息。

2. 方法概述

方法很简洁,就是slow,fast两条通路,最后融合预测
论文笔记:SlowFast Networks_第1张图片

精读

3.SlowFast Networks

3.1 Slow Pathway

可以是任何的CNN网络,例如i3d,Slow主要体现在视频的采样帧率上,这篇论文里面temporal stride是16(也就是每16个frame提1)

  • 论文中使用的backbone是3D ResNet,*论文中提到没有使用temporal downsampling,因为在输入步长很大的时候会造成信息损失(文中步长为16)

  • 此外Slow pathway只在res4,res5模块中使用temporal degenerate convolutions(temporal kernel size > 1),作者的解释是,当你的temporal stride很大的时候,其实相近frame之间的correlation就很少了,特别是在较浅的网络层中,他们的感受野比较小,所以论文在后面的res4,res5模块中才使用了>1的temporal kernel。在下图res模块中划线处可以看到。但是有个问题是这样的做法为啥叫“temporal degenerate convolutions”

3.2 Fast Pathway

Fast Pathway主要有以下几个特点

  • High frame rate 论文中Fast pathway设置的采样帧率默认值为Slow pathway的8倍,也就是2fps。

  • High Temporal Resolution Feature 其中Fast pathway没有任何的temporal poolingtemporal convolution stride,这也意味着fast pathway在时间分辨率具有保真性

  • Low Channel Capacity 网络中Fast pathway的channel是Slow pathway的1/8,具体可以从下图的实例中看到, 其实我们可以发现,论文的Slow pathway也是没有temporal pooing或者temporal convolution stride的,低channel数带来的好处就是参数数目大大降低,论文中提到Fast pathway占到的计算资源是整个网络的20%。此外作者也发现通过削弱Fast pathway在spatial上的信息,例如分辨率,颜色信息会提高网络的性能

    论文原文
    1.The good results of our model suggest that it is a desired tradeoff for the Fast pathway to weaken its spatial modeling ability while strengthening its temporal modeling ability.
    
    2.As we will show by experiments, these versions can all give good accuracy, suggesting that a lightweight Fast pathway with less spatial capacity can be made beneficial
    

    论文笔记:SlowFast Networks_第2张图片

3.3 Lateral connections

  • 论文笔记:SlowFast Networks_第3张图片

  • 融合方向为Fast pathway → Slow pathway,实例中是pool1,res2,res3,res4后都有通路将Fast pathway的信息通过transformation变换后融合到Slow pathway中

实验分析

1.总结一句就是又快又准,跟此前的SoAT比起来提升巨大


2.一些疑惑的地方???

  1. 论文中提到的“view”指的是什么?文中提到10clips,每个clip进行三种crop,最后得到的是使用30views,所以“view”是指的输入的clip吗??
  2. 论文中提到说训练的时候用的是224×224,但是inference是用的256×256,这个是怎么实现的?输入不同的话,那么网络的结构不就改变了吗?不懂这个设定具体的原理。

3. Ablation Study

fusion的方式

以res2为例T×S^2 ×C,α=16,β=1/8(4×56^2 ×256 32×56^2×32)

  1. 直接concatenate到一起

  2. Time-to-channel (TtoC sum/concat){32×56^2 ×32→4×56^2×256}

  3. Time-stride sampling(T-sample){32×56^2 ×32→4×56^2×32}

  4. Time-stride convolution(T-conv){32×56^2 ×32→4×56^2×64}
    对比简单的concat,或者sample,带卷积的方式结果更好

    论文笔记:SlowFast Networks_第4张图片

你可能感兴趣的:(论文笔记:SlowFast Networks)