SlowFast Networks for Video Recognition速读笔记

(一) Title

SlowFast Networks for Video Recognition速读笔记_第1张图片

(二) KeyPoints

提出结合使用slow pathway和fast pathway。

  • slow pathway 慢帧率,主要关注空间信息

    从图像或者稀疏的帧中提取语义信息

  • fast pathway减少通道数,lightweight,快帧率,更多地关注动作随时间的变化信息

    时间速率很快,轻量级,较弱的处理空间信息的能力。不需要temporal pooling

快慢结合带来了检测结果上的提升。

(三) MethodSlowFast Networks for Video Recognition速读笔记_第2张图片

本文主要包括3部分内容,首先是slow pathway,接着是fast pathway,最后是两个pathway输出的连接方式。

3.1 Slow Pathway

  • 可以使用任意的卷积模型
  • 有较大的时间步长,temporal stride。通常1s采集两帧。
  • 图片采样间隔 τ = 16 \tau=16 τ=16,也就是每16张中取一张进行检测

3.2 Fast Pathway

  • 图片采样间隔为 τ / α \tau / \alpha τ/α,其中 α = 8 > 1 \alpha = 8>1 α=8>1
  • 不采用tempora downsampling,保持较高的分辨率
  • 低通道容量,和慢速通道具有类似的卷积网络,不过通道数比例为慢速路径的 β = 1 / 8 \beta = 1/8 β=1/8,慢速路径的的参数占总参数的20%。

3.3 two pathways fuse

通过lateral connections实现两个网络的连接,这个在双流法中验证过的。用于合并不同级别的语义信息。
这里在 p o o l 1 pool_1 pool1, r e s 2 res_2 res2, r e s 3 res_3 res3, r e s 4 res_4 res4之后进行了连接
SlowFast Networks for Video Recognition速读笔记_第3张图片
lateral connections的方式:

slow pathway特征图尺寸: { T , S 2 , C } \left\{T, S^{2}, C\right\} {T,S2,C}
fast pathway特征图尺寸: { α T , S 2 , β C } \left\{\alpha T, S^{2}, \beta C\right\} {αT,S2,βC}

  • Time-to-channel
    将fast pathway的 { α T , S 2 , β C } \left\{\alpha T, S^{2}, \beta C\right\} {αT,S2,βC}reshape到 { T , S 2 , α β C } \left\{T, S^{2},\alpha \beta C\right\} {T,S2,αβC}上,也就是将快速路径的 α \alpha α帧合并成1帧。
  • Time-stride sampling
    将fast pathway的 { α T , S 2 , β C } \left\{\alpha T, S^{2}, \beta C\right\} {αT,S2,βC}reshape到 { T , S 2 , β C } \left\{T, S^{2}, \beta C\right\} {T,S2,βC}上, α \alpha α帧中采样1帧。
  • Time-strideed convolution(这种方式的消融结果较好)
    用一个 5 × 1 2 5 \times 1^2 5×12大小,输出通道数为 2 β C 2 \beta C 2βC的3D卷积核处理快速路径,步长为 α \alpha α

(四) Notes

4.1 怎么理解加入快慢机制呢?

在进行行为识别时,通常对称地看待两个空间的维度x和y,也就是在x和y方向上是各向同性的。
然而,视频信号中,正因为时序信息的引入才有的动作,而且大部分的动作在时间方向上的重要性是不统一的。
因此,需要分别考虑时序信息和空间信息。出现了快慢结合的这种方式,分别关注时序和空间特征。

你可能感兴趣的:(深度学习)