SlowFast Networks for Video Recognition 论文解读

论文介绍

论文链接:https://arxiv.org/abs/1812.03982
代码链接:https://github.com/facebookresearch/SlowFast
在论文中,FAIR 何恺明等人介绍了用于视频识别的 SlowFast 网络,采取了双重CNN模式去对视频中的行为进行识别分类,分为slow pathway以及fast pathway.将视频分为静态和动态两部分,在静态部分用slow pathway以低帧速率提取空间语义信息,而动态部分用fast pathway以高帧速率提取空间时序信息。该网络在Kieitics以及AVA 数据集等上达到SOTA准确性。

论文模型架构

我们都知道我们做出一个动作的时候,身体的其他部位几乎不会产生太大的动作,这样就可以看做是静态的,而有动作的部位是快速运动的,这就是动态的。而该篇论文作者受到了灵长类动物视觉系统中的生物学研究启发,如下图所示,在这些细胞中,大约80%的细胞是小细胞(parvo cells),大约大细胞(Margno cells)为20%。小细胞以较高的时间频率工作,对时间变化更加敏感,但对空间细节和颜色不敏感。大细胞提供良好的空间细节和颜色,但时间分辨率较低。SlowFast 框架与此类似。

SlowFast Networks for Video Recognition 论文解读_第1张图片
论文模型结构如下图
slowfast网络分为两种slow pathway与fast pathway,而在其过程中又将fast通道的输出结果通过侧向连接送入slow通道,最终进行结果分类。
SlowFast Networks for Video Recognition 论文解读_第2张图片

Slow pathway 慢通道

从上述的结构图可以看到,当图片里的人运动时,背景沙发之类不变的。slow pathway 采取了低帧频率(low frame rate),高通道数。在论文实验中设置了每秒跳过16帧(τ=16),即若按30FPS每秒的视频,刷新速度大约每秒2帧采样(慢路径采样的帧数为T,原始剪辑长度为T×τ帧)。
##Fast pathway
对于视频中的动态部分,对其采用fast pathway。fast采取高帧频率(High frame rate),低通道。为了在时间维度上有良好表现,fast中使用时间跨度τ/α(α> 1是快速和慢路径之间的帧率比),在实验中α=8时,效果最好。而本文的实验说明了通过削弱快通道的空间信息提取能力,就可以增强其对时序信息的提取能力,实验如下图b所示 ,β=1/6和1/8时,top1和top5分别为最高。又由此受到启发,作者在此基础上进一步减少空间信息(比如把RGB转换成灰度图作为输入,光流等),通过实验可知(如图C),将RGB变成灰度图后,实验准确性几乎不变,而模型复杂度也降低了。由实验结果可知当β=1/8时,在top-5时最好。
SlowFast Networks for Video Recognition 论文解读_第3张图片
SlowFast Networks for Video Recognition 论文解读_第4张图片

Lateral connections

在图像目标检测中,横向连接作为融合不同层次空间分辨率和语义的技术,之前已被应用于融合基于光流的双流网络。在本文中,作者将每个阶段的快通道特征融合到慢通道中,这些连接这些连接位于pool1、res2、res3和res4之后。但由于两个通道的数据样本形状不同,慢通道的的核的维数为{T, S2, C},分别表示时间、空间和通道大小。步数表示为{{时间步数,空间步数2},而快通道则是{αT, S2, βC}。在论文中采取了三种融合方式:
1.Time-to-channel:{αT, S2, βC}变为{T, S2, αβC},即将α帧压缩为1帧;
2.Time-stride-sampling:对fast通道的时间步数进行采样:{αT, S2, βC}变为{T, S2, βC};
3.Time_strided convolution:对FastPathway进行5x1x1的3D卷积,成 {T, S2, 2βC}
最后作者通过实验说明第三种融合方式效果最好。
##数据集
在论文中主要采用了四种数据集:Kinetics-400,Kinetics-
600,Charades,以及AVA dataset。
在Kinetics-400上取得很好的效果,实验数据如下图:
SlowFast Networks for Video Recognition 论文解读_第5张图片
而在Kinetics-600上的数据如下:
SlowFast Networks for Video Recognition 论文解读_第6张图片
而作者着重在AVA数据集上进行实验得到如下数据:
SlowFast Networks for Video Recognition 论文解读_第7张图片

后续

后面会继续上传相关slowfast的代码讲解以及文章

你可能感兴趣的:(计算机视觉,计算机视觉,网络,深度学习,人工智能)