李沐AI论文精读笔记——双流网络的开山之作

论文名称:Two-Stream Convolutional Networksfor Action Recognition in Videos
论文下载连接: https://arxiv.org/abs/1406.2199

文章目录

  • 前言
  • 一、摘要
  • 二、引言
  • 三、双流网络的架构
    • 1.Optical flow ConvNets
    • 2.时间流卷积神经网络的两种输入方式
      • 2.1 Optical flow stacking.
      • 2.2Trajectory stacking.
  • 四、 总结


前言

双流网络的诞生是由于卷积神经网络对于局部特征信息比较敏感,但是对于视频信息处理效果并不好,本文作者将网络分为时间流和空间流,空间流处理单帧图片,时间流处理多帧的光流图片,经过一系列的卷积操作,每个分流网络都会得到一个概率值,去加权平均得到预测概率。

一、摘要

作者将卷积神经网络用于视频中的动作识别,难点在于如何将视频中appearance信息(appearance信息包括外表、形状,背景信息等)和motion be-tween frames(运动信息,也就是视频中的时序信息)有效的结合起来。
文章的贡献有三个,一是采用双流的卷积神经网络分别是时间流网络和空间流网络,二是在训练数据集少的情况下,效果也很好,三是在两个数据集上进行合并进行训练(UCF-101和hmdb-51数据集)。

二、引言

Large-Scale Video Classification with Convolutional Neural Networks一文中也使用了卷积神经网络用于视频中的动作识别,以视频帧堆叠作为输入端,得到效果并不好,并没有充分的考虑到运动信息。这是因为卷积神经网络对于局部的特征信息提取表现良好,但是对于运动信息效果并不好。作者的思想启发来自于人类的视觉得到的信息是双向,有时序信息也有静态信息,才有了双向网络的开创。

三、双流网络的架构

李沐AI论文精读笔记——双流网络的开山之作_第1张图片
双流架构分为空间流和时间流,如图所示都是5个卷积层,2个全连接层,1个softmax,也就是我们熟知的Alexnet,空间流的输入端是单个帧,也就是静态的信息;时间流的输入端是多光流图片的堆叠,假如,视频帧长11,得到的光流图是11-1=10,channel就等于2*10=20,(2个维度可以理解为水平和竖直方向上的维度,先是水平方向上的叠加,再是竖直方向上的叠加),最后再经过一个late fusion,预测概率加权平均,得到最终的概率。
hand-crafted的解释
early fusion VS later fusion

1.Optical flow ConvNets

图中是连续的两个视频帧,两个视频帧得到一个光流,(d)和(e)来表示水平和竖直方向上的维度,用来表示运动信息
李沐AI论文精读笔记——双流网络的开山之作_第2张图片

2.时间流卷积神经网络的两种输入方式

2.1 Optical flow stacking.

第一种的光流的叠加方式,就是简单的进行堆叠,不做任何处理,这种方法不会很好的利用光流信息
李沐AI论文精读笔记——双流网络的开山之作_第3张图片

2.2Trajectory stacking.

第二种方法是利用光流的运动轨迹叠加,已知在第一个光流图中的p1点移动到p2时,在下一帧p2点找它在下一帧的对应的位置p3.这种方法很好的利用了光流信息
李沐AI论文精读笔记——双流网络的开山之作_第4张图片
明显第二种的方法更加合理,但是实验结果表明光流的简单堆叠效果优于光流轨迹的叠加,在之后的2015年CVPR中就有人解决了这个问题(作者:王利民老师,论文名称:Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors),采用了光流轨迹的方法,效果提升显著。

四、 总结

1.文章的结论存在相机自带的移动,而不是物体的移动,可采用直接减均值的方法来平衡
2.当我们发现卷积神经网络不能处理运动信息时,我们就教网络自己学习,于是就有了光流图的堆叠,也还是连续帧的图片
3.使用单一的神经网络或许不能够解决问题,当我们使用双流的神经网络的时候,往往会达到互补的作用,效果肯定是优于单个的神经的网络,这样的思路也为我们的研究提供了方向。

你可能感兴趣的:(AI论文精读,网络解析,计算机视觉,深度学习,神经网络)