论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos

**

论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos

**

摘要
主要研究如何使用深度卷积神经网络去做视频里的动作识别,难点在于同时学到appearance信息,又能学到motion信息(appearance信息就是从静止的图像上获得这种,包括了物体的形状、大小、颜色以及整体场景信息;motion信息就是物体之间的这个移动信息)。文章提出双流网络,它是由一个空间流和一个时间流两个神经网络组成的,证实了在即使只有少量的训练数据情况下,一个直接在光流数据上训练的神经网络也能取得很好的效果。

原理
视频可以拆分为时间部分和空间部分。空间流去学习空间特征,时间流去学习运动特征,最后的结果通过late fusion合并(加权平均或者SVM分类)

论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos_第1张图片1、空间流:视频一帧输入,类似图像分类任务,使用ImageNet预训练;
2、时间流:输入是光流,
论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos_第2张图片
(a)(b)分别表示前后帧,(c)表示他们的光流,每两张图得到一张光流。将光流进行叠加,形成一个张量送到时间流的网络。1和2主要区别是输入维度不同,测试是从视频中等间距的抽取25个帧。
实验
数据集:UCF-101
下图就是时间流和空间流不同的效果
论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos_第3张图片
数据集:UCF-101和HMDB-51
双流网络和其他方法的比较,可以看出效果比较好。
论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos_第4张图片
总结
提出来一个用深度学习做视频分类的方法——双流网络的结构,对之前的方法有改进。启发:当一个网络不能够解决问题时,可以尝试多流网络。
改进:1、时间流若也使用预训练网络是否效果更好
2、尝试更大数据集
光流基于轨迹的方法需要改进

你可能感兴趣的:(论文阅读,论文阅读,深度学习,cnn)