CNN(卷积神经网络)在视频动作分类中的应用

    • 简介
    • Large-scale Video Classification with Convolutional Neural Networks
      • Fusion Method
      • Multi-resolution CNN
    • Two-Stream Convolutional Networks for Action Recognition in Videos

简介

最近接触了一些卷积神经网络的只是以及其在视频动作分类中的应用,本文对其进行一下小结。CNN在图像任务,比如ImageNet上取得很好的效果,但是在视频相关的任务中还没有太大的进展。取得比较好效果的有两篇文章,一篇是Stanford发表在CVPR2014上的《Large-scale Video Classification with Convolutional Neural Networks》,另外一篇是NIPS2014上的《Two-Stream Convolutional Networks for Action Recognition in Videos》,下面分别介绍一下两篇文章的大致内容:

Large-scale Video Classification with Convolutional Neural Networks

在这篇文章中我认为其主要的贡献有两点:一个是实验了不同的卷积神经网络的结果,从而在CNN中表示出视频的时间信息,二是介绍了一种multi-resolution的CNN结构,从而减少了网络的参数,加速了训练的时间。

Fusion Method

这部分内容比较了如图所示的四种不同的CNN结构:

  1. single frame:就是把一帧帧的图像分别输入到CNN中去,和普通的处理图像的CNN没有区别。
  2. late fution:把相聚L的两帧图像分别输入到两个CNN中去,然后在最后一层连接到同一个full connect的softmax层上去。
  3. early fution:把连续L帧的图像叠在一起输入到一个CNN中去。
  4. slow fution:和上边的CNN的区别在于一个卷积核的输出不是一个二维的图像,而是一个三维的图像。下面一张图很好的解释了这种区别:

这个图解释了几种不同的卷积的区别,来自《C3D Generic Features for Video Analysis》一文。 
CNN(卷积神经网络)在视频动作分类中的应用_第1张图片

Multi-resolution CNN

文章的这部分介绍了一种简化神经网络结构和加速训练的CNN结构,如图所示:

CNN(卷积神经网络)在视频动作分类中的应用_第2张图片

简单来说,对于一张大的输入图像,比如为178 * 178大小,我们分别截取其中间的89 * 89部分和将其缩小成89 * 89大小从而分别作为两个卷积层的输入。

Two-Stream Convolutional Networks for Action Recognition in Videos

这篇文章的内容相对比较简单,其设计的CNN的结构如下所示:

这个其实就是两个独立的神经网络了,最后再把两个模型的结果平均一下。上边一个就是普通的single frame的CNN,而且文章当中提到了,这个CNN是在ImageNet的数据上pre-train,然后在视频数据上调整最后一层(直接把其他人训练好的CNN如vgg拿来微调一下最后一层我想也是可以的罢?)。下面的一个CNN网络,就是把连续几帧的光流叠起来作为CNN的输入,这个倒是没有在其他地方看到过似乎。 
另外,这个文章中提到的有意思的一点就是multi-task learning来克服数据量不足的问题。其实就是CNN的最后一层连到多个softmax的层上,对应不同的数据集,这样就可以在多个数据集上进行multi-task learning。

你可能感兴趣的:(cnn,视频分类)