视频时序动作识别(video action recognition)介绍

一、视频时序动作识别算法分类

根据网络的工作方式,可以将视频时序动作识别算法大致分为四大类:

  • 采用2D卷积的方法
  • 采用3D卷积的方法
  • 双流法
  • 引入VLAD的方法

1.1 采用2D卷积的方法

  • 《TSM: Temporal Shift Module for Efficient Video Understanding》算法详解
  • 《TEA: Temporal Excitation and Aggregation for Action Recognition》算法详解
  • 《TDN: Temporal Difference Networks for Efficient Action Recognition》算法详解
  • 《No frame left behind: Full Video Action Recognition》算法详解

1.2 采用3D卷积的方法

  • 《Learning Spatiotemporal Features with 3D Convolutional Networks》(C3D)算法详解
  • 《Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification》(S3D)算法详解
  • 《ECO: Efficient Convolutional Network for Online Video Understanding》算法详解
  • 《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》(P3D)算法详解
  • 《SlowFast Networks for Video Recognition》论文详解
  • 《X3D: Expanding Architectures for Efficient Video Recognition》论文详解

1.2 双流法

  • 《Two-Stream Convolutional Networks for Action Recognition in Videos》(TSN)算法详解
  • 《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》(TSM)论文详解

1.3 引入VLAD的方法

  • 《ActionVLAD算法详解》

二、常用数据集介绍

Sports-1M数据集介绍:
    * 1.1 millions运动视频
    * 487个视频类
UCF101数据集介绍:
    * 13320个视频片段
    * 9.5K训练,3.7K测试视频
    * 视频帧大小320*240
    * 总共101类,内容包含化妆刷牙、爬行、理发、弹奏乐器、体育运动五大类。
    * 每类动作由25个人做动作,每人做4-7组
ActivatyNet数据库介绍

* 人类动作识别数据库
* v1.3版本中有19994段视频,包含200类
* 10024段视频为训练集,4926段视频为验证集,5044段视频为测试集
* 测试集label没有公开,一般就是使用验证集来作为测试集
HMDB51数据介绍
    * 6766个视频
    * 51个动作类别
    * 内容包括人面部、肢体、和物体交互的动作这几大类
Kinetic-400 数据库介绍

* 240k训练视频,20k验证,35k测试
* 400类人类动作类别
* 内容为画画、大笑、拥抱、除草等
* 每个视频大约10秒
* 数据来源于YouTube
Kinetic-600 数据库介绍

* Kinetic-400数据库的扩展
* 600类人类动作类别
* 总共500k段视频
Charades 数据库介绍

* 9848段视频
* 157类室内日常行为
* 多标签
* 每个视频大约30s

其它视频任务介绍请查看-文章<<主流的视频动作类算法任务介绍>>

你可能感兴趣的:(视频时序动作识别(video action recognition)介绍)