百度顶会论文复现(3):视频分类综述

本节课主要是对视频分类的发展进行了介绍,包括任务与背景,分类方法,前沿进展等。课程地址为:https://aistudio.baidu.com/aistudio/education/preview/502023。

文章目录

    • 1. 任务与背景
    • 2. 视频分类方法
      • 2.1 双流网络方法
      • 2.2 静态图像特征聚合
      • 2.3 3D卷积方法
    • 3. 前沿进展
      • 3.1 高效视频网络
      • 3.2 运动增强的RGB分类
      • 3.3 快慢信息结合网络
      • 3.4 光流表示学习
      • 3.5 时序金字塔网络

1. 任务与背景

这里首先给出了什么是视频分类的定义:将一段视频分类到预先制定类别集合中的某一个或多个。
百度顶会论文复现(3):视频分类综述_第1张图片
然后给出了视频分类的发展历程:分为前深度学习时代深度学习时代
百度顶会论文复现(3):视频分类综述_第2张图片


2. 视频分类方法

视频与图像不同,它由空间维度和时间维度组成。包括静态图像特征,运动特征,音频特征,外部特征等。由于其特征之多和复杂,视频处理可以看作是CV皇冠上的明珠。
目前主要的方法有:双流网络,静态图像特征聚合,3D卷积

百度顶会论文复现(3):视频分类综述_第3张图片

2.1 双流网络方法

借鉴人类大脑处理视觉信息的方式,研究人员设计了全新的网络结构,实现静态图像特征和运动信息统一,互补的提取和分类,主要论文有以下三篇。

NIPS-2014 CVPR-2016 ECCV-2016
百度顶会论文复现(3):视频分类综述_第4张图片 百度顶会论文复现(3):视频分类综述_第5张图片 百度顶会论文复现(3):视频分类综述_第6张图片

2.2 静态图像特征聚合

方法主要是提取视频不同时刻多帧图像的特征,聚合生成视频级特征,进而分类。
百度顶会论文复现(3):视频分类综述_第7张图片
主要代表论文有以下4篇:
首先是用CNN+LSTM提取静态图像特征并构建时序关系,然后进行分类。

CVPR-2015 ICMR-2016
百度顶会论文复现(3):视频分类综述_第8张图片 百度顶会论文复现(3):视频分类综述_第9张图片

然后也有学者对视频图像和光流进行特征提取,也有的学者使用Attention进行最后分类:
百度顶会论文复现(3):视频分类综述_第10张图片
百度顶会论文复现(3):视频分类综述_第11张图片


2.3 3D卷积方法

3D卷积是从水平、垂直和时序三个方向同时提取视频时空特征,但是计算量太大。
百度顶会论文复现(3):视频分类综述_第12张图片
后来又学者借鉴残差结构,降低了3D卷积的计算复杂度,处理时先在图像空间卷积,再在时间维度卷积。
百度顶会论文复现(3):视频分类综述_第13张图片
后来学者又进行了改进,提出了图像+视频联合预训练的方法。
百度顶会论文复现(3):视频分类综述_第14张图片


3. 前沿进展

最新的视频处理方法主要有:高效视频网络,运动增强的RGB分类,快慢信息结合网络,光流表示学习,时序金字塔网络。

3.1 高效视频网络

这是本次课程论文复现里的一篇:ECO网络。
百度顶会论文复现(3):视频分类综述_第15张图片
百度顶会论文复现(3):视频分类综述_第16张图片


3.2 运动增强的RGB分类

这篇论文也是开创性的,避免了光流的计算。
百度顶会论文复现(3):视频分类综述_第17张图片

百度顶会论文复现(3):视频分类综述_第18张图片


3.3 快慢信息结合网络

这篇论文设计了两条通道,快速与慢速通道,降低了计算量。
百度顶会论文复现(3):视频分类综述_第19张图片


3.4 光流表示学习

这篇论文主要工作是把光流信息用网络学习了出来。
百度顶会论文复现(3):视频分类综述_第20张图片


3.5 时序金字塔网络

这也是本次课程需要复现的论文之一,
百度顶会论文复现(3):视频分类综述_第21张图片

最后是未来展望:
百度顶会论文复现(3):视频分类综述_第22张图片

你可能感兴趣的:(百度顶会论文复现,深度学习)