视频理解论文综述

视频理解论文综述_第1张图片

A Comprehensive Study of Deep Video Action Recognition

TSN网络是一个很经典的网络,如果不知道的自己查...

基于TSN的改进论文分了三大类

 

 

其他资料:

Temporal  Segment  Network

 

TSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多,它们都有个通病,就是需要密集采样视频帧,比如 C3D 中使用的是连续采样间隔的16 frames,这样当输入是个Long视频,计算量很庞大~ 故文中就提出了 稀疏时间采样策略

Pros:

通过 Sparse temporal sampling 可以扔掉很多冗余帧,初步满足实际应用的real-time要求

Cons:

  1. 对于Temporal特征欠考虑,更多地是 focus 在 apperance feature
  2. 文中无对比超参K值(Default K=3)的选取对结果的影响 及 Segment内部采样小片策略

Temporal Relation Network

致力于探索时间维度上的关系推理

通过时间维度上 Multi-scale 特征融合,来提高video-level鲁棒性

Pros:

更鲁棒的 action/activity 时空特征表达方式,即 MLP fusion + Multi-scale。

Cons:

Spatial 和 temporal 的联系还是太少,只在最后 embedding feature时用MLP融合了一下~~另应对比不同的fusion方式,如LSTM/GRU与MLP的性能差异~

ECO

使用 TSN 稀疏采样来减少不必要的冗余帧的前提下,对采样帧的 mid/high-level 进行 spatio-temporal 特征fusion,故比 TRN 只在最后特征层来做 temporal fusion的时空表达能力更强~

时空建模新文解读:用于高效视频理解的TSM

文章 first 提出了 temporal shift 这个视角(感觉像是搞硬件底层或芯片的人来跨界融合搞算法一样~~),通过人为地调度 temporal channel 的顺序让网络学到其交互的时空特征,非常地高效实用。

视频理解 S3D,I3D-GCN,SlowFastNet, LFB 参考也是这篇

slowfast 是 slow提取空间信息,有些不变化的信息,fast 提取动作信息,即按照频率的不同来分别提取

lfb 是 使用了个bank来存储  短的video feature 聚合成 long video feature (用了non-local网络聚合效果好)

 

CoST 

构造了Collaborative SpatioTemporal (CoST) operation,仅仅用2D conv即可捕获时空信息。

视频理解论文综述_第2张图片

视频理解论文综述_第3张图片

视频理解论文综述_第4张图片

视频理解之CoST, STM, E3D-LSTM 参考

 

Shift思想在视频理解中的近期进展

ICCV(CVPR) 2019 video action classification

综述论文介绍:MIT写的 Video Action Understanding: A Tutorial

部分参考:

视频理解论文综述_第5张图片

各个任务的不同点

视频理解论文综述_第6张图片

AR问题:视频主流问题模型

视频理解论文综述_第7张图片

视频proposal提出问题:侧面的视频问题模型

存在 context和action frame 分不清的问题,主要解决这个问题,以及怎么更快更好的得到 action边界,即proposal也很重要 

对应目标检测 image

视频理解论文综述_第8张图片

行为检测问题:不仅需要 得到proposal 还需要知道 class 的模型

弱监督和强监督

对应 目标分类问题 image

视频理解论文综述_第9张图片

 

时空object检测问题模型:

视频理解论文综述_第10张图片

 

你可能感兴趣的:(多媒体多模态)