关于视频理解

video understanding(视频理解)

整理一

整理网站:https://www.zhihu.com/question/64021205

video understanding中的相关领域

  1. video classification :视频分类(最底层)
  2. temporal action proposal/detection:临时行动建议/检测
  3. spatial action detection:空间行动检测
  4. video+language:视频+语言
  5. video QA:视频 QA

video 与 image 的本质差异:
video有temporal information(时间信息)
研究方向(问题定义),方法设计:围绕temporal
temporal information提供temporal context (时序上下文)
好处:帮助对视频的识别和推理
坏处:信息冗余,提高计算量

扩展

  1. 最底层:video classification (视频分类)
  2. 下一个层次:temporal action detection(时态动作检测)
    优秀链接:https://zhuanlan.zhihu.com/p/31501316(Temporal Action Detection (时序动作检测)方向2017年会议论文整理)
    offline detection(离线检测):有整个视频的情况下
    online action detection (在线操作检测):只有到目前为止的视频
    online action detection(在线操作检测)看成action anticipation(操作检测)的一个子问题,也就是预测时间为0的action anticipation
  3. 逐渐火热:spatio-temporal detection\segmentation(时空检测_分段)
  4. 再下一个层次:video+language(视频➕语言)
  5. localization by language(按语言本地化)类似于image上的phrase grounding/object referring(短语接地/对象引用),这个方向刚开始,也许有得做。
    优秀链接:https://zhuanlan.zhihu.com/p/35235732(Video Understanding 新方向介绍:Grounding Activities and Objects by Language in Videos)
  6. video qa区分于image qa,还是它的temporal性质使得信息量增加了很多, 这个层次应该是围绕temporal modeling+language去突破。个人感觉这个层次还有很长的路要走,
    毕竟video的基础设施(classification detection)做的还不够好。

整理二

  1. 视频分析最难的是temporal information modeling(时态信息建模)
    用光流计算量会很大,用RNN做时间信息建模
  2. 现在video captioning(视频字幕)的性能很高,所以论文越来越难。
  3. Video QA刚刚开始,刷性能更容易,从做论文的角度来说,要相对容易一些。

整理三:video understanding 分为下面四类.

  1. video classification(视频分类),或者是action recognition(动作识别)
  2. activity localization(活动本地化)或者是action detection(行动检测):从一个十分钟的视频中找出事件发生的起止时间
  3. video和NLP结合:video caption(视频字幕 ) ,video QA(视频 QA)
  4. video 的 piexl semantic classfication:video semantic segmentation(视频语义分割),也叫作video scene pharsing(视频场景解析)

整理四

video understand(视频理解),是visual analysis(视觉分析)的第三个层次,比较高层次的研究方向。

  1. video classification(视频分类),最基础,属于运动/行为类型。video classification(视频分类)和action recognition(行动识别)有很多重叠
  2. video clips proposal(视频剪辑建议),类似于检测里面的region proposal(区域提案),该方法是将视频中的短片段抽取特征,然后作为candidate送入后面的决策网络
  3. event detection(事件检测),在几十万各种各样的视频中,包含有指定(复杂)事件的一些视频,需要用算法找出最可能包含这些事件的视频。
  4. video captioning(视频字幕),对指定的视频输出一段描述文字。

整理五

整理网址:https://blog.csdn.net/haima1998/article/details/78855026

  1. Video Segmentation(视频分割):长视频复杂,时间序列上将视频分割成单一的clip,再进行处理

  2. Activity Detection(活动检测):在分割基础上,常见应用Temporal Activity Detection(时态活动检测),Activity在时间序列上检测 = Object在图像空间维度上检测

推荐:CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

  1. Video Caption(视频字幕):Image Caption(图像字幕)升级版,
    针对视频生成语句,视频在时间序列上的合理分割,并对每段clip的视觉内容做字幕,再合理整合,难度更大。

推荐:Hierarchical Recurrent Neural Encoder for Video Representation with Application to Captioning

  1. Video Question Answering:是检索,输入的Question是检索的关键词和限定条件,对Video Analysis有很高的要求。

你可能感兴趣的:(论文)