计算机视觉中video understanding领域有什么研究方向和比较重要的成果

转自:https://www.zhihu.com/question/64021205


ideo understand,是属于visual analysis的第三个层次,比较high-level的研究方向。
1)最基础的video classification,从相应数据集来看,比如sport1m,hmdb51,activity-net等,大都属于运动/行为类型的类别,所以,video classification和action recognition有很多的overlap(当然 action recognition 从人的动作监督信息可以分为 skeleton based 和non-skeleton based)
研究人员大多从两方面去展开:
1.c3d,3d卷积同时学习每帧图像上的行为信息和短时间序列上的行为信息。
2.two stream,帧stream+光流stream+ensemble的方法,方别学习帧图像上的行为信息和短时序列上的行为信息。
cvpr17有文章把二者结合也做了文章(其实也没比TSN好)

2)video temporal activity detection,即在时间序列上检测事件的起始时间,主要用于untrimmed video data,数据集比如activity-net有相应的标记信息,即事件的开始和结束的时间点信息。
主要看到过有两类方法:
1.强化学习,从首帧开始往后做识别,强化学习用于学习选择跳过的帧数。
2.video clips proposal,类似于检测里面的region proposal,该方法是将视频中的短片段抽取特征,然后作为candidate送入后面的决策网络

3)event detection,比如trecvid 每年举办的比赛里的multimedia event detection(MED),在几十万各种各样的视频中,包含有指定(复杂)事件的一些视频,需要用算法找出最可能包含这些事件的视频。这其中根据训练数据的数量分为100x,10x,0x,前两者属于non-zero-shot learning,所以一般会使用提取特征+训练分类器的方法去做,做工作的地方会主要在特征提取的环节。后者0x是没有训练数据的,需要从事件的语义信息中去找事件组成子元素(concept怎么翻译 ),然后通过易得的其他数据中训练这些子元素,再去视频中找他们。
这个任务很难,特别是一些很复杂却又不好和相近类别分开的事件(比如med里有个事件是”做木制手艺活”)

4)video captioning,对指定的视频输出一段描述文字。从早期的cnn+rnn的结构,即帧图像特征提取+建立文字序列结构到现在各种新方法的探索,现在已经能做的很不错了。当然仍有很大的空间。类似的topic还有很多,比如video2doc(一段文字描述,如果没记错的话,有这么一篇文章),video2vec,加上seq2seq,又可以转到新的表达形式。


------------------------------------------------------------------------------------------------------------------------------



我觉得video understanding 分为下面四类:

1).video classification ,或者是action recognition. 常用数据集小的有UCF101,HMDB51,中等的有ActivityNet ,Thumos 2014, 大规模的有 Deepmind 的Kinetics,Tewnety-BN的something-something, 谷歌的AVA,当然还有李菲菲的sports-1M。sports-1M 有1百万个视频,但不是人工标注的。 现阶段这个任务的performance 趋于饱和了,ucf101 上 i3d 做到了98%,activityNet 16年 的map 就被liming wang 做到了90+,今年又高了一些。这个任务上的工作已不太好做。这里建议刚入门或者设备不足的先从HMDB和UCF做起。 Sports-1m最好放弃,大的我下载不下来。。。。。

这个任务最好的performance 都是基于two-stream的,two-stream 最大的缺点是要提取光流,而光流是很难实时提取的。还有一类方法就是用3D卷积来取代光流捕捉motion 信息,这种方法performance一般没有two-stream 高 但速度相对来说快一些。

我个人觉得 3d-cnn的参数多 ,拟合能力强,当数据集小的时候拟合的效果很好,如i3d在ucf101上acc 98%, 但是大数据集就不行了,比如 在kinetics上 i3d 还是不如 two-stream(resnet152)。 此外3d-cnn 一个大的缺点是参数多 ,deep 的model size会越来越大,难训也训得慢,msra的 iccv17的p3d 一定程度缓解了这个问题,但在各个数据集上 performance还是不如 two-stream.

顺便吐槽下RNN来捕捉时序信息做action recognition,虽然道理讲得通,但我发现加RNN(LSTM)的做法大多不是很work,提升的很少,比如LRCN等,暂时还没见到用RNN取得一个impressive的performance。欢迎指正。


2).activity localization 或者是action detection.就是从一个十分钟的视频中找出事件发生的起止时间,这个任务基于上面的那个任务,这个的map还比较低,最厉害的应该是iccv17 cuhk的ssn. 还有基于c3D 的一系列工作;R-C3D,CDC. 当然还有又增强学习做的,李菲菲组有一篇cvpr就用了增强学习,但是准确率并不高。 这个任务还大有做头,常用的数据集上thoumos14和activityNet. 以上所说的ssn(pytorch),R-C3D(caffe),CDC(caffe),lifeifei的增强学习(torch) 四个工作都已开源了code.

3) 第三个任务就是video和NLP结合了,如video caption ,video QA, video QA 感觉做的不如video caption 多,caption 这个任务 msra 的meitao 老师做的很多也很好,据说用到了微软小冰里面。

4) 第四个任务就是video的piexl semantic classfication, 比如video semantic segmentation,也叫作video scene pharsing,(视频场景解析)。 常用的数据集有camVid 和cityscape,就是把图片的语义分割拓展到了video.,这个可以用到自动驾驶领域,所以Facebook,腾讯都有做这个任务,iccv17上有一系列他们的工作,貌似idea有一些比较像的地方。估计是英雄所见略同吧。还有一个任务是video object segmentation, cvpr16上提了一个数据集DAVIS。貌似还办了个比赛 DAVIS: Densely Annotated VIdeo Segmentation



博士期间的研究领域比较靠近这个方向,来说一下自己的理解,视频分析从浅到深大概的历史进程是:

  • Video Segmentation

不论是比较传统的光流还是基于anchor的proposal network或者是其他的一些方法,由于长视频本身的复杂性,在时间序列上将视频分割成更加单一的clip再进行下一步的处理都是极有必要的。

  • Activity Detection

在segmentation的基础上,最为常见的一个应用是Temporal Activity Detection,Activity在时间序列上的检测就像Object在图像的空间维度上的检测,也是一个非常重要的任务。

推荐:CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

  • Video Caption

Video Caption是Image Caption的升级版,针对一段视频生成一句(段)描述性语句,不仅要求视频在时间序列上的合理分割,还要求对每段clip的视觉内容做caption之后合理整合,难度更大。

推荐:Hierarchical Recurrent Neural Encoder for Video Representation with Application to Captioning

  • Video Question Answering

前面三点在

@qjzhao
的回答中已经解释得很详细了,由于做的人太多,我也没有办法评价谁是最好的,列出的paper是我觉得还算比较新的,我打算主要讲讲Video Question Answering。

Video QA是很新的一个topic,Video QA是Image QA(也就是常说的VQA)的升级版,它可以看成是一种检索,输入的Question就是检索的关键词和限定条件,但是同时又对Video Analysis有很高的要求。

@ddj
所言,现在的Video QA刚起步,做的人还很少,现在在dblp上能够搜到的论文不是很多,基本上还是在各种新方法的尝试阶段。比如IJCAI 17的 Video Question Answering via Hierarchical Spatio-Temporal Attention Networks ,这篇是比较典型的时空注意力机制的应用,由于视频的时空特性,多层注意力机制的强大表现力是可预见的。另外,SIGIR 17的 Video Question Answering via Attribute-Augmented Attention Network Learning ,这篇文章引入了Attribute概念,加强了frame-level的Video Representation,也同样采用了Temporal Attention的方法;而MM 17的 Video Question Answering via Gradually Refined Attention over Appearance and Motion 这篇文章则通过结合Appearance和Motion两个通道的不同Attention来加强问题和视频表达间的联系,再通过RNN cell的变体AMU来对问题进行处理。现有的Video QA基本都还逃不开spatio-temporal model,还有许多值得探索的地方,随着现在数据集慢慢成熟,可以入场了。



你可能感兴趣的:(deep,learning)