视频描述(video caption)历年突破性论文总结

视频描述(video caption)历年突破性论文总结

视频描述

顾名思义视频描述是计算机对视频生成一段描述,如图所示,这张图片选取了一段视频的两帧,针对它的描述是"A man is doing stunts on his bike",这对在线的视频的检索等有很大帮助。近几年图像描述的发展也让人们思考对视频生成描述,但不同于图像这种静态的空间信息,视频除了空间信息还包括时序信息,同时还有声音信息,这就表示一段视频比图像包含的信息更多,同时要求提取的特征也就更多,这对生成一段准确的描述是重大的挑战。
同时本人也写了关于图像描述的总结链接如下:
图像描述历年突破性论文总结:https://blog.csdn.net/sinat_35177634/article/details/88102512
视频描述(video caption)历年突破性论文总结_第1张图片

Sequence to Sequence – Video to Text(2015)

这篇文章是早期经典文章,思路相对简单,如图所示,对视频的特征提取也仅仅对每帧的图像使用CNN网络进行2D特征的提取,同时加入了另外的特征——光流图像提取的特征,因为可以更好的表示视频中的动作,整个视频encoder和decoder过程在一个LSTM模型上完成,考虑到了视频的时序特征,因此使用LSTM网络来顺序进行图像特征的输入,用隐含层来表示整个视频,再接着输入单词来逐个预测单词,之后是详细介绍。
视频描述(video caption)历年突破性论文总结_第2张图片
如图所示,LSTM使用两层的栈式结构,但本人觉得使用正常的LSTM模型也没有什么区别,可能实验证明效果更好吧,毕竟深度网络这东西原理也解释不清楚。
视频描述(video caption)历年突破性论文总结_第3张图片
作者对原始图像和光流图像单独进行处理,在预测每个单词时对两个模型生成的概率进行加权平均:

其中Prgb是原始图像生成的单词为y’的概率,Pflow是光流图像生成的单词为y’的概率,加权平均为总概率,这样一步一步预测出完整的描述。
由于是早期的文章,忽略了很多东西,比如在image caption中有显著贡献的attention机制,更好的时序特征提取技术,其他的特征比如语音、背景音等特征。可以说这篇文章极大的依赖LSTM网络本身的性质,时序特征也就是image feature之间的关联也靠模型自动学习,包括最终的视频特征和之后单词之间的关联也都靠LSTM模型自动学习,作者只加了一个光流图像特征进行加权平均。但由于是早期的文章,在三个数据库:MSVD、MPII-MD和M-VAD上当时效果较好。具体实例如下:

论文链接:https://arxiv.org/pdf/1505.00487.pdf

Video Description Generation Incorporating Spatio-Temporal Features and a Soft-Attention Mechanism(2015)

这篇文章借鉴了图像描述中的attention机制,不过和图像描述中对不同区域做attention不同,文章是对视频沿时间顺序不同特征做attention,具体如图所示:
视频描述(video caption)历年突破性论文总结_第4张图片
先对视频提取特征为V,在每次预测单词时使用attention机制,计算每个特征的权重,加权和代表视频,作为输入来预测当前单词。
attention已经是在图像描述应用广泛的技术了,针对视频主要是对视频特征的提取怎样可能更好的代表视频,文章使用了两种特征提取方法:一是针对每帧来进行2D特征的提取这里用到了GoogleNet网络;二是提取3D特征,如图:
视频描述(video caption)历年突破性论文总结_第5张图片
首先输入的视频尺寸要固定,先对每个grid提取三种人工特征:HOG、HOF、MBH。再将特征的3D快来输入3D卷积网络中,然后得到特征。这种提取时序特征的方法比较拙劣,没有用到2014年提出的C3D网络,如果使用这种模型效果可能更好。
作者为了验证3D特征的效果和attention机制的效果,做了不同的实验,如图:
视频描述(video caption)历年突破性论文总结_第6张图片
实验证明使用2D特征和3D特征的融合,还有加入attention机制效果最好。
这篇文章使用attention机制还是相对粗糙,特征提取技术也有待改进,同时没有用到其他的特征信息,如声音信息和meta信息。
论文链接:https://arxiv.org/pdf/1502.08029v1.pdf

接下来2016年的两篇文章是数据库MSR-VTT竞赛前两名的文章,我们也可以看出竞赛使用的方法和上述论文提出方法的不同,竞赛使用的方法使用尽可能多的模型和特征,再对这些特征进行融合,或者对模型生成的结果进行筛选,得到最好的,总的来说就是用数量来弥补质量,这和在顶会上提出的创新方法,尤其是对模型方法的创新有很大的不同,具体论文如下:

Frame- and Segment-Level Features and Candidate Pool Evaluation for Video Caption Generation(2016)

这篇文章提出的方法就是用不同的模型在不同种类的特征上进行训练从而来生成视频的描述,再使用一个评估网络来评估生成句子和视频特征之间的关联性,选择关联性最好的为最终的视频描述。
选择的特征有三种:第一种是针对帧的特征,使用GoogleNet来提取特征;第二种是基于视频片段的特征,这里文章使用了两种特征,人工特征dense trajectories和使用C3D网络提取的特征;第二种是数据库给出的视频类别信息,一共20类。
在decoder上使用了LSTM的改进版,深层的LSTM,并且一个模型使用两种特征来进行训练,一种来init,另一种来persist。
评估网络如图所示:
视频描述(video caption)历年突破性论文总结_第7张图片
对于生成的句子W,使用两个CNN来提取特征,合并后和视频的特征来计算相似度,从而选择最相似的句子。
使用的模型和对应的特征如下:
视频描述(video caption)历年突破性论文总结_第8张图片
对于前五种模型生成的句子使用评估网络来评估,选择最好的描述得到更好的效果。
论文链接:https://arxiv.org/pdf/1608.04959.pdf

Describing Videos using Multi-modal Fusion(2016)

这篇文章使用了多种类型的特征,比如:图像特征、视频特征、环境音特征、语音特征和种类特征,将它们融合作为视频的表示,具体如图:
视频描述(video caption)历年突破性论文总结_第9张图片
其中的的fusion network实际上是单层的FC网络,即对各类型的特征进行加权平均,在输入到decoder的LSTM模型来生成描述。
使用的不同特征和最终得到的结果如下:
视频描述(video caption)历年突破性论文总结_第10张图片
综合来看,使用video+aural+meta特征效果更好。
这篇文章最具启发性的地方在于发现了不同类型的特征适用于不同类型的视频,因为MSR-VTT数据库具有20种视频,是更加通用而不是专业具体的视频,因此视频中的场景也各不相同,比如aural特征更适用于乐器类的视频,video更适用于视频中和具体动作,speech更适用于对话类的视频,image特征更适用于场景背景相关的视频,这也是为什么加入meta种类信息结果得到提升的原因,相当于针对不同类型的视频对不同的特征有一定的加权。
论文链接:http://jin-qin.com/papers/Describing_Videos_using_Multi-modal_Fusion.pdf

Multi-Task Video Captioning with Video and Entailment Generation 2017 ICCV

这篇文章的主要贡献是提出了使用多任务学习来优化视频描述任务,作者认为单独使用一个模型来训练视频描述任务不能很好的提取时序特征也就是动作序列,同时他把视频描述当成了一个推演过程,通过视频特征序列来推演出对应的描述,给出前提(视频特征)得出结果(描述),作者认为单任务单模型不能很好的拟合这种推演过程。因此他提出了用多任务来弥补视频描述中缺乏时序表示和逻辑推演这两方面,具体如图:
视频描述(video caption)历年突破性论文总结_第11张图片
作者分成了三个任务:一是视频帧预测,使用前一部分的帧来预测之后的帧,以此来使encoder能更好的提取出视频的时序特征;二是entailment generation(我也不知道怎么翻译合适),该任务是给出前提来推测是结果,输入输出均为文字序列,从而来提高decoder的逻辑推演能力;三是视频描述,视频描述中的encoder使用视频帧预测的encoder,decoder使用entailment generation中的decoder,从而达到三个任务共享参数的效果。
同时,三个任务的模型是相似的,均是使用双向LSTM加上attention机制,如图所示,attention中的权重也是可以共享的也可以独立使用。在训练过程中设置一定比例循环的训练三个任务。
视频描述(video caption)历年突破性论文总结_第12张图片
实验结果当然是三个任务都训练是最好的了,同时高出之前的方法,并且在提升video caption的同时还能提升entailment generation的性能。
这篇文章模型是没有创新的,还是2015年提出的attention加LSTM模型,每个任务的模型还有视频提取特征方法还有待提升。主要贡献是提出了多任务学习方法,其实个人认为还是加入更多的模型,更多的数据从而得到更好的特征来提升效果。以后的实验可以考虑使用相关联的任务来辅助,从而实现性能的提升。
论文链接:https://arxiv.org/pdf/1704.07489.pdf

Weakly Supervised Dense Video Captioning 2017 CVPR

接下来这篇论文就比较厉害了(同时比较复杂),可以说开启了视频描述的新篇章,基于区域序列的多视频描述生成,因为作者觉得视频包含的信息很多,一句话是描述不清楚的,视频中也包含这各种对象,每个对象有着不同的动作,因此提出了基于区域序列的视频描述,同时这些描述要保证多样性,全方位的描述整个视频。如图,对同一个视频,先提取出不同的区域序列,对每个区域序列生成一句描述。至于为什么是弱监督学习,因为现在的视频描述数据库没有针对区域序列的描述数据,只有视频级的描述,要用视频级的描述来学习区域级的描述,因此是弱监督学习。
视频描述(video caption)历年突破性论文总结_第13张图片
作者的方法分为三个部分,Lexical-FCN,区域序列生成和描述生成如图:
视频描述(video caption)历年突破性论文总结_第14张图片
模块一:Lexical-FCN模型
在Lexical-FCN模型部分主要是训练每帧也就是每张图像中的区域和词汇库之间的关系,如图:
视频描述(video caption)历年突破性论文总结_第15张图片
一个图像中的每个区域对应多个描述词汇,最终可以得到每个区域对每个单词的概率,至于词汇库是从视频级的描述中得到的,出现5次以上的词加入词汇库,FCN为全卷积网络,从VGG和ResNet-50改的。至于区域的划分因为没有真实划分就是bounding box,于是使用了目标检测中一步检测方法中的anchor,在FCN输出的最后一层,使用anchor来粗略的划分出16个区域。这个模块主要是为下一个模块,区域序列生成来服务的。
模块二:区域序列生成:
这个模块使用了submodular maximization这一数学方法,因为每帧图像有16个区域,将视频提取为30帧,有16^30种区域序列,我们要选择其中一部分序列来生成描述,选择标准如下:

在所有序列中选择A*,使其和视频特征Xv关联最大。R具体如下:

是对每个序列A的函数f的线性组合,f要求三方面:informativeness(信息)、coherence(连贯)和diversity(多样)。其公式分别为:



可以看到第一个模块在这里用到。
submodular maximization可以看成是使用逐步贪心来得出区域序列,在每个时间加入区域r的收益为:

于是在每步选择使其增量最大的r,对于参数权重W有:

看公式应该是防止过拟合(这快的数学方式方法太多了我也不太懂)。
总之,使用逐步贪心的方法提取了即包含信息又连贯,同时区域序列之间的差异较大(多样性)的区域序列。
模块三:生成描述
还是使用双向的LSTM,但这里的模型加了小技巧:

加了类型信息c,使针对不同类型的序列生成描述,c相当于先验知识,使生成效果更好。
模块二和模块三如图表示:
视频描述(video caption)历年突破性论文总结_第16张图片
第一个区域序列是最有信息量并且连贯的,生成描述S0,之后的序列在保证连贯性的同时要和之前生成的序列差异越大越好,从而保证了多样性。
在评估阶段,分为两方面,一方面使用信息量最多的S0来比较单句的描述结果,结果其实略好于上一篇多任务的结果;另一方面就是评估多视频描述的结果,这些描述都不错,同时有较好的多样性。
这篇论文主要创新在于开启了基于区域序列的描述,比较之前的方法针对整个视频的描述太粗糙,区域序列的描述更加精细化,更富有信息量,可以遇见之后研究区域序列的描述将是一个大方向。就像之前的图像描述,对整个图像均分,到之后使用目标检测得到区域,也是更加精细化。
但这篇文章问题主要体现在两方面:一方面区域序列的提取方法过于复杂,并不是端到端的方法(也是本人数学基础太菜了看不太懂);另一方面,对单句视频描述,S0毕竟只是一个区域序列的描述,并且每帧还分了16份,所以并不能表示整个视频的信息,这也是为什么没有和多任务方法拉开差距的原因。
论文链接:https://arxiv.org/pdf/1704.01502.pdf

你可能感兴趣的:(论文研读,计算机视觉)