(论文总结)Compressed Video Action Recognition

(论文总结)Compressed Video Action Recognition_第1张图片

代码地址:https://github.com/chaoyuaw/pytorch-coviar

 

一、摘要

首先,深度神经网络尽管在图像任务中表现出了非常好的效果,但是在视频任务中由于存在时序问题,它有时候并不能发挥出最好的作用。传统的双流法采用光流来提取视频帧之间的运动差异信息,但是是针对整个视频来提取的,但是这里有个问题,视频在传输和读取的过程中占据了非常大的内存,只有通过编码(H264)将原始视频先压缩成IBP帧,降低视频大小(通常可以将200多g的视频压缩为1g的文件),用的时候再根据IBP帧解码出原来的大小。光流的方法是对解码后的视频重新提取时序特征来处理的,那为什么不直接使用压缩视频的IBP帧呢?因为IBP帧其实就包含着时序特征,也叫做运动向量(MV)。本文就是针对将光流替换为MV做出一定的实验。

二、主要贡献:

(论文总结)Compressed Video Action Recognition_第2张图片

(1)如上图,本文提出的方法在速度和精度上有着非常好的表现。首先,其速度快于2D的ResNet-152方法,更是数倍快于Res-3D,C3D,I3D。同时,它也可以保证精度不输于I3D等众多基于3D卷积的方式。重要的一定是:由于计算光流十分耗时,视频压缩中的Motion Vector一定程度上与光流相似,因此理论上可以不利用光流的情况下,也能保证一定的精度。(但是在实验中发现,MV存在的噪声和不精确问题有些严重)

(2)本文的主要的探究点有两个。一是如上图所示,在MP4视频格式中打破I-frame和P-frame的逐帧依赖方式,这样跟有利于网络的训练。二是探究多特征融合,特征上利用积累的Motion、Residual和I-frame 可以在UCF-101上达到90.8%的精度,远超I3D 84.5%的精度;再利用上光流可以达到94.9%,也优于I3D的 93.4%。

三、主要内容

1、论文中首先给了一个传统方法与文中方法的对比如下:

(论文总结)Compressed Video Action Recognition_第3张图片

意思就是说,传统结构首先将压缩过的视频进行解码然后喂给网络,但文中提出的意思是不解码,直接用编码视频来作为时序信息喂到网络中

2、直接用MV存在的问题:

(1)I是关键帧,B是前后帧,P是只依赖前一帧,那么训练的时候如果直接使用P帧会出现问题,每一个P都依赖前一帧,作者采用了多种融合策略都没有达到好的效果,猜测可能需要对P进行一定的处理来增加P帧相对比其他帧的差异性来提高训练效果。

(2)MV的训练程度相比较于光流还是提升不大,光流在当时还不能完全被取代,所以需要对MV进行一定的处理才能显著提升效果。

3、本文的解决方案:

(1)针对2中的(1)文章采用累加的方法,这样就会让每一P帧只依赖于前面的I帧而非前面的P帧。

下图为累加残差从而使得P帧只依赖于前面的I帧的操作图:

(论文总结)Compressed Video Action Recognition_第4张图片

下图为采用累加的方法产生的效果。

(论文总结)Compressed Video Action Recognition_第5张图片

 

(2)对于MV的处理:

(论文总结)Compressed Video Action Recognition_第6张图片

上图的而这段话简要的说就是首先知道当前P帧处的MV(D)和累积的从I帧到P帧的残差(R),这样话P帧只由D和R来决定,也就是由I帧和从I帧到P帧的累计残差来决定(不得不吐槽一下你为啥非要用这么复杂的公式表达呢)然后就得到了下面的示意图:

(论文总结)Compressed Video Action Recognition_第7张图片

上图左面就是原始的方法,就是每一个P帧只由前一帧来决定,得到的残差效果很差劲,而采用了累计的方法以后的效果如右图所示,第一:每个P帧都依赖最前面的I帧,第二:P帧的残差效果明显,方便训练。

 

以上是针对输入模块的MV的改进,下面就是他提出的网络,就是针对双流处理的网络变了一下。。。

 

下图模型结构图。模型的输入将是一个I-Frame然后跟着T个P-Frame。认为I-Frame更为重要,为了能够节约计算,采用了ResNet-152来获取I-Frame的特征,用ResNet-18来获取MV和Residual的特征。另外对于是Video的任务,采用了Temporal Segment Networks。

(论文总结)Compressed Video Action Recognition_第8张图片

 

下图是TSN的模型框架,本文将其中的Spatial ConvNet 替换为ResNet-152,使用I-Frame作为输入,获取到激活函数前的特征,然后P-Frame的MV 和Residual输入到ResNet-18获取激活函数前的特征,然后经过分别经过两层FC和softmax获取三个模型产生的平均分数和预测的类,三个分数经过加权相乘获得最终的混合分数和最终预测的类。

(论文总结)Compressed Video Action Recognition_第9张图片

##参考博主的补充

(1)翻开源码时发现Residual的特征计算方式与论文所述有偏差,代码中计算的好像是T帧与对应I帧在通过Motion Vector变化位置后的值得差异,并不论文中所述T帧、T-1帧.....与I帧计算残差之和。 个人感觉代码部分应该是合理的,论文可能所述有偏差。

(2)

(论文总结)Compressed Video Action Recognition_第10张图片

 

除论文外参考文章:

(1)https://zhuanlan.zhihu.com/p/51790367

(2)https://zhuanlan.zhihu.com/p/38626319

 

你可能感兴趣的:(深度学习,深度学习,计算机视觉)