(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第1张图片

论文地址:https://arxiv.org/pdf/1604.07669.pdf

代码地址:https://github.com/zbwglory/MV-release

 

论文效果:

基于双流网络,在精度保证损失很小的的情况下在UCF101上的FPS达到390.7(双流的FPS为14.3)

 

要解决的核心问题:

论文主要是基于双流网络来做的改进,双流网络有以下部分缺点:

(1)光流(optical flow)占据的最大的运算量,并且由于运算量大,导致模型没有实时性,如下图为14.3。

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第2张图片

 

主要的改进:

针对上述(1)的问题,文中作出了以下分析和优化:

(1)利用压缩域的知识:MV(motion vector 运动向量),来替换光流。但是MV相比光流有两个问题:一是缺乏精细的结构,二是存在噪声和不准确的运动模式。直接用MV训练出的结果精度反而降低了。如下图:

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第3张图片

(2)采用知识蒸馏的方式,将光流作为teacher,这样就可以融合二者的有点,会得到比较好的效果。学习的时候采用了三种策略如下图:

文章思想核心:

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第4张图片

 

(a)teacher和student网络一样,直接用teacher,即光流训练出的网络参数来初始化MV网络。

(b)由于教师网络是光流训练好的,学生网络是MV训练的,二者输入不一样,但是要达到一样的输出效果的话需要改进一下。提出了交叉损失来最小化教师网络和学生网络的损失,k是输出维度:

其中:

 

对教师和学生的最后一个全连接层都除以Temp(Temp是通过不断实验得到的最优值),再进行softmax,二者再交叉相乘求损失,这个损失用于更好将教师网络和学生网络结合。下面还需要介绍一个除了教师监督损失以外的另一个损失函数:

这是最小化的学生输出和教师评价之间的损失函数,S代表学生的输出,Q代表教师网络评价的真实标签。

 

这两个损失用加权和的方式进行融合:

(c)用a和b结合起来使用。

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第5张图片

这是三个策略的表现效果。

 

论文结构:

论文提出结构如下:(基于双流网络)

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第6张图片

这是基于双流网络的架构,把光流输入改为了MV输入,最后的fc8的融合方式跟双流一样,加权平均。

 

实验环节:

1、由于视频数据比较少,导致训练的模型很容易过拟合,所以首先采取了数据增强的方法。比如随机裁剪、翻转。在训练的时候对RGB和MV进行裁剪,测试的时候就不需要裁剪,直接代入检测。

2、对比了EMV(知识蒸馏方法用光流对MV增强)和MV,实验结果如下

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第7张图片

最终在UCF-101上的实验效果如下图,EMV与RGB的网络能够在精度损失很小的情况下,显著的提高FPS。

(论文总结)Real-time Action Recognition with Enhanced Motion Vector CNNs_第8张图片

 

结论:

MV代替光流可以减少模型额外的计算量,显著提升运算速度。文中提出的三种策略对于降低MV的噪声和准确度有着很大的帮助。

本文基于双流网络就是针对输入方面作出了很大的改进,将光流替换为改进的MV(EMV),从而达到保证精度的情况下模型能够实时的效果。这篇文章核心思想感觉就是理解那三个策略以及融合的时候两个损失函数怎么计算,代码方面也直接看这部分就行。

 

除论文外参考文章:

1、https://zhuanlan.zhihu.com/p/31949305

2、https://blog.csdn.net/AUTO1993/article/details/78315175

 

 

你可能感兴趣的:(深度学习,人工智能,深度学习)