论文介绍Two-StreamConvolutional Networks for Action Recognition in Videos

今天来介绍一下动作识别的另一篇经典论文Two-StreamConvolutional Networks for Action Recognition in Videos

 

这篇文章主要提出了一个双流卷积神经网络,分别从时间与空间角度提取特征进行训练。空间流通过静态视频帧进行识别,时间流则以光流密度为主。此外,文章还指出光流可以有效用于小范围数据的训练并取得较好效果,而应用于两个不同动作分类的数据库的多任务学习则可增加训练数据的数量并进一步提升表现。该结构的提出是基于双流假设:人的视觉中枢包含两个通路,腹流(进行物体识别)和背流(识别运动)(意思就是说这个结构不是瞎试出来的)。

 

那么,首先下图直观表明了提出的网络的结构:

论文介绍Two-StreamConvolutional Networks for Action Recognition in Videos_第1张图片

由输入视频分离出两个特征组,经过训练得出提取特征再经过融合方法得出整个分析结果。这里的融合方法则可以考虑取个平均然后训练一个多类线性SVM。

 

接下来分开来看一下这两部分:

 

1.     光流卷积网络

那么自然是首先需要提取视频的光流信息,有文中提到了很多歌方法,首先比如下图所示的光流堆积法与轨迹追踪法:前者追踪相同位置的点的光流位移,而后者则追踪相同对象的位移;

论文介绍Two-StreamConvolutional Networks for Action Recognition in Videos_第2张图片

除此之外,文中还提到了双流向的光流提取方法,同前向光流类似,不过这里通过反方向计算光流,然后不太理解这种计算方法,看不出依据,大概是我理解错了,不妄加翻译了。

随后提到了把光流均值减到0的一波操作,这样有利于模型更好地利用非线性特性。在文中例子里,光流可正可负,并中心化使其无论朝向哪个方向的运动都会有相同的概率。然而实际中为了达到这一点还需要进行相机位移补偿。论文对此只是做了一个简化操作,也就是把所有的位移都减去了他们的均值向量。

结构方面总结一下,在前面介绍的获取光流信息方法的基础上,对子光流信息集进行了固定大小的重采样并以此作为网络输入。隐层设置保持前述不变。

 

下一节介绍本文提出的时间卷积网络结构同过去的结构表现有什么关系,恩,,,鉴于多数论文笔者都没看过就不瞎笔笔了。

 

随后提到了多任务学习(multi-task learning),这个比较有用。文章提出的双流卷积网络的训练实际上是两个网络的训练,空间网络的训练比较好实现,其实就是图片识别嘛,数据库很多;但是时间网络的训练则有点儿麻烦,因为需要视频数据库,但目前这个东西却比较少,所以提出了多任务学习机制。

文中提出的多任务学习是建立在作者只采用了两个数据库(UCF与HMDB-51)的基础上的,作者给两个数据库分别设计了softmax层在网络顶部,并分别评估其损失,随后将整体训练损失是两个数据库的损失的简单作和并照常进行其他的如反向传播的运算。(名字起得这么高大上其实并没啥创新点)

 

后文提到了实施细节和评估,看了看和普通的神经网络相比没啥亮点,于是就不再提了。

 

当然大佬毕竟还是大佬,能够提出这种双网的卷积神经网络本身就是一种创举,随后经过严谨的科学实验测试并标明这种创新能够实现很好地效果,这个是可复制的,然而文章的这种创新则不是很容易复制。那么不管原文在不同部分的篇幅比例多么偏差,我们把关注点回到作者这个创新的双流神经网络,它的提出,按照作者说的,也是基于生物学的相关理论模仿得到的,这是作者眼中的创新的来源。

 

作者在文末指出,希望进一步扩大模型训练数据库来提升算法表现,不过这显然对算法训练速度效率提出很高的要求。另外,算法缺乏一些state-of-the-art shallow representation,比如局部池化。另外一方面则是清晰的相机补偿,在文中被直接简化了。

 

你可能感兴趣的:(论文介绍,动作场景识别)