双流网络简介

目录

0.简介:

1.结构:

空间部分:

时间部分:


0.简介:

双流网络是视频理解里的开山之作,为什么这么说呢?因为在之前的视频理解里,使用深度网络并没有取得很好的结果,甚至说还不如之前手工特征的效果好,而双流网络则证明了,并不是深度网络不好,而是对深度网络的使用方式不对。而双流网络的有效性同时也告诉大家,当深度网络不work的时候,可以尝试引入一些先验信息,这样可以简化任务,得到很好的效果。

1.结构:

双流网络简介_第1张图片

作者认为,视频可以很自然地分解成空间和时间2个部分,空间部分主要是一些外观上的信息,场景和物体,而时间部分则是关于运动信息的,描述物体是如何运动的,所以双流网络就被设计成了如图所示的网络架构,空间流学习空间信息,时间流学习时间信息,最终使用late fusion形式,将两个网络的结果做平均得到最终的输出,也可以用得到的结果丢入svm做多分类,效果更好。

1.1 空间部分:

使用的是一个变种的alexNet,使用视频帧一帧一帧的做输入。为什么空间部分有效呢?因为人的动作其实和场景中出现的物品有很大的关联,比如打网球,弹钢琴等等,识别出准确的物体对于识别动作行为是非常有帮助的。

双流网络将时间和空间分开设计的一个好处就是,空间部分可以使用ImageNet的数据集进行预训练,再在视频的数据集ucf-100上做微调,这一部分和图片分类很像,就不赘述了,文章主要聚焦在了时间信息上。

1.2 时间部分:

这部分主要讲述了2个问题,1.什么是光流,2.如何构造时间流 

双流网络简介_第2张图片

光流,顾名思义,就是光的流动方向。在数学上表示光流的时候,一般把光流拆分成了2个方向:水平方向上的位移(图d),竖直方向上的位移(图e)。

输入:2帧,输入维度是240*320*3

输出:前后2帧得到一张光流图240*320*2(水平+竖直就是2),每个像素点都有值。

那在如何使用光流的时候,作者也借鉴了之前手工特征的方法,使用了多张光流图叠加在一起。

 

双流网络简介_第3张图片叠加方式也有2种选择,在同样的点的位置上去取光流,另一种则是利用光流的轨迹信息,已知上一张图的点p1移动到了p2,那么在下一张光流图里则去问p2去了哪里,虽然第二种方式听起来更合理,充分地利用了光流的信息,但是第一种方式其实结果比第二种要好一点。

3.测试:

空间:无论视频多长,等间距的去取25帧,每一帧去做ten crop:先取四个边角,再取中间,再将图片反转,得到另外5个。一个视频25帧就会得到250个crop,每张图都会通过2d的空间流的神经网络得到一个结果,然后将这250个结果取平均,得到空间流的结果。

时间:同样是取25帧,然后从这25帧的位置开始向后连续的取11帧,抽取光流(10个),然后将光流输入时间流的神经网络中,同样地得到时间流的结果。

最终将这空间和时间得到的结果做late fusion,取平均得到结果。

4.实验:

双流网络简介_第4张图片

实验结果从时间空间2个维度来进行消融实验。

空间上:结果如图左,一种是直接进行微调,一种是固定住骨干网络,只对最后一层进行微调,dropout很大是为了解决过拟合的微调,结果符合预期。

时间上:结果如图右,以只用1个光流做baseline,结果发现,光流数越多,效果越好,使用光流的轨迹信息,结果并没有变得更好,使用双向网络,效果略微有所提升。

参考:双流网络论文逐段精读【论文精读】_哔哩哔哩_bilibili

你可能感兴趣的:(深度学习,经典算法介绍,算法)