Delving Deeper into Convolutional Networks for Learning Video Representations

1 INTRODUCTION

       视频分析和理解是计算机视觉和机器学习研究的重大挑战。虽然以前的工作传统上依赖于 hand-crafted and task-specific representations(Wang et al.,2011;Sadanand&Corso,2012),但设计通用视频表示的兴趣越来越大,可以帮助解决视频理解中的任务,如人类行为识别,视频检索或视频字幕(Tran et al,2014)。

     二维CNN已经在诸如分类或检测的静态图像任务中展现了最先进的表现(Simonyan&Zisserman,2014b)。然而,这样的模型丢弃了时间信息,时间信息已经显示在视频中提供重要的线索(Wang et al,2011)。另一方面,RNN已经证明了这一能力,理解诸如语音识别(Graves&Jaitly,2014)或机器翻译(Bahdanau等,2014)等各种学习任务中的时间序列。因此,近来提出的利用循环和卷积的循环卷积网络(RCN)​​Srivastava等,2015; Donahue等,2014; Ng等,2015),用于学习视频的表示。这种方法通常通过在视频帧上应用2D CNN,然后将CNN激活馈送到RNN以便表征视频的时间变化 来提取“视觉感知”

      以前关于RCN的工作倾向于关注从2D CNN顶层提取的高级视觉感知。(不懂)然而,CNN通过池化层逐层建立空间不变性(LeCun等人,1998; Simonyan&Zisserman,2014b)如图2所示。虽然CNN倾向于在顶层中丢弃局部信息,但是帧到帧的时间变化是平滑的。(不懂)视频块的运动往往局限于局部邻近帧(Brox&Malik,2011)。(不懂)因此,我们认为目前的RCN架构不太适合捕获精细的运动信息相反,他们更有可能专注于全局外观变化,如shot transitions。为了解决这个问题,我们引入了一种新颖的RCN架构,它不仅在二维CNN顶层上应用RNN,而且在中间卷积层上应用RNN。卷积层激活或卷积特征图保留了输入视频的更精细的空间分辨率,用于提取局部时空模式

       然而,将RNN直接应用于中间层卷积特征图,不可避免地导致了由于卷积特征图大小,表征输入到隐藏变换的大量参数。另一方面,卷积特征图保留了帧空间拓扑。我们提出通过在RNN单元中引入稀疏性和局部性来减少内存需求来利用此拓扑。 我们扩展GRU-RNN模型(Cho et al,2014),并更换用卷积替换完全连接的RNN线性乘积运算。
因此,我们的GRU扩展直接在模型结构中编码视频之前的局部性和时间平滑度。(不懂)
       我们使用Soomro等人(2012)的UCF101人体行为识别 以及Chen&Dolan(2011)的YouTube2text视频字幕数据集评估我们的解决方案。我们的实验表明,利用多种分辨率的“感知”来建模时间变化,可以提高比基准模型的性能,相应的动作识别增长为3.4%,视频字幕的增长为10%。

2 GRU: GATED RECURRENT UNIT NETWORKS

       在本节中,我们将回顾特殊类型的RNN--GRU网络。RNN模型可以应用于具有可变长度的输入序列。它定义了一个 recurrent hidden state ,其每次激活都取决于之前时间的激活。具体地说,给定序列X =(x1,x2,...,xT),时刻t,RNN隐藏状态被定义为ht =φ(ht-1,xt),其中φ是非线性激活函数。RNN由于梯度爆炸或消失而难以训练(Bengio等人,1994)。然而,诸如LSTM(Hochreiter&Schmidhuber,1997)或GRU(Cho等人,2014)的RNN的变体,已经经验地证明了其在机器翻译或图像/视频字幕生成等各种任务中,建模long-term temporal dependency的能力。在本文中,我们将主要关注GRU网络,因为它们具有与LSTM相似的性能,但是具有较低的内存需求(Chung等,2014)。
        GRU网络允许每个循环单元自适应捕获不同时间尺度的依赖关系。GRU的激活ht由以下等式定义:

Delving Deeper into Convolutional Networks for Learning Video Representations_第1张图片


zt是一个更新门,用于决定单元更新其激活或内容的程度。 rt是复位门。 σ是sigmoid函数。 当rti单元接近0时,复位门将忽略先前计算的状态,并使该单元看起来像读取输入序列的第一个符号。 〜ht是与RNN中传统的循环单元类似的候选激活。 

你可能感兴趣的:(视频目标检测)