TSN论文阅读笔记(一)

 Temporal Segment Networks for Action Recognition in Videos

最近读了这篇文章,这是一些笔记。

1 摘要

  • 本文提出了一个通用且灵活的视频级框架,用于学习视频中的动作模型——TSN,该模型旨在通过新的基于分段的采样和聚合模块来对长距离的时间结构建模。通过简单的平均池化和多尺度时间窗口的集成,该模型可以很容易地应用于修剪和未修剪视频中的动作识别。
  • 在五个数据上效果都不错。HMDB51 (71.0%), UCF101 (94.9%), THUMOS14 (80.1%), ActivityNet v1.2 (89.6%), and Kinetics400 (75.7%).
  • 将本文提出的RGB差用于运动模型,也仍可以在UCF101上取得91%的准确率,速度为340FPS。

2 介绍

  • 基于视频的动作识别的两个要素:外观和时间动态。面临的困难:尺度变化、视点改变、相机移动。因此,设计有效的特征表示对于学习分类信息很重要。
  • 与图像分类不同,对于基于视频的动作识别来说,相比于手工特征,端到端深度卷积网络带来的改进仍然是有限的。so作者认为有三个主要阻碍:
    1. 深度ConvNet架构方法中,缺乏对于长距离时间结构的重点关注。(尽管在传统方法中,长距离时间结构已经被证明对于理解动态信息非常重要)现有的Convnet类方法通常关注外观和短期运动(即最多16帧)。而最近一些尝试解决这个问题的方法,采用的是预定义的采样间隔进行时间采样,这样计算成本高,且内存空间有限,视频重要信息可能长于可承受的采样持续时间。(如何有效捕捉长距离时间结构的视频表示)
    2. 现有动作识别方法多针对修剪过的视频。而实际上我们经常需要处理未修剪的视频如(THUMOS,  ActivityNet),其中每个动作可能仅占整个视频一小部分。主导背景部分可能干扰动作识别模型的预测。(如何利用学到的ConvNet模型来更真实地处理未修剪的视频)
    3. 其他实践上的困难:1)训练深度网络通常需要大量样本,公开数据集如UCF101等在规模和多样性方面仍然有限,容易过拟合。2)光流提取以捕获短期运动信息成为将学习模型部署到大规模动作识别数据集的计算瓶颈。(如何在给定有限训练样本的情况下有效地学习ConvNet模型并将其应用于大规模数据)
  • TSN 提供的解决方案:
    1. 由于连续帧是高度冗余的,so稀疏和全局的时间采样策略将更有利和有效。TSN首先使用稀疏采样策略在长视频序列上提取短片段snippets(即首先将视频分为固定数量的segments,并从每个segment中随机采样一个snippet)。然后,使用分段聚合函数来聚合这些snippets的信息。[注:这种方式使得,TSN可以对长距离时间结构建模,而且计算成本与视频的长度无关]。(具体来说:尝试了不同片段数量的影响,并提出了五种聚合函数——平均池化、最大池化、加权平均、top-K池化、自适应注意力权重。后两者可以自动突出有辨别力的片段,减少不太相关的片段的影响)
    2. 解决有限训练样本引起的问题方案:1)跨模态初始化策略:RGB、光流、RGB差。2)在微调时进行批归一化的方法——partial BN,只有第一个BN层的均值和方差会自适应地更新来处理域移位。3)此外,为了充分使用视频的视觉内容,我们学习了四种输入模态:RGB图像、stacked  RGB差、stacked 光流场以及 stacked warped 光流场。结合RGBRGB差异,我们构建了有史以来最好的实时动作识别系统,在现实世界中有巨大的应用潜力。
    3. 在五个动作识别数据集上进行实验,效果都还不错。此外,在TSN的基本结构基础上,我们通过引入最新的深度模型结构(ResNet、Inception V3等),并将音频作为补充channel,进一步改进了我们的动作识别方法。

综上:1)我们提出了一个端到端的框架,称为时间段网络(TSN),用于学习视频表示, 捕获长期时间信息; 2)我们设计了一种分层聚合方案,将动作识别模型应用于未修剪的视频; 3)我们研究了一系列用于学习和应用深度动作识别模型的良好实践。

 

  • 这篇期刊相比之前的那篇论文的扩展之处:1)引入新的聚合函数,它能有效突出重要片段,同时抑制背景噪声。2)通过设计分层聚合策略,将原始的动作识别pipeline扩展到未修剪的视频分类中。3)我们在TSN的不同方面添加了更多探索性研究,对三个新数据集(THUMOS, ActivityNet, and Kinetics)进行了更多的实验。

3 Temporal segment networks TSN

 

本节主要描述TSN。1)基于分段的采样方法的动机。2)TSN的结构。3)聚合函数介绍。4)实践中的几个处理方法。

 

3.1 Segment Based Sampling

 

动机:对long-range temporal structures进行建模。

 

其他方法:采用固定采样率对视频进行采样,得到如100120帧的多个帧。在计算和建模方面都有缺点。1)在计算方面,由于这种dense sampling往往需要100多帧来对长距离时间结构进行建模,所以大大增加了ConvNet训练的计算成本。2)在建模方面,由于采样间隔固定,采样了100帧可能也只覆盖了视频的一小部分(10秒视频都有300多帧,采样100多帧可能只占了一部分),无法覆盖整个视频的内容,采样是局部且有限的。

 

基于分段的采样:尽管视频中的帧是连续的,内容变化却是缓慢的。这是一种稀疏全局的采样方法。考虑到成本,仅一定数量的稀疏采样片段会用于建模。而且这个数量一般是固定的(预定义的),所以与视频的长度无关。在全局属性上,该方法保证采样片段在时间维度上是均匀分布的。

 

3.2 Framework and Formulation

  1. 创新点:采用的是一系列的短片段序列,且采样于整个视频。(以前的方法是单个帧或者是多帧短序列)。每个短片段产生其片段级别的预测分类,然后再通过聚合函数来预测视频级的分数。

在训练过程中,优化目标函数是定义在视频级别的预测上的,并逐渐更新参数。

TSN论文阅读笔记(一)_第1张图片

  1. 其中,F是卷积网络(参数为W),G是聚合函数,H是预测函数。H用Softmax函数。(G很重要,既要有建模能力,又要可微)

  2. 先将视频V分成K个片段,分别是Sk,然后从每个Sk中随机选取一个短片段Tk,用T1-Tk对视频进行建模。每个短片段Tk的长度由输入的模态决定,比如说RGB的话可以是1,光流或RGB差可以是5帧。
  3. 根据交叉熵分类公式,最终的损失函数L(y,G)为:

TSN论文阅读笔记(一)_第2张图片

               4.  在训练过程中,L对W求导公式如下:

公式3

  1. K是片段个数。如上所述,TSN就可以通过整个视频的信息来学习模型参数。
  2. 通过对所有的视频都使用一个固定的K,我们使用稀疏采样策略选择片段,减少了计算成本,不需要深度采样或在帧级别上评估网络。

3.3 Aggregation Function and Analysis

 

  • 五种聚合函数:最大池化、平均池化、top-K 池化、权重平均、attention weighting.

 

先到这里啦,第一次写,比较僵硬,下次争取多一点自己的见解。

 

参考文献:

Wang L , Xiong Y , Wang Z , et al. Temporal Segment Networks for Action Recognition in Videos[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.

你可能感兴趣的:(TSN,动作识别,视频理解,阅读笔记,视频理解)