【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Abstract

卷积网络在动作识别领域带来的提升不像图像领域那么大

提出TSN,基于长距离时序建模的思想,结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(video-level supervision)进行视频动作识别。

Introduction

卷积网络在图像分类上取得了巨大的成功,但在视频动作识别上却没有取得相应的大幅度提升(相对传统手工特征)

动作识别主要需要学习视频的两方面信息:appearances 和 dynamics。

卷积网络处理视频动作识别主要受限于两大问题:

1、主流卷积网络捕获appearance信息的能力很强,但捕获长距离时序信息(long-range temporal structure)的能力不足。一些之前的动作识别模型通过固定间隔的密集帧采样(dense temporal sampling with pre-defined sampling interval)来解决这个问题,但这样会导致采样的帧太多,对长视频来说计算量太大。

2、当时的主流动作识别数据集UCF101, HMDB51规模相对较小,对于训练性能很好的卷积网络来说显得不足。

因此,作者在双流网络的基础上研究基于ConvNets的动作识别模型,主要想解决两个问题:

1、在动作识别模型中捕获长距离时序信息

2、使用有限的训练样本训练动作识别模型

作者观察到,连续的视频帧在内容上是高度冗余的,因此密集帧采样没有必要

提出TSN,主要特点是使用了一种时序稀疏采样策略:使用稀疏采样从长视频中提取短视频段(short snippets),这种采样是在时序上均匀进行的。然后再使用一个segmental structure来聚合采样出的snippets的信息,以此来进行长距离时序建模。

Method

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第1张图片

Temporal Segment Networks

基于卷积网络的动作识别模型缺乏长距离时序建模能力的原因是:它们仅输入1帧RGB图像和几帧光流,没有获取到整个视频的时序信息。但是有些复杂的动作(例如体育运动)包含多个阶段,需要持续相当长一段时间。

TSN基于双流网络。不同于传统双流网络只接收1帧RGB和几帧光流,TSN在稀疏取样自整个视频的snippets上进行操作,每个snippet都会产生一个初步的动作分类预测,然后把每个snippets的预测形成一个共识(consensus),作为整个视频的预测(video-level prediction)。

输入视频V,将其分为K(snippet数目,文章中取3)个相同长度的视频段(segment): { S 1 , S 2 , . . . , S K } \{S_1, S_2, ..., S_K\} {S1,S2,...,SK},然后建立一系列snippets,TSN作用于snippets上:

T S N ( T 1 , T 2 , . . . , T K ) = H ( G ( F ( T 1 ; W ) , F ( T 2 ; W ) , . . . , F ( T K ; W ) ) ) TSN(T_1,T_2,...,T_K)=H(G(F(T_1;W),F(T_2;W),...,F(T_K;W))) TSN(T1,T2,...,TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W)))

  • ( T 1 , T 2 , . . . , T K ) (T_1,T_2,...,T_K) (T1,T2,...,TK):snippets序列。每个snippet T K T_K TK是从对应视频段segment S K S_K SK中随机取样(randomly sample)得到,每个segment中采样一个snippet,包括1帧RGB图像和数帧光流。
  • F ( T K ; W ) F(T_K;W) F(TK;W):是作用在 T K T_K TK上,参数为W的卷积网络,输出该snippet属于每个类的分类score,即一个向量,其分量 F i F_i Fi表示该snippet属于第i类的打分。
  • G G G: segmental consensus function,将多个snippet的F输出进行合并,获得一个分类consensus,即一个向量,其分量 G i G_i Gi表示整个视频V属于第i类的打分。
  • H H H:prediction function,基于consensus预测视频V属于所有分类的概率,这里采用softmax。输出一个向量,其分量 H i H_i Hi表示整个视频V经softmax归一化后属于第i类的概率。

采用标准的cross-entropy loss:

L ( y , G ) = − ∑ i = 1 C y i ( G i − l o g ∑ j = 1 C e x p G j ) L(y,\textbf{G})=-\sum^C_{i=1}y_i(G_i-log\sum^C_{j=1}expG_j) L(y,G)=i=1Cyi(Gilogj=1CexpGj)

  • C C C:动作类别数目
  • y i y_i yi:分类i的groundtruth标签
  • G i = g ( ( F i ( T 1 ) , . . . , F i ( T K ) ) G_i=g((F_i(T_1),...,F_i(T_K)) Gi=g((Fi(T1),...,Fi(TK)):分类i的consensus打分,是所有snippet属于第i类的得分经过一个聚合函数(aggregation function) g 得到的。聚合函数g有多种选择:evenly averaging, maximum, weighted averaging。

使用该损失函数可以利用多个snippet的信息通过反向传播优化 W W W参数,而不是像之前的动作识别模型仅仅利用了视频中一个snippet的信息。

通过指定分段数 K K K,可以建立一个稀疏采样策略,即每段内只取了一个snippet的1帧RGB+几帧光流(而非密集采样),但由于有多个段又覆盖了整个视频的信息,做到了长距离时序建模,同时减低计算量。

Learning

Network Architectures

采用带Batch Normalization 的Inception(BN-Inception)作为building block,改进双流网络。双流网络的输入(每个snippet)是1帧RGB图像和数帧连续光流。

Network Inputs

研究了不同模态的输入,包括原始的RGB+flow双流,RGB difference,和warped optical flow fields。

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_第2张图片

Network Training

  • Cross Modality Pre-training. RGB分支使用ImageNet预训练初始化。flow分支也进行初始化。
  • Regularization Techniques. 使用BN,partial BN,dropout
  • Data Augmentation. 除了原有random cropping和horizontal flipping, 添加corner cropping和scale-jittering。

Testing

Evaluation时,从视频中抽取25帧的RGB图像或光流stack,并截取4张corner和1张center,以及其水平翻转,作为数据增强,之后输入网络进行评估。

对双流的RGB和flow分支预测结果取加权平均,权重系数分别是1和1.5。

Experiments

你可能感兴趣的:(论文阅读,计算机视觉,视频,人工智能)