卷积网络在动作识别领域带来的提升不像图像领域那么大
提出TSN,基于长距离时序建模的思想,结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(video-level supervision)进行视频动作识别。
卷积网络在图像分类上取得了巨大的成功,但在视频动作识别上却没有取得相应的大幅度提升(相对传统手工特征)
动作识别主要需要学习视频的两方面信息:appearances 和 dynamics。
卷积网络处理视频动作识别主要受限于两大问题:
1、主流卷积网络捕获appearance信息的能力很强,但捕获长距离时序信息(long-range temporal structure)的能力不足。一些之前的动作识别模型通过固定间隔的密集帧采样(dense temporal sampling with pre-defined sampling interval)来解决这个问题,但这样会导致采样的帧太多,对长视频来说计算量太大。
2、当时的主流动作识别数据集UCF101, HMDB51规模相对较小,对于训练性能很好的卷积网络来说显得不足。
因此,作者在双流网络的基础上研究基于ConvNets的动作识别模型,主要想解决两个问题:
1、在动作识别模型中捕获长距离时序信息
2、使用有限的训练样本训练动作识别模型
作者观察到,连续的视频帧在内容上是高度冗余的,因此密集帧采样没有必要。
提出TSN,主要特点是使用了一种时序稀疏采样策略:使用稀疏采样从长视频中提取短视频段(short snippets),这种采样是在时序上均匀进行的。然后再使用一个segmental structure来聚合采样出的snippets的信息,以此来进行长距离时序建模。
基于卷积网络的动作识别模型缺乏长距离时序建模能力的原因是:它们仅输入1帧RGB图像和几帧光流,没有获取到整个视频的时序信息。但是有些复杂的动作(例如体育运动)包含多个阶段,需要持续相当长一段时间。
TSN基于双流网络。不同于传统双流网络只接收1帧RGB和几帧光流,TSN在稀疏取样自整个视频的snippets上进行操作,每个snippet都会产生一个初步的动作分类预测,然后把每个snippets的预测形成一个共识(consensus),作为整个视频的预测(video-level prediction)。
输入视频V,将其分为K(snippet数目,文章中取3)个相同长度的视频段(segment): { S 1 , S 2 , . . . , S K } \{S_1, S_2, ..., S_K\} {S1,S2,...,SK},然后建立一系列snippets,TSN作用于snippets上:
T S N ( T 1 , T 2 , . . . , T K ) = H ( G ( F ( T 1 ; W ) , F ( T 2 ; W ) , . . . , F ( T K ; W ) ) ) TSN(T_1,T_2,...,T_K)=H(G(F(T_1;W),F(T_2;W),...,F(T_K;W))) TSN(T1,T2,...,TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W)))
采用标准的cross-entropy loss:
L ( y , G ) = − ∑ i = 1 C y i ( G i − l o g ∑ j = 1 C e x p G j ) L(y,\textbf{G})=-\sum^C_{i=1}y_i(G_i-log\sum^C_{j=1}expG_j) L(y,G)=−i=1∑Cyi(Gi−logj=1∑CexpGj)
使用该损失函数可以利用多个snippet的信息通过反向传播优化 W W W参数,而不是像之前的动作识别模型仅仅利用了视频中一个snippet的信息。
通过指定分段数 K K K,可以建立一个稀疏采样策略,即每段内只取了一个snippet的1帧RGB+几帧光流(而非密集采样),但由于有多个段又覆盖了整个视频的信息,做到了长距离时序建模,同时减低计算量。
采用带Batch Normalization 的Inception(BN-Inception)作为building block,改进双流网络。双流网络的输入(每个snippet)是1帧RGB图像和数帧连续光流。
研究了不同模态的输入,包括原始的RGB+flow双流,RGB difference,和warped optical flow fields。
Evaluation时,从视频中抽取25帧的RGB图像或光流stack,并截取4张corner和1张center,以及其水平翻转,作为数据增强,之后输入网络进行评估。
对双流的RGB和flow分支预测结果取加权平均,权重系数分别是1和1.5。
略