Temporal Action Detection with Structured Segment Networks
本文只是对原文的简单翻译,不对实验过程分析,如有不准确的地方,欢迎指教~
SSN:结构化分段网络的时序动作检测
摘要:SSN:structured segment networks,通过结构化时序金字塔对每一个动作实例的时序结构建模。在金字塔的顶端,引入一个判别模型,包括两个分类器:动作分类和完整度区分,它能有效的将正样本从背景和不完整的样本中分离出来,做出准确的识别和定位。将这些组件集成到同一的网络,可以进行端到端的有效训练。本文还提出一个简单高效的temporal action proposals scheme,能产生高质量的proposal。数据集:THUMOS14和 ActivityNet,mAP提高10%。
1.简介
Temporalaction detection 吸引越来越多的注意力,因为它强大的应用。本文任务是在未修剪的长视频中检测人的活动实例,并标出起始和结束位置。
传统方法的局限性:数据量,不能准确定位。
本文方法:采用proposal+classification。每一个完整的活动被看成由三部分组成:starting,course,ending。基于上述,建立时序金字塔,将各个组成部分的特征结合起来,构成整个proposal。金字塔顶端,引入两个判别模型:活动类型判别和完整度判别。这两者结合,将proposed segment分成三类:positive proposal,pure background,poorly localized proposals。时序金字塔和判别模型构成统一的网络:SSN(structuredsegment network)。另外,采用sparse snippet sampling(TSN)。本文还提出用基于temporal actionness signal 的multi-scale grouping 产生动作分段。
本文的主要贡献如下:1)提出高效的对活动建立时序结构模型的机制,区分complete proposals和incomplete proposals。2)实现端到端的流程。3)提高性能
3.StructuredSegment Network
绿框为候选区域,黄框为扩展区域,把黄框的内容分成三部分:starting(黄色),course(绿色),ending(蓝色)。额外的两层处理course部分。将提取的特征作为five parts的输入,生成全局区域描述。Activity classification 和completeness classification基于区域描述产生activity probability和class conditional completeness probability。区域为正样本的final probability由这两个分类器的联合概率决定。训练中,本文sparsely sample L = 9 snippet。
从input到output,经历三个key steps:1)temporal proposals。2)temporal pyramid ,产生global proposal representation。3)two classification。
这一部分主要说明如何对给定的proposals进行预测。each proposal 看成starting, course, ending,并对其分别建立representation。通过temporal pyramid pooling合成global representation。然后训练two classifiers。训练期间,采用sparse snippet sampling来估计dense samples的temporal pyramid。
3.1Three-StageStructure
Input video可看成snippet 的集合,表示为(St)Tt=1。一个snippet包含多个帧,由多个RGB images和optical flow stack组成。给定N个proposals的集合P= {pi = [si,ei]},每一个P由开始时间si和结束时间ei组成,pi为di= ei – si。为了更好的分析是否为Complete instance,需要把它放到上下文中。因此,增强proposal pi =pi’ = [si’,ei’], si’ = si- di/2,ei’ = ei+di/2。然后将pi分成3个consecutive interval , psi = [si’, si],pci = [ci’,ci] ,pei = [ei’, e]分别称为starting course ending。
3.2Structured Temporal Pyramid Pooling
每一个proposal通过temporal pyramid pooling会生成一个global representation。给定增强proposal pi’ ,分成三个阶段psi,pci,pei,首先计算stage-wise特征向量fsi,fci,fei, 然后连接成global representation。
Stage[s,e]包含多个snippet序列,表示为{St|s<=t<=e}。每一个snippet,获取一个特征向量vt。基于这些特征,建立K-Level temporal pyramid如下,each level将interval 分成Bk个部分,i-th part of k-th level, 表示为[ski,eki],特征为:
fci= (ui(k)|k=1,……K,i=1,……,Bk)
不同的stage采用不同的方法,course stage用K = 2,starting 和ending 使用one-stage。
3.3Activity and Completeness Classifiers
两种分类器:activity classifier and a set of completeness classifier。对course,基于 fci,activity classifier A classifies 将inputproposals 分成K+1个类(with labels 1....K),background with label = 0。Completeness classifiers {Ck}k=1K为二分类器,基于{ fsi,fci,fei }预测proposals是否获取完整的instance。此时completeness不仅取决于proposal,也要考虑它所在的上下文。
所有的分类器都是线性分类器。给定pi , activity classfier 会通过softmax layer生成normalized response。可看做条件概率分布P(ci |pi), ci为class label。对每一个activity class k,与其对应的completeness classifier Ck会生成条件概率值P(bi|ci,pi),bi决定Pi是否完整。outputs是两个分布的联合分布。当ci>=1, P(ci, bi| pi) =P(ci | pi)*P(bi|ci, pi),因此loss 可表示为两个分类器的和。给定proposal pi和label ci
训练期间,获取三种proposals samples :1)positive proposals(IOU>0.7);2)background proposals(不包含任何instance);3)incomplete proposals(IOU<0.3)。
3.4Location Regression and Multi-Task Loss
设置一系列的定位回归(location regression) {Rk}k=1K,对每一个类别定界。采用RCNN,但是用于1维 temporal regions。给定proposal Pi,同时对间隔中心(interval center ui)和跨度(span ∮i)回归。定义multi-task loss:
Lreg使用L1 loss function
4.Efficient Training and Inference with SNN
面对计算量大的问题,采用如下解决办法:
Training with sparse sampling。A augmented proposal p’i分成L=9 segments, 任意在每一个segment取一个snippet。固定求取特征的数量(不论视频长度),减少了计算成本,实现了端到端的训练。
Inferencewith reordered computation。测试期间,每间隔6帧提取一个snippet样本,建立temporal pyramid。原始的temporal pyramid首先计算特征,再计算分类和回归(不高效)。事实上,每个长视频会产生上百个proposals,并有很大的重复。
利用这种冗余,采用position sensitive pooling。由于分类器和回归都是线性的,因此,分类和回归的关键是特征向量f乘以权重矩阵W。计算公式为:Wf = ∑Wjfj,j代表pyramid的不同region。这里fj是对region rj 的snippet 特征做的平均池化(average pooling)。因此:
Et~rj代表对rj做average pooling,这是一个线性操作。方程显示关于分类器和回归的线性响应能够在pooling之前进行。这样,矩阵乘法只需要做一次,对proposals只需要池化它的response值。提取完网络输出之后,通过重排矩阵乘法和pooling,对每一个视频的推理时间由10s降至低于0.5s。
5.Temporal Region Proposals
Temporal Actionness grouping(TAG)。用actionness classifier估计每一个snippet 的actionness probability。本文的基本思想是找到具有high actionness probability 的连续的region。
6.Experimental Result
ActivityNet 和THUMOS14
6.1Experimental settings
ActivityNet :两个版本v1.2和v1.3.前者包含9682个视频,100个分类。后者包含19994个视频,200个分类。分成三部分:training, validation, testing,比例2:1:1
THUMOS14:1010个validation视频,1574个testing视频。20个分类。Training set为UCF101。一般将validation 作为训练集,因此,训练集包含220个视频,20个分类。
Implementation Details: 端到端的训练。输入:视频帧 和 action proposals。Two-stream CNNs用于提取特征。SGD学习CNN参数,batch_size=128,momentum=0.9,用ImageNet的pre-train models初始化CNN。Learning_rate=0.001 for RGB network,0.005 for opticalflow network。在每一个minibatch中,positive background incomplete proposals的比例为1:1:6。对completeness classifier,只有在一个minibatch中损失值排在前1/6的样本才会用于计算梯度,这与hard negative mining类似(在negative sets中产生质量更高的samples)。在ActivityNet的两个版本上,RBG和optical flow 生成two-stream CNN ,分别训练9.5K和20K次,每4K和1K次迭代后learning_rate缩小0.1。THUMOS14,two-stream分别训练1K和6K次,每400和2500次迭代后,learning_rate 缩小0.1。
Evaluation Metric。因为数据集来自竞赛,每个数据集都有convention of reporting mean average precious(mAP)。本实验采用 mAP,IoU threshold为{0.5,0.75,0.95},average of mAP
Values with IoU threshold将和其他方法比较。THUMOS14 的IOU threshold 为{0.1,0.2,0.3,0.4,0.5},mAP of 0.5 IoU 用于和其他方法比较。
6.2 Ablation Studio
Temporal Action Proposal :在三个方面比较不同的action proposal scheme:recall,quality,detection performance。
Structured Temporal Pyramid Pooling:
Classifier Design:activity classifiers , completement classifiers.
Location Regression & Multi-Task Learning :
Training :Stage-wise v.s. End-to-End: SSN为end-to-end训练,分别进行提取特征,用SVM训练分类器和回归,岭回归,我们称之为stage-wise training。
6.3 Comparison with the State of Art
与现有的方法比较。
7.总结
本文提出一个通用模型,将structured temporal pyramid 与两种分类器相结合。
Supplementary materials:http://yjxiong.me/others/ssn/supp.pdf
Code available at http://yjxiong.me/others/ssn