video analysis -- 时序动作提名-BSN

BSN: Boundary Sensitive Network for Temporal Action Proposal Generation

林天威大神的作品。https://zhuanlan.zhihu.com/p/39327364

高质量的时序动作提名应该具备几点特质:(1)灵活的时序长度(2)精确的时序边界(3)可靠的置信度分数。现有的基于滑窗或anchor的方法或是基于聚类的方法都不能同时在这几个方面做好。因此,在这篇文章中,提出了边界敏感网络-BSN,在BSN中,我们首先去定位时序动作片段的边界(开始节点和结束节点),再将边界节点直接结合成时序提名,最后基于所设计的proposal-levelfeature来对每个proposal的置信度进行评估。方法总览如图1-1所示。

video analysis -- 时序动作提名-BSN_第1张图片

video analysis -- 时序动作提名-BSN_第2张图片

方法

video analysis -- 时序动作提名-BSN_第3张图片

Video Features Encoding.

首先需要提取特征编码视频的视觉内容,采用two-stream网络作为视觉编码,因为该网络在行为识别方面表现良好(这里是参考TSN网络)。而且被广泛应用在temporal action detection and proposal generation。spatial network通过单个的RGB帧来捕获外观特征,temporal网络通过叠加光流场来捕获运动信息。提取双流特征如图2-2(a)。

video analysis -- 时序动作提名-BSN_第4张图片

Boundary-Sensitive Network

采用”local to global”方式生成proposals,首先生成候选边界位置,然后联合这些位置生成proposals,并且通过proposal-level特征估算每个proposal的置信分数。

BSN主要包含三个模块,依次是时序评估模块,提名生成模块和提名评估模块,如图1-2(b)。

时序评估模块(Temporal evaluation module基于上节two-stream feature 序列作为输入,采用3层时序卷积层来对输入序列中的每个位置进行概率评估(动作开始概率,动作结束概率,动作进行中的概率),并生成相应的概率序列。提名生成模块(Proposal generation module基于上述的几种概率序列,首先联合高概率的开始与结束作为候选提名;然后基于动作中概率序列为每个候选提名构造Boundary-Sensitive Proposal(BSP)特征。提名评估模块(proposal evaluation module,一个带有一个隐含层的多层感知器模型,基于BSP特征对每个候选方案的置信度进行评估。将每个方案的置信分和边界概率融合为最终的置信分进行检索。

提名生成模块(Proposal generation module

video analysis -- 时序动作提名-BSN_第5张图片

video analysis -- 时序动作提名-BSN_第6张图片

video analysis -- 时序动作提名-BSN_第7张图片

提名评估模块(Proposal evaluation module)

video analysis -- 时序动作提名-BSN_第8张图片

结果后处理(soft-NMS

最后还需要对结果进行非极大化抑制,从而去除重叠的结果,具体而言,采用soft-nms算法来通过降低分数的方式来抑制重叠的结果,处理后即为BSN算法最终生成的时序动作提名。

Training of BSN

在BSN中,对时间评估模块进行训练,同时从视频特征中学习局部边界和动作概率。然后根据训练后的时间评估模块生成的概率序列,生成提案和相应的BSP特征,训练提案评估模块,学习提案的置信度评分。本节将介绍培训的细节。

video analysis -- 时序动作提名-BSN_第9张图片

结论

本文的主要贡献是引入了一种全新的并且非常有效的时序提名生成框架,即先定位时序边界,再基于边界来构成时序提名。基于这样的框架,BSN就能够产生满足(1)时长灵活(2)边界准确(3)评分可靠的时序动作提名。

实际上,BSN中各个模块的实现都还比较简单,作者认为未来在此框架上对于具体模型实现也还有不小的优化和改进。

 

你可能感兴趣的:(视频理解)