五篇Untrimmed 相关论文论文汇总简介

五篇Untrimmed 相关论文论文汇总简介

 

五篇Untrimmed相关论文:

·Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos,CVPR 2017

·TricorNet: A Hybrid Temporal Convolutional  and Recurrent Network for Video Action Segmentation

·UntrimmedNets for Weakly Supervised Action Recognition and Detection

·SSN:Temporal Action Detection with Structured Segment Networks

·Weakly Supervised Action Localization by Sparse Temporal Pooling Network

分别介绍了五种用于Untrimmed视频的行为检测和时间定位的网络,分别是

·CDC Networks

·TricorNet

·UntrimmedNets

·Structured Segment Networks

·Sparse Temporal Pooling Network

 

 

CDC Networks:

提出一个CDC filter同时在空间上卷积,在时间上反卷积。在3D ConvNets顶层堆叠多个CDC层来形成CDC网络

创新贡献

·第一个将两个互逆的操作结合在一起
·利用CDC filter 建立一个CDC网络来具体解决时间定位的精度问题

 五篇Untrimmed 相关论文论文汇总简介_第1张图片五篇Untrimmed 相关论文论文汇总简介_第2张图片

 

 

TricorNet

主要介绍了一种混合时间卷积与递归网络,它具有编码解码结构:编码器由一层时间卷积核组成,捕捉不同动作的局部运动变化;解码器是一种递归神经网络的层次结构,能够在编码阶段之后学习和记忆长期的动作依赖关系。

时间卷积和递归混合网络(TricorNet),它既关注局部运动的变化,又关注长期的动作依赖关系,视频动作分割建模。TricorNet使用帧级特征作为编解码结构的输入。在我们的例子中,编码器是一个时间卷积网络,由一维卷积核组成,观察到卷积核善于编码局部运动变化;解码器是递归神经网络的分层结构,双向短时记忆网络(Bi-LSTMS)[6],它能够在编码过程之后学习和记忆长期的动作依赖关系。

该网络可以处理不同时间的动作,并对不同动作之间的依赖关系进行建模。

 

 五篇Untrimmed 相关论文论文汇总简介_第3张图片

 


 

UntrimmedNets

通过提出一种新的端到端架构,称为UntrimedNet来解决弱监督动作识别(WSR)和检测(WSD)。

没有动作实例的时态注解的情况下,UntrimedNet直接将未修剪的视频作为输入,并利用它的视频标签来学习网络权重。简而言之,UntrimmedNet主要由两部分组成,即分类模块、选择模块、分别处理学习行为模型和行为实例检测问题。将分类和选择模块的输出融合在一起,得到未修剪的视频的预测结果,可以利用这些结果以端到端的方式调优UntrimmedNet参数。

 五篇Untrimmed 相关论文论文汇总简介_第4张图片

 

具体来说,我们的UntrimedNet首先生成剪辑建议,其中可能包含操作实例,采用均匀或镜头采样。然后,将这些剪辑建议输入UntrimedNet进行特征提取。

基于这些剪辑级表示,当选择模块尝试选择或排列这些剪辑建议时,分类模块的目的是预测每个剪辑提案的分类分数。

在实践中,分类模块的设计是基于一个标准的softmax分类器和由两种替代机制实现选择模块:艰难的选择软选择

对于艰难选择,使用top-k池方法来确定最多的k判别剪辑,对于软选择,学习一个注意权重来对不同剪辑的重要性进行排序。

最后的分类结果和选择模块与加权乘法产生的修剪视频水平预测融合。

有了这个视频级预测和全局视频标签,我们能够联合优化分类模块、选择模块以及基于标准反向传播算法的特征提取网络。

我们的UntrimedNet不使用操作实例的时间注释,但与使用强有力的训练监督的最先进的方法相比,它在动作识别和动作检测方面获得了优异的性能。

 

 

 

Structured Segment Networks

采用proposal+classification。每一个完整的活动被看成由三部分组成:starting,course,ending。基于上述,建立时序金字塔,将各个组成部分的特征结合起来,构成整个proposal。金字塔顶端,引入两个判别模型:活动类型判别和完整度判别。这两者结合,将proposed segment分成三类:positive proposal,pure background,poorly localized proposals。时序金字塔和判别模型构成统一的网络:SSN(structuredsegment network)。另外,采用sparse snippet sampling(TSN)。本文还提出用基于temporal actionness signal 的multi-scale grouping 产生动作分段。

 

五篇Untrimmed 相关论文论文汇总简介_第5张图片

Sparse Temporal Pooling Network

文章提出了一种使用卷积的未修剪视频的弱监督时间动作定位算法神经网络。算法预测给定视频级别标签的人类动作的时间间隔,而不需要动作的时间定位信息 这个目标是通过提出一种新颖的深度神经网络来实现的,该网络通过视频片段的自适应时间汇集来识别动作并识别与动作相关联的稀疏关键片段集合。我们设计网络的损失函数包含两个术语 - 一个用于分类错误,另一个用于选定片段的稀疏性。在识别出针对关键段的稀疏关注权重后,我们使用时间类激活映射来提取时间提议,以估计本地化目标操作的时间间隔

 五篇Untrimmed 相关论文论文汇总简介_第6张图片


 五篇Untrimmed 相关论文论文汇总简介_第7张图片

你可能感兴趣的:(行为检测,目标检测)