Online Detection of Action Start in Untrimmed, Streaming Videos论文阅读笔记

这篇文章解决的问题是,识别视频中动作的开始。

Online Detection of Action Start in Untrimmed, Streaming Videos论文阅读笔记_第1张图片

作者对应于ODAS(在线识别动作开始)的三个问题提出了对应的解决方案:

(1)在动作开始的前后,场景和物体都极为相似 —— 用GAN生成hard negative样本,即动作开始前的样本;

(2)动作开始窗口是背景帧和动作帧的混合,开始窗口的特征可能会与动作开始前的背景帧更接近,而不是与动作开始后的动作帧更接近 —— 在训练中学习开始窗口和follow-up窗口的时序一致性(就是让它们更相似的意思);

(3)开始窗口的样本比背景和动作的样本都要少 —— 用adaptive sampling策略来增加开始窗口的比例

 

判断为动作开始的条件:

(1)t时刻的类别是动作;

(2)t时刻的类别与t-1时刻的类别不相同;

(3)t时刻类别的得分超过了在训练集上网格搜索得到的阈值。

 

作者提出的三个策略:

1、Adaptively Sample the Training Data(就是前面的(3))

training batch中,一半数据从开始窗口中抽,一半数据从其他窗口(背景窗口或者动作窗口都可以)中抽,训练得到分类loss

2、Model the Temporal Consistency(就是前面的(2))

算开始窗口和follow-up窗口特征表示之前的L2距离作为相似性loss

3、Generate Hard Negative Samples via GAN(就是前面的(1))

用GAN生成hard negative样本是因为hard negative与开始窗口极为相似,作者选择产生特征,而不是产生视频(生成视频的难度太大了)。

生成器的设计原则是,产生与真实的开始窗口相似的hard negative样本。生成器的输入是随机噪声,并以真实的开始窗口的特征作为标签,输出的特征作为hard negative样本。以开始窗口和生成的hard negative样本的特征之间的L2距离作为匹配loss

判别器的设计原则是,产生的hard negative样本与真实的开始窗口仍然要有点区别。判别器的输入有可能是真实数据,也有可能是生成器生成的假数据,而判别器的工作就是将hard negative样本与动作和背景区分开来。对于真实数据,用的是公式(1)中的分类loss

对于生成的假样本,loss是:

 

完整的目标函数:

(1)先以最小化来进行预训练

(2)基于(1)中的初始化,再进行对生成器和判别器的训练

(3)训练生成器时,固定判别器,此时的目标函数就是生成器的loss,即

(4)训练判别器时,固定生成器,此时的loss就是判别器的loss,即

 

对于目标函数的个人理解:

(1)预训练时的loss是由分类loss和相似性loss两部分组成,分类loss的减小让模型能够更准确地分辨出当前时刻是背景还是动作,相似性loss的减小保证了“开始窗口”向“follow-up窗口”靠近,即更加接近真正的动作开始时刻。

(2)生成器的loss就是匹配loss,匹配loss的减小让生成器生成的hard negative样本与真实的开始窗口样本尽可能相似,这点的原理也是出于实际上hard negative与开始窗口就是很相似的(可以理解为一个是在做动作开始的准备工作,一个是动作真的要开始了)。

(3)判别器的loss要复杂一点,这里的真实数据的loss和假数据的loss其实都是异曲同工,这两个loss相加是没有问题的,但为什么要加上相似性loss,这点我不能理解。

你可能感兴趣的:(论文学习)