来源:CVPR 2017
Abstract
本文用强化学习来做跟踪。与现有的使用深度网络的方法相比,所提的tracker可以实现a light computation,并且在location和scale方面可以满足跟踪accuracy。控制动作的深度网络需要用各种训练序列进行预训练,并且在跟踪的过程中进行fine-tuned,以在线的适应目标和背景的变化。预训练通过深度强化学习和监督学习来实现。强化学习的使用可以实现部分带标签数据的半监督学习。所提的tracker速度很快,在GPU上甚至可以达到实时性。
1.Introduction
有好些方法,虽然是在tracking video datasets上训练的,但是这些方法集中在使用外观模型来提升判别目标和背景的能力。会遇到一些问题。
(1)用不那么有效的搜索方法来探索感兴趣的区域,通过跟踪模型做匹配来选择最好的候选。
(2)需要大量带标签的跟踪序列来做训练,如若在半监督学习的场景下,将无法使用无标签的帧。
在本文中,为处理上述问题,提出了一种新颖的跟踪器,通过ADNet的多次actions来捕捉目标的改变。所设计的ADNet用于产生动作,以在新的一帧中寻找目标的位置和大小。ADNet可以选择最优的动作来跟踪物体,这就是所学得的策略。在ADNet中,策略网络用一个卷积神经网络CNN来做设计。在这个CNN中,输入是在前一个状态的位置上所crop的图像块patch,输出是动作的概率分布including tracslation and scale changes。动作选择的过程较sliding windows or candidate sampling approaches有更少的搜索步数。此外,本文所提方法可以通过选择动作来精准的定位物体,像BBOX回归这种post-processing是不太必要的。
为训练(train)ADNet(ADNet用与产生动作),作者提出了一种将监督学习(SL)和强化学习(RL)联合起来进行学习的联合学习的方法。
在监督学习(SL)阶段,作者用从训练视频中所提取的样本来跟踪目标的位置的方法来训练网络以进行动作的选择。在这一步中,网络会学会跟踪一般的物体without sequential information. ====>(the pre-trained network)
在强化学习(RL)阶段,在监督学习阶段所获得的pre-trained的网络被用作初始化网络。强化学习的训练序列包括这么几大块:sampled states, actions, and rewards。网络通过基于策略梯度的深度强化学习的方式进行训练using the rewards obtained。指的一提的是,当训练帧部分被标记的时候,所提的框架也能够进行学习,learns the unlabeled frames by assigning the rewards according to the results of tracking simulation。 ===========>(继续训练网络) (policy gradient)
2.Related Work
深度强化学习:强化学习的目标是学习一个策略,通过最大化rewards来觉得序列的动作。在计算机视觉领域,使用深度强化学习的有目标定位,动作识别等。深度强化学习有两个流行的方法:Deep Q 网络(DQN)和策略梯度(policy gradient)。
①The goal of DQN is to learn a state-action value function (Q), which is given by the deep networks, by minimizing temporal-difference errors
②Policy gradient methods directly learn the policy by optimizing the deep policy networks with respect to the expected future reward using gradient descent.
In tracking problem, we train the proposed network with supervised learning to learn the appearance characteristics of the target objects, and trainaction dynamics of the tracking target with reinforcement learning using policy gradient method.即,用监督学习来学习目标的外观特性,用强化学习来学习动作策略,两个学习过程都是要train网络的。
3.Tracking Scheme Controlled by Actions
略
4.Training of ADNet
略
5.Experiments
在OTB50和OTB100上评估方法。
为预训练ADNet,使用了来自VOT2013,VOT2014,VOT2015和ALOV30的360个训练视频,不包括OTB数据集。
评测指标:OPE:center location error(distance) and overlap ratio(IOU).
Self-comparison:
ADNet-init: which is not pre-trained and simply uses the initial parameters.
In ADNet-init, the parameters of convolutional networks (conv1-3) are initialized with the VGG-M model,
and the fully-connected layers (fc4-7) are initialized with random noises.
“ADNet+SL” is the pre-trained models with supervised learning using fully labeled frames of the training sequences.
“ADNet+SS” is trained using partially labeled data in the semi-supervised (SS) settings.真实值标注每十帧提供一次。
Then we conducted “ADNet+SL+RL” and “ADNet+SS+RL” by training ADNet+SL and ADNet+SS using reinforcement learning (RL), respectively.
最终版是ADNet+SL+RL。实验证明,半监督效果不如监督的效果好,因为缺乏真实值的标注。并且,在分别都使用强化学习的情况下,提升效果也是不一样的,还是监督的效果好。不过呢,实验也证明了RL既能提升监督的性能,又能提升半监督的性能。
Analysis on the actions
在实验中,使用re-detection的帧的比率占到了所有帧的9%。
在每帧中跟踪目标的时候,大部分帧是用不到5个动作的。通过选择一系列动作就完成了ADNet的跟踪过程。
The average number of searching steps including the required actions and thecandidates by re-detection is 28.26 per frame
缺点:所提方法不能很好的解决目标快速变化(abrupt movement)的问题。
6.Conclusion
Action-based tracking makes a significant contribution to the reduction of computation complexity in tracking.(降低计算的复杂度)
强化学习能够尽可能的利用部分带标签的数据,这可能适用于实际场景。