Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记

1.主要贡献

(1)我们提出并开发了一种新的用于视觉跟踪的卷积循环神经网络模型。该方法直接利用深度学习模型的能力自动学习空间和时间约束。
(2)我们的框架是使用深度RL算法进行端到端训练的,在这种算法中,模型经过优化,以在长期内最大限度地提高跟踪性能。
(3)我们的模型是完全离线训练的。当应用于在线跟踪时,只需计算一次前向传递,无需在线微调,允许我们以超出实时的帧速率运行。
(4)我们的大量实验表明,与OTB公共跟踪基准中的最新技术相比,我们的跟踪算法具有出色的性能。

2.算法详解

2.1 网络模型

Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记_第1张图片
这个网络主要分为观测网络和循环网络,其中观测网络用于获取视频帧的特征信息,而循环网络主要将这些随时间变化的观测信息进行整合,并预测出每一帧的边界框信息。

2.2 观测网络

这里就简单说一下, o t o_t ot中包含视频帧的信息(绿色)以及位置信息(橙色),还有就是当真实边界框位置已知时,位置信息直接设置为标准化位置坐标,否则设置为0。

2.3 循环网络

这一块作者使用的是LSTM网络,值得注意的是由于我的输入中包含了视频帧的信息以及目标位置,因此隐藏状态中同样含有这些信息,这便于从隐藏状态中预测出目标位置,即隐藏状态的后四个元素。

2.4 训练

作者在训练的目标是最大化跟踪性能,因此采用了强化学习算法来解决这个问题。
论文中给出了两种奖励:
在这里插入图片描述
在这里插入图片描述
其中 l t l_t lt是模型预测的目标位置,而 g t g_t gt则是真实边界框的位置。
因此训练的目标可以演变为最大化奖励的总和,即 R = ∑ t = 1 T R=\sum_{t=1}^T R=t=1Tr_t。
值得注意的是在训练的早期使用的是第一种奖励,而在后期则使用第二种奖励。

2.5 梯度近似

训练的目标是在给定分布下最大化总奖励,因此我们将目标定义如下,
在这里插入图片描述
其中 p ( z 1 : T ; W ) p(z_{1:T};W) p(z1:T;W)是在参数W条件下,生成动作序列的一个概率分布。
这里与强化学习中策略梯度类似,因此得到梯度,
在这里插入图片描述
由于动作是由概率分布确定的,因此可以对多次使用相同的策略,并通过对其求平均值来近似期望,
在这里插入图片描述
上式可以得到很好的梯度估计,但是梯度估计中存在高方差,导致训练过程很难收敛,因此作者采用如下方法很好的解决这个问题,
在这里插入图片描述
其中, b t = E π [ R t ] b_t=E_\pi[R_t] bt=Eπ[Rt]

2.6 反向传播

决定输出l的概率密度函数:
在这里插入图片描述
因此策略函数关于u的梯度如下所示:
在这里插入图片描述
由于µ是由W参数化的深度RL跟踪器的输出,因此可以通过标准反向传播轻松计算网络权重W的梯度。

2.7 整体流程

Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记_第2张图片

3.实验结果

Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记_第3张图片
Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记_第4张图片
Deep Reinforcement Learning for Visual Object Tracking in Videos学习笔记_第5张图片

你可能感兴趣的:(强化学习,目标跟踪,深度学习,计算机视觉)