UDT:Unsupervised Deep Tracking

摘要

本文提出将无监督学习应用到目标跟踪领域,也就是使用无标注的视频序列训练跟踪器。基于【一个鲁棒的跟踪器应该通过前向传播能预测下一帧目标位置,同时从下一帧目标位置反向传播能准确回到目标初始位置】的理论,本文采用无监督学习来训练Siamese网络框架,通过多帧验证和一个损失敏感函数来改进训练过程,提高训练的跟踪器的准确性。

背景

本文的动机:跟踪的准确性可以通过前向传播和反向传播来验证。一般情况下,目标跟踪是给定目标在初始帧的bbox,然后根据初始帧目标的bbox前向传播,预测后续帧中目标的bbox。如果采用无监督训练方式,可以将后续帧框定目标的bbox假定为初始帧,反向传播可以得到目标在初始帧的预测bbox,我们希望预测的bbox与真实bbox之间差距尽可能小。因此,可以通过前向传播和反向传播不断缩小上述预测值和真实值的差距来训练网络。

但在实际跟踪中,可能前向传播预测新一帧的跟踪结果与目标位置偏离,但从该帧出发反向传播得到的预测位置与groundtruth一致,这样训练出来的跟踪器不够准确。此外,在视频序列中可能出现遮挡等降低网络表达能力的挑战。

贡献

为了解决上述问题,本文提出【多帧验证】和一个【损失敏感函数】来噶金无监督的目标跟踪训练:

  • 【多帧验证】如下图所示,使用单帧验证无法确保跟踪的准确性,本文采用多帧验证放大预测偏差进行改进,具体是在原两帧的基础上增加一帧,将这三帧作为一个训练样本,根据第一帧的目标位置bbox预测第二帧,根据第二帧的跟踪结果预测第三帧,随后从第三帧反向预测第二帧,再预测第一帧。通过最小化累加的损失误差来训练出更准确的跟踪器。
    UDT:Unsupervised Deep Tracking_第1张图片
  • 【损失敏感函数】由于无监督训练中目标的初始bbox是随机初始化的,可能包含一定的背景噪声。当边界框中的背景信息多于目标信息,并且背景信息如天空、绿植等是不会运动的,为了减少这些背景信息对损失的贡献,作者为每个样本增加了权重。如式子9所示,首先计算目标的运动信息,即三帧中前后两帧的反向预测值与正向跟踪值的平方误差,可以看出当目标发生快速运动时,会对损失贡献越大。作者还按照损失值由大到小过滤了10%的样本(去除噪声比较大的训练样本),从而便于模型收敛。最终得到的一致性损失函数及相应的权重如式子10-11所示。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

你可能感兴趣的:(目标跟踪论文阅读)