CVPR 2021 Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

动机
  1. 视觉目标跟踪是计算机视觉中的一项基本任务。尽管最近取得了一些进展,但由于遮挡、变形、外观变化等因素的影响,它仍然是一项具有挑战性的任务。
  2. 在视频目标跟踪任务中,现有的跟踪器中被忽略了连续帧之间存在着丰富的时间上下文信息。
方法

CVPR 2021 Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking_第1张图片

为了在独立的视频帧之间建立桥梁,并传递丰富的时间线索。提出了一种新的transformer辅助跟踪框架。由于提出的transformer接收图像特征嵌入,共同将这些图像特征嵌入归一化到实例(图片块)级,以保留有价值的图像幅度信息。将transformer编码器和解码器在这样一个通用的类孪生结构内分成两个分支。在顶部分支中,一组模板图片块被馈送到transformer编码器,该编码器通过基于注意力的特征增强来来相互加强多个模板特征,以生成高质量的编码特征。在底部分支中,搜索特征以及先前的模板内容被馈送到transformer解码器,其中搜索图片块从历史模板中检索和聚集信息化的目标线索(例如,空间掩模和目标特征),传递到对应的帧中,以增强自身,方便了目标的搜索过程。编码器和解码器中的自注意力块共享权重,该权重将模板和搜索嵌入在相同的特征空间中,以方便做进一步的交叉注意力计算,从而传播时间上下文(例如,特征和注意力)。对于视觉跟踪场景,效率是至关重要的。为了实现速度和性能的良好平衡,通过省略完全连接的前馈层和主要使用轻量级的单头注意力来简化经典transformer。

Transformer结构通过生成高质量的模板特征编码和搜索特征解码来改进跟踪过程。根据以下两种流行方法,使用高质量的模板特征来学习跟踪模型:

1、孪生匹配算法。通过简单地裁剪编码过程中生成的高质量的模板特征中的目标特征作为模板CNN核,结合编码过程中生成的搜索特征,进行卷积,以产生响应。

2、DCF算法。在DiMP方法的端到端DCF优化的基础上,利用编码过程中生成的高质量的模板特征与编码过程中生成的搜索特征进行卷积,生成一个判别的CNN核,用于响应生成。

在获得跟踪响应后,我们利用DiMP中提出的分类损失,以端到端的方式联合训练骨干网络、提出的transformer和跟踪模型。

实验

基于Siamese匹配和基于DiMP的跟踪框架,在实验中,将transformer辅助跟踪器分别命名为TrSiam和TrDiMP。在这两个版本中,主干模型是ResNet-50用于特征提取。在编码器和解码器之前,还增加了一个卷积层(3×3Conv+BN),将主干特征信道从1024减少到512。输入模板和搜索图片块是目标大小的6倍,并进一步调整为352×352。

线下跟踪阶段,利用LaSOT、TrackingNet、GOT-10k和COCO的部分训练集做线下训练。提出的transformer网络与原始跟踪部分(如Tracking优化模型和IoUNet)以端到端的方式联合训练。提出的框架训练了50个epochs,每epoch迭代1500次,每批36对图片。采用ADAM优化器,其初始学习率为0.01,每15个epoch的衰减因子为0.2。

在线跟踪阶段,TrSiam与TrDiMP的主要区别在于跟踪模型的生成方式。在预测了目标局部化的响应图后,它们都采用了最近的概率IoUNet进行目标尺度估计。跟踪器是使用Pytorch在Python中实现的。TrSiam和TrDiMP在单个Nvidia GTX 1080Ti GPU上分别运行约35帧/秒和26帧/秒(FPS)。

在实验中,观察到,增加头部个数对跟踪精度有一定的提高,但对实时跟踪效率有一定的影响。因此,选择了单头注意力来实现性能和效率的良好平衡。通过提出的Transformer,一个简单的孪生匹配方法能够超过当前性能最好的跟踪器。使用完整的transformer,Siamese和DiMP基线在average overlap(AO)中分别获得5.3%和2.1%的显著性能增益。transformer还显著降低了它们的训练损耗。通过将提出的transformer与最近的判别跟踪算法流程相结合,在流行的跟踪基准上取得了最好的性能。

结论
  1. 首次尝试将transformer纳入视觉跟踪。
  2. 通过充分挖掘时间信息,简单算法模型具有强大的跟踪潜力。

你可能感兴趣的:(CVPR,2021)