在本文中,我们提出了一种以编码器-解码器转换器为关键组件的新跟踪架构。 编码器对目标对象和搜索区域之间的全局时空特征依赖性进行建模,而解码器学习查询嵌入来预测目标对象的空间位置。 我们的方法将对象跟踪作为一个直接的边界框预测问题,而不使用任何提议或预定义的锚点。 使用编码器-解码器转换器,对象的预测仅使用简单的全卷积网络,该网络直接估计对象的角点。 整个方法是端到端的,不需要任何后处理步骤,例如余弦窗口和边界框平滑,从而大大简化了现有的跟踪管道。 拟议的跟踪器在五个具有挑战性的短期和长期基准测试中实现了最先进的性能,同时以实时速度运行,比 Siam R-CNN 快 6 倍
视觉对象跟踪是计算机视觉中一个基本但具有挑战性的研究课题。 过去几年,基于卷积神经网络的目标跟踪取得了显着进展。 然而,卷积核不擅长对图像内容和特征的长期依赖进行建模,因为它们只处理空间或时间上的局部邻域。 当前流行的跟踪器,包括离线 Siamese 跟踪器和在线学习模型,几乎都建立在卷积运算的基础上。 因此,这些方法仅在对图像内容的局部关系建模方面表现良好,但仅限于捕获远程全局交互。 这种缺陷可能会降低模型处理全局上下文信息对于定位目标对象很重要的场景的能力,例如对象经历大规模变化或频繁进出视图。长程相互作用的问题已通过使用变压器在序列建模中得到解决。 Transformer 在自然语言建模和语音识别等任务中取得了巨大的成功。 最近,transformer 已被用于判别计算机视觉模型并引起了极大的关注。 受最近的检测转换器 (DETR) 的启发,我们提出了一种新的端到端跟踪架构,带有编码器-解码器转换器,以提高传统卷积模型的性能。空间和时间信息对于对象跟踪都很重要。 前者包含用于目标定位的对象外观信息,而后者包含对象跨帧的状态变化。 以前的 Siamese 跟踪器仅利用空间信息进行跟踪,而在线方法使用历史预测进行模型更新。 尽管取得了成功,但这些方法并没有明确地模拟空间和时间之间的关系。 在这项工作中,考虑到建模全局依赖性的优越能力,我们采用Transformer来整合空间和时间信息进行跟踪,生成用于对象定位的判别性时空特征。更具体地说,我们提出了一种基于用于视觉跟踪的编码器-解码器转换器的新时空架构。 新架构包含三个关键组件:编码器、解码器和预测头。 编码器接受初始目标对象、当前图像和动态更新模板的输入。 编码器中的自注意力模块通过输入的特征依赖来学习输入之间的关系。 由于模板图像在整个视频序列中都会更新,因此编码器可以捕获目标的空间和时间信息。 解码器学习查询嵌入来预测目标对象的空间位置。 基于角点的预测头用于估计当前帧中目标对象的边界框。 同时,学习score head来控制动态模板图像的更新。大量实验表明,我们的方法在短期和长期跟踪基准上都建立了新的最先进的性能。 例如,我们的时空转换器跟踪器在 GOT-10K 和 LaSOT 上分别超过 Siam R-CNN 3.9%(AO 分数)和 2.3%(成功)。 还值得注意的是,与之前的长期跟踪器相比,我们方法的框架要简单得多。 具体来说,以前的方法通常由多个组件组成,例如基本跟踪器 [9,50]、目标验证模块和全局检测器。 相比之下,我们的方法只有一个以端到端方式学习的网络。 此外,我们的跟踪器可以实时运行,在 Tesla V100 GPU 上比 Siam R-CNN (30 v.s. 5fps) 快 6 倍,如下图所示:
与LaSOT的现状比较。通过帧/秒(fps)跟踪速度来可视化成功的性能。Ours-ST101和Ours-ST50分别表示提出的以ResNet-101和ResNet-50为骨干的跟踪器。彩色效果更好。
本文的三大贡献:
Transformer 最初是由 Vaswanie 等人提出的。 用于机器翻译任务,并已成为语言建模中的主流架构。 Transformer 将序列作为输入,扫描序列中的每个元素并学习它们的依赖关系。 这个特性使得 Transformer 天生擅长在顺序数据中捕获全局信息。 最近,transformer 在图像分类、对象检测、语义分割、多对象跟踪等视觉任务中显示出巨大的潜力。我们的工作受到最近工作 DETR 的启发,但有以下根本区别。
- (1) 研究的任务不同。 DETR 是为对象检测而设计的,而这项工作是为对象跟踪而设计的。
- (2)网络输入不同。 DETR 将整个图像作为输入,而我们的输入是由一个搜索区域和两个模板组成的三元组。 它们来自主干的特征首先被展平并连接,然后发送到编码器。
- (3)查询设计和训练策略不同。 DETR 使用 100 个对象查询,并在训练期间使用匈牙利算法将预测与真实情况相匹配。 相比之下,我们的方法只使用一个查询,并且始终将其与真实情况进行匹配,而不使用匈牙利算法。
- (4) 包围盒头部不同。 DETR 使用三层感知器来预测框。 我们的网络采用基于角的盒头来实现更高质量的定位。
此外,TransTrack 和 TrackFormer 是最近两个关于 Transformer 跟踪的代表性作品。 TransTrack 具有以下功能。
- (1) 编码器将当前帧和前一帧的图像特征作为输入。
- (2) 它有两个解码器,分别将学习到的对象查询和最后一帧的查询作为输入。 通过不同的查询,编码器的输出序列分别转化为检测框和跟踪框。
- (3) 根据IoUs来使用匈牙利算法进行预测的两组框的匹配。
而 Trackformer 具有以下特点。
- (1) 仅将当前帧特征作为编码器输入。
- (2) 只有一个解码器,其中学习到的对象查询和来自最后一帧的轨迹查询相互交互。
- (3) 它仅通过注意力操作将轨迹与时间关联起来,而不依赖于任何额外的匹配,例如运动或外观建模。
相比之下,我们的工作与这两种方法有以下根本区别。
空间和时间信息的开发是目标跟踪领域的核心问题。 现有的跟踪器可以分为两类:仅空间的和时空的。 大多数离线 Siamese 跟踪器属于仅空间跟踪器,它们将对象跟踪视为初始模板和当前搜索区域之间的模板匹配。 为了沿空间维度提取模板和搜索区域之间的关系,大多数跟踪器采用相关的变体,包括朴素相关、深度相关和点相关。虽然近年来取得了显着进展,但这些 方法仅捕获局部相似性,而忽略全局信息。 相比之下,transformer 中的 self-attention 机制可以捕获长程关系,使其适用于成对匹配任务。 与仅空间跟踪器相比,时空跟踪器还利用时间信息来提高跟踪器的鲁棒性。 这些方法也可以分为两类:基于梯度的和无梯度的。 基于梯度的方法在推理过程中需要梯度计算。 经典作品之一是 MDNet,它使用梯度下降更新特定领域的层。 为了提高优化效率,后期工作采用了更先进的优化方法,如高斯牛顿法或基于元学习的更新策略。 然而,许多用于部署深度学习的实际设备不支持反向传播,这限制了基于梯度的方法的应用。 相比之下,无梯度方法在实际应用中具有更大的潜力。 一类无梯度方法利用额外的网络来更新 Siamese 跟踪器的模板。 另一个代表性工作 LTMU学习了一个元更新器来预测当前状态是否足够可靠以用于长期跟踪中的更新。 这些方法虽然有效,但造成了空间和时间的分离。 相比之下,我们的方法将空间和时间信息整合为一个整体,同时使用transformer学习它们
以前跟踪器的跟踪管道比较复杂。具体来说,它们首先生成大量具有置信度的box proposal,然后通过各种后处理选择最佳的bounding box作为跟踪结果。常用的后处理包括余弦窗、比例或长宽比惩罚、边界盒平滑、基于轨迹的动态规划等。虽然它带来了更好的结果,后处理导致性能对超参数敏感。有一些跟踪器试图简化跟踪管道,但它们的性能仍然远远落后于最先进的跟踪器。这项工作试图弥补这一差距,通过预测每个帧中的一个边界框来获得最佳表现。
在本节中,我们提出了用于视觉跟踪的时空变换器网络,称为 STARK。 为清楚起见,我们首先介绍一种简单的基线方法,该方法直接应用原始编码器-解码器转换器进行跟踪。 基线方法只考虑空间信息并取得了令人印象深刻的性能。 之后,我们扩展基线以学习目标定位的空间和时间表示。 我们引入了一个动态模板和一个更新控制器来捕捉目标对象的外观变化。
我们提出了一个基于视觉变换器的简单基线框架,用于对象跟踪。 网络架构如下图所示。 它主要由三个部分组成:卷积主干、编码器-解码器转换器和边界框预测头。
Backbone:该方法可以利用任意卷积网络作为特征提取的骨干。在不丧失通用性的情况下,我们采用普通的ResNet作为主干。更具体地说,除了删除了最后一个阶段和全连接层,对原来的ResNet没有其他变化。主干的输入是一对图像:初始目标对象的模板图像和当前的搜索区域。模板z和搜索图像x经过主干后被映射为两个特征映射
Encoder:从主干输出的特征图在输入编码器之前需要预处理。 具体来说,首先使用瓶颈层将通道数从 C 减少到 d。然后将特征图沿空间维数进行平面拼接,得到长度为维数为d的特征序列作为transformer编码器的输入。编码器由 Nencoder 层组成,每一层由一个多头自注意力模块和一个前馈网络组成。 由于原始transformer的置换不变性,我们向输入序列添加了正弦位置嵌入。 编码器捕获序列中所有元素之间的特征依赖关系,并用全局上下文信息强化原始特征,从而使模型能够学习用于对象定位的判别特征。
Decoder:解码器将目标查询和来自编码器的增强特征序列作为输入。 与 DETR 采用 100 个对象查询不同,我们只向解码器输入一个查询来预测目标对象的一个边界框。 此外,由于只有一个预测,我们删除了 DETR 中用于预测关联的匈牙利算法。 与编码器类似,解码器堆叠了 M 个解码器层,每个解码器层由一个自注意力、一个编码器-解码器注意力和一个前馈网络组成。 在编码器-解码器注意力模块中,目标查询可以关注模板上的所有位置和搜索区域特征,从而为最终的边界框预测学习鲁棒的表示。
Head:DETR 采用三层感知器来预测对象框坐标。 然而,正如 GFLoss 所指出的,直接回归坐标相当于拟合狄拉克 delta 分布,它没有考虑数据集中的模糊性和不确定性。 这种表示不灵活,对对象跟踪中的遮挡和杂乱背景等挑战不具有鲁棒性。 为了提高框估计质量,我们通过估计框角的概率分布设计了一个新的预测头。如下图所示,我们首先从编码器的输出序列中提取搜索区域特征,然后计算搜索区域特征与解码器输出嵌入的相似度。接下来,相似性分数与搜索区域的特征相乘,以增强重要的区域,削弱不那么有区别的区域。新的特征序列被重塑为特征图 ,然后馈入一个简单的全卷积网络(FCN).FCN 由 L 个堆叠的 Conv-BN-ReLU 层组成,并分别为对象边界框的左上角和右下角输出两个概率图 Ptl(x, y) 和 Pbr(x, y)。最后,通过计算角点概率分布的期望值,得到预测的框坐标,如式(1)所示。 与 DETR 相比,我们的方法明确地对坐标估计中的不确定性进行建模,从而为对象跟踪生成更准确和稳健的预测。
具体预测头结构为:
Training and Inference:我们的基线跟踪器以端到端的方式训练,结合了 L1 损失和 DETR 中的广义 IoU 损失。 损失函数可以写成:其中bi和ˆbi分别代表groundtruth和predicted box,λiou, λL1∈R是超参数。 但与 DETR 不同的是,我们不使用分类损失和匈牙利算法,从而进一步简化了训练过程。 在推理过程中,模板图像及其来自主干的特征由第一帧初始化并在后续帧中固定。 在跟踪过程中,在每一帧中,网络从当前帧中取一个搜索区域作为输入,并返回预测框作为最终结果,不使用任何后处理,如余弦窗口或边界框平滑。
由于目标对象的外观可能会随着时间的推移发生显着变化,因此捕获目标的最新状态以进行跟踪非常重要。 在本节中,我们将演示如何基于之前介绍的基线同时利用空间和时间信息。 进行了三个关键差异,包括网络输入、额外的分数头以及训练和推理策略。 我们将一一阐述如下。 时空架构如下图所示。
Input:与只使用第一帧和当前帧的基线方法不同,时空方法引入了一个从中间帧采样的动态更新模板作为附加输入,如上图 所示。 除了来自初始模板的空间信息之外,动态模板还可以捕捉目标外观随时间的变化,提供额外的时间信息。 与前文中的基线架构类似,三元组的特征图被展平并连接,然后发送到编码器。 编码器通过在空间和时间维度上对所有元素之间的全局关系进行建模来提取有区别的时空特征。
Head:在跟踪过程中,有些情况下不应更新动态模板。 例如,当目标被完全遮挡或移出视野,或者跟踪器发生漂移时,裁剪模板是不可靠的。 为简单起见,我们认为只要搜索区域包含目标,就可以更新动态模板。 为了自动确定当前状态是否可靠,我们添加了一个简单的分数预测头,它是一个三层感知器,然后是一个 sigmoid 激活。 如果分数高于阈值 τ,则当前状态被认为是可靠的。
Training and Inference:正如最近的工作所指出的,定位和分类的联合学习可能会导致两个任务的次优解决方案,并且有助于定位和分类的解耦。 因此,我们将训练过程分为两个阶段,将定位作为首要任务,将分类作为次要任务。 具体来说,在第一阶段,除了分数头之外,整个网络仅使用等式 2 中与定位相关的损失进行端到端训练。 在这个阶段,我们确保所有搜索图像都包含目标对象,并让模型学习定位能力。在第二阶段,只对分数头进行优化,定义二元交叉熵损失为:其中 yi 是真实标签,Pi 是预测置信度,所有其他参数都被冻结以避免影响定位能力。 这样,最终的模型在经过两阶段训练后同时学习定位和分类能力。在推理过程中,在第一帧中初始化了两个模板和相应的特征。 然后裁剪一个搜索区域并输入网络,生成一个边界框和一个置信度分数。 只有在达到更新间隔且置信度得分高于阈值 τ 时才更新动态模板。 为了效率,我们将更新间隔设置为 Tu 帧。 新模板是从原始图像中裁剪出来的,然后输入到主干中进行特征提取。
首先介绍我们的 STARK 跟踪器在多个基准上的实现细节和结果,并与最先进的方法进行比较。 然后,提出消融研究以分析所提出网络中关键组件的影响。 我们还报告了其他候选框架的结果,并将它们与我们的方法进行比较以证明其优越性。 最后,提供了可视化的注意力图软编码器和解码器,以了解转换器的工作原理
我们的跟踪器是使用Python 3.6和PyTorch 1.5.1实现的。实验在一台安装了8块16GB Tesla V100 gpu的服务器上进行。我们报告了 STARK 的三个变体的结果:STARK-S50、STARK-ST50 和 STARK-ST101。 STARK-S50 仅利用空间信息并以 ResNet-50 作为主干,即 前文中介绍的基线跟踪器。 STARK-ST50 和 STARK-ST101 分别以 ResNet-50 和 ResNet-101 作为主干,利用空间和时间信息,即上文中介绍的时空跟踪器。主干使用在 ImageNet 上预训练的参数进行初始化。 BatchNorm 层在训练期间被冻结。 Backbone 特征从第四阶段开始,步幅为 16。transformer 架构类似于 DETR 中的架构,具有 6 个编码器层和 6 个解码器层,由多头注意力层 (MHA) 和前馈网络 (FFN) 组成 )。 MHA 有 8 个头,宽度为 256,而 FFN 有 2048 个隐藏单元。使用 0.1 的丢弃率。 边界框预测头是一个轻量级 FCN,由 5 个堆叠的 Conv-BN-ReLU 层组成。 分类头是一个三层感知器,每层有 256 个隐藏单元。
Training:训练数据由 LaSOT、GOT-10K、COCO2017 和 TrackingNet 的 train-splits 组成。 根据 VOT2019 挑战的要求,我们从 GOT-10K 训练集中删除了 1k 个禁止序列。 搜索图像和模板的大小分别为320×320像素和128×128像素,分别对应目标框区域的52倍和22倍。 使用了数据增强,包括水平翻转和亮度抖动。 STARK-ST 的最小训练数据单元是一个三元组,由两个模板和一个搜索图像组成。 STARK-ST 的整个训练过程包括两个阶段,分别需要 500 个 epoch 进行定位和 50 个 epoch 进行分类。 每个 epoch 使用 60000个三元组。网络使用 AdamW 优化器和权重衰减 10-4 进行优化。 损失权重 λL1 和 λiou 分别设置为 5 和 2。每个 GPU 承载 16 个三元组。因此小批量大小是每次迭代 128 个三元组。 主干和其余部分的初始学习率分别为 10-5 和 10-4。 在第一阶段的 400 个 epoch 和第二阶段的 40 个 epoch 之后,学习率下降了 10 倍。 STARK-S 的训练设置与 STARK-ST 几乎相同,除了(1)STARK-S 的最小训练数据单元是模板-搜索对; (2)训练过程只有第一阶段。
Inference:动态模板更新间隔Tu和置信阈值τ分别默认设置为200帧和0.5。 推理管道只包含前向传递和从搜索区域到原始图像的坐标变换,没有任何额外的后处理
我们在三个短期基准(GOT-10K、TrackingNet 和 VOT2020)和两个长期基准(LaSOT 和 VOT2020-LT)上将我们的 STARK 与现有最先进的对象跟踪器进行了比较
GOT-10K:GOT-10K 是一个大规模基准测试,涵盖了对象跟踪中的各种常见挑战。 GOT-10K 要求跟踪器仅使用 GOT-10k 的训练集进行模型学习。 我们遵循此政策并仅使用 GOT-10K 训练集重新训练我们的模型。 如表 1 所示,在 ResNet-50 主干相同的情况下,STARK-S50 和 STARK-ST50 的 AO 分数分别优于 PrDiMP50 3.8% 和 4.6%。 此外,STARK-ST101 获得了 68.8% 的最新 AO 分数,在相同的 ResNet-101 主干网络上超过 Siam R-CNN 3.9%。
TrackingNet:TrackingNet 是一个大规模的短期跟踪基准测试集,包含 511 个视频序列。 表 2 显示 STARK-S50 和 STARKST50 在 AUC 上分别超过 PrDiMP50 4.5% 和 5.5%。 借助更强大的 ResNet-101 主干,STARK-ST101 实现了 82.0% 的最佳 AUC,优于 Siam R-CNN 0.8%。
VOT2020与之前基于重置的评估不同,VOT2020 [22] 提出了一种新的基于锚点的评估协议,并使用二进制分割掩码作为基础。 排名的最终指标是预期平均重叠 (EAO)。 表 3 显示 STARKS50 取得了有竞争力的结果,优于 DiMP 和 UPDT。 引入时间信息后,STARK-ST50 获得了 0.308 的 EAO,优于之前的边界框跟踪器。 受到 VOT2020 实时挑战赛获胜者 AlphaRef 的启发,我们为 STARK 配备了 AlphaRef 提出的细化模块来生成分割掩码。 新的跟踪器“STARK-ST50+AR”超越了之前的 SOTA 跟踪器,如 AlphaRefandOceanPlus,获得了 0.505 的 EAO。
LaSOT:LaSOT是一个大型的长期跟踪基准,测试集中包含280个视频,平均长度为2448帧。STARK-S50和STARKST50使用相同的ResNet-50骨干,比PrDiMP分别实现6.0%和6.6%的增益。STARK-ST101的成功率为67.1%,比Siam R-CNN高2.3%,如图5所示。
VOT2020-LT:VOT2020-LT由50个长视频组成,目标物体经常消失和重现。此外,跟踪器需要报告目标存在的置信度。在一系列置信阈值下计算精度(Pr)和召回率(Re)。Fscore定义为,用于对不同的跟踪器进行排序。由于STARK-S不能预测这个分数,我们不报告VOT2020-LT的结果。从表4可以看出,STARK-ST50和STARK-ST101的F-score分别为70.2%和70.1%,优于之前的所有方法。另外值得注意的是,STARK 的框架比 VOT2020-LT Challenge 的获胜者 LTMUB 的框架要简单得多。 具体来说,LTMUB 以 A TOM 和 SiamMask 的组合作为短期跟踪器,MDNet 作为验证器,GlobalTrack 作为全局检测器。 而 STARK 中只有一个网络,并且结果是在前向传递中获得的,无需后处理。
Speed Flops and Params:如表 5 所示,STARK-S50 可以以超过 40fps 的速度实时运行。 此外,STARK-S50的FLOPs和Params比SiamRPN++少4倍和2倍。 虽然STARKST50以动态模板作为额外输入,并引入了额外的score head,但FLOPs和Params的增加是一点点,甚至可以忽略不计。 这表明我们的方法可以以几乎免费的方式利用时间信息。当使用 ResNet-101 作为主干时,FLOPs 和 Params 都显着增加,但 STARKST101 仍然可以实时运行,比 Siam R-CNN(5fps)快 6 倍,如图 1 所示。
我们选择 STARK-ST50 作为基础模型,并评估其中不同组件对 LaSOT 的影响。 为简单起见,编码器、解码器、位置编码、角点预测和分数头分别缩写为enc、dec、pos、corner和score。 如表6#1所示,去掉编码器后,成功率明显下降5.3%。 这说明模板和搜索区域的特征之间的深度交互起着关键作用。 如#2 所示,移除解码器后,性能下降 1.9%。 这个下降小于去掉encoder,说明decoder的重要性不及encoder。 当去除位置编码时,性能仅下降 0.2%,如#3 所示。 因此我们得出结论,位置编码不是我们方法中的关键组成部分。 我们还尝试用 DETR [5] 中的三层感知器替换角头。 表4 显示以 MLP 作为盒头的 STARK 的性能比提出的角头低 2.7%。它表明角头预测的框更准确。 如#5所示,去掉score head后,性能下降到64.5%,低于不使用时间信息的STARK-S50。 这表明时间信息的不当使用可能会损害性能,过滤掉不可靠的模板很重要。
在本节中,我们选择 STARK-ST50 作为我们的基础模型,并将其与其他可能的候选框架进行比较。 这些框架包括从模板生成查询、使用匈牙利算法、更新 TrackFormer 中的查询以及联合学习本地化和分类。
模板图像用作查询:查询和模板在变压器跟踪中具有相似的功能。例如,他们都希望对有关目标对象的信息进行编码。 从这个角度来看,一个自然的想法是使用模板图像作为解码器的查询。 具体来说,首先将模板和搜索区域特征分别馈送到权重共享编码器,然后使用从模板特征生成的查询与解码器中的搜索区域特征进行交互。如表 7 所示,该框架的性能为 61.2%,比我们的设计低 5.2%。 我们推测,根本原因是与我们的方法相比,这种设计缺乏从模板到搜索区域的信息流,从而削弱了搜索区域特征的判别力。
使用匈牙利算法:我们还尝试使用K个查询,预测有信心分数的K个方框。K在实验中等于10。groundtruth在使用匈牙利算法的训练期间与这些查询动态匹配。我们观察到这种训练策略导致了“马太效应”。具体来说,在培训开始时,有些问题比其他问题预测的框要稍微准确一些。然后由匈牙利算法选择它们与groundtruth匹配,这进一步扩大了已选查询和未选查询之间的差距。最后,只有一两个查询能够预测高质量的框。如果在推断过程中没有选择它们,预测框可能会变得不可靠。如表7所示,该策略的性能不如我们的方法,差距为2.7%。
更新查询嵌入:与 STARK 通过引入额外的动态模板来利用时间信息不同,TrackFormer通过更新查询嵌入来对时间信息进行编码。 遵循这个想法,我们通过更新目标查询将 STARK-S50 扩展到一个新的时间跟踪器。 表7显示该设计实现了64.8%的成功率,比STARK-ST50低1.6%。 潜在的原因可能是可更新查询嵌入带来的额外信息远少于额外模板带来的额外信息。
联合学习定位与分类:如前文中所述,定位被视为首要任务,并在第一阶段进行训练。 而分类在第二阶段作为次要任务进行训练。 我们还做了一个实验,在一个阶段联合学习定位和分类。 如表 7 所示,该策略导致次优结果,比 STARK 低 3.9%。 两个潜在的原因是:
- (1)score head的优化干扰了box head的训练,导致box预测不准确。
- (2) 这两个任务的训练需要不同的数据。 具体来说,定位任务期望所有搜索区域都包含跟踪目标以提供强大的监督。 相比之下,分类任务期望均衡分布,一半的搜索区域包含目标,而剩下的一半不包含。
Encoder Attention:图6的上半部分显示了来自Cat-20的模板-搜索三元组,以及来自最后一个编码器层的注意图。以初始模板的中心像素为查询,以三元组中的所有像素为关键和值,计算出可视化的注意力。可以看出,注意力集中在跟踪的目标上,并大致将其与背景分离。此外,编码器所产生的特征对目标和干扰物也有很强的分辨能力。
Decoder Attention:图6的下半部分展示了来自于cow -13的一个模板-搜索三元组,以及来自于最后一个解码器层的注意力地图。由此可见,解码器对模板和搜索区域的关注是不同的。具体来说,对模板的关注主要集中在目标的左上角区域,而对搜索区域的关注往往集中在目标的边界上。此外,习得的注意力对干扰物也很强大。
本文提出了一种新的基于Transformer的跟踪框架,该框架可以在空间和时间维度上捕捉长期依赖关系。此外,STARK跟踪器避免了超参数敏感的后处理,形成了简单的推理管道。大量的实验表明,STARK跟踪器在5个短期和长期基准上的实时运行性能要比以前的方法好得多。我们希望这项工作能引起更多的关注变压器架构的视觉跟踪。