目录
摘要
1.引言
2.相关工作
3.方法
3.1 transformer的基准
3.2 时空transformer跟踪
4.实验
4.1 实施细节
4.2 结果和比较
4.3 基于组件的分析
4.4 与其他框架的比较
4.5 可视化
5.结论
本文提出了一种以编码-解码器transformer为关键组件的跟踪体系结构。编码器对目标对象和搜索区域之间的全局时空特征依赖关系进行建模,而解码器学习嵌入的查询以预测目标对象的空间位置。我们的方法将目标跟踪作为一个直接的边界框预测问题,而不使用任何建议或预定义的锚点。通过编解码器变换,目标的预测只需使用一个简单的全卷积网络,直接估计目标的角点。整个方法是端到端的,不需要余弦窗、包围盒平滑等后处理步骤,大大简化了现有的跟踪流水线。建议的跟踪器在五个具有挑战性的短期和长期基准上实现了最先进的性能,同时以实时速度运行,比Siamese RCNN快6倍[47]。代码和模型在这里是开源的。
视觉目标跟踪是计算机视觉中一个基础而又富有挑战性的研究课题。在过去的几年里,基于卷积神经网络的目标跟踪取得了显著的进展[25,9,47]。然而,卷积核不擅长对图像内容和特征的长期相关性进行建模,因为它们只处理局部邻域,无论是在空间上还是在时间上。目前流行的跟踪器,包括离线Siamese追踪器和在线学习模型,几乎都是建立在卷积运算的基础上[2,37,3,47]。因此,这些方法只能很好地对图像内容的局部关系进行建模,但仅限于捕获远程的全局交互。这样的缺陷可能会降低模型处理全局上下文信息对于定位目标对象很重要的场景的能力,例如经历大规模变化或频繁进出视图的对象。
通过使用transformer在序列建模中解决了远程交互的问题[46]。Transform在自然语言建模[11,39]和语音识别[34]等任务中取得了巨大的成功。近年来,transformer被用于判别计算机视觉模型,引起了人们的极大关注[12,5,35]。受最近的DEtection TRansformer(DETR)[5]的启发,我们提出了一种新的端到端跟踪结构,采用编码器-解码器transformer来提高传统卷积模型的性能。
空间信息和时间信息对于目标跟踪都是重要的。前者包含用于目标定位的对象外观信息,而后者包含对象跨帧的状态变化。以前的Siamese追踪器[25,51,14,6]只利用空间信息进行追踪,而在线方法[54,57,9,3]使用历史预测进行模型更新。虽然这些方法很成功,但它们并没有明确地对空间和时间之间的关系进行建模。在这项工作中,考虑到全局依赖模型的优越能力,我们采用transformer来整合时空信息进行跟踪,生成可区分的时空特征用于目标定位。
更具体地说,我们基于编码-解码器transformer提出了一种新的空间-时间结构用于视觉跟踪。新架构包含三个关键组件:编码器、解码器和预测头。编码器接受初始目标对象、当前图像和动态更新模板的输入。编码器中的自我注意模块通过输入的特征依赖关系来学习输入之间的关系。由于模板图像在整个视频序列中被更新,因此编码器可以捕获目标的空间和时间信息。解码器学习嵌入的查询以预测目标对象的空间位置。使用基于角点的预测头来估计当前帧中目标对象的边界框。同时,学习记分头来控制动态模板图像的更新。
广泛的实验表明,我们的方法在短期[18,36]和长期跟踪基准[13,22]上都建立了新的最先进的性能。例如,我们的时空变换跟踪器在GOT-10K[18]和LaSOT[13]上分别比Siam R-CNN[47]高3.9%(AO得分)和2.3%(成功率)。同样值得注意的是,与以前的长期跟踪器[8,47,53]相比,我们的方法的框架要简单得多。具体地说,以前的方法通常由多个组件组成,例如基本跟踪器[9,50]、目标验证模块[21]和全局检测器[40,19]。相比之下,我们的方法只有一个以端到端方式学习的网络。此外,我们的跟踪器可以实时运行,在特斯拉V100图形处理器上比Siam R-CNN(30 V.S 5fps)快6倍,如图1所示。
图1:与LaSOT最新技术的比较[13]。我们将成功性能与Frame-PerSecond(fps)跟踪速度进行了可视化比较。OURS-ST101和OURS-ST50分别表示以ResNet-101和ResNet-50为主干的建议跟踪器。彩色效果更佳
总而言之,这项工作有三个贡献。
语言与视觉中的transformer。transformer最早是由Vaswani等人提出的[46]面向机器翻译任务,已成为语言建模的主流架构。transformer接受序列作为输入,扫描序列中的每个元素并了解它们的依赖关系。这一特性使得transformer本质上擅长捕获顺序数据中的全局信息。近年来,transformer在图像分类[12]、目标检测[5]、语义分割[49]、多目标跟踪[44,35]等视觉任务中显示出巨大的潜力。我们的工作灵感来自于最近的工作DETR[5](DEtection TRansformer),但有以下根本区别。(1)学习任务不同。DETR是为目标检测而设计的,而这项工作是为目标跟踪而设计的。(2)网络输入不同。DETR将整个图像作为输入,而我们的输入是由一个搜索区域和两个模板组成的三元组。它们来自主干的特征首先被展平和拼接,然后被发送到编码器。(3)查询设计和训练策略不同。DETR使用100个对象查询,并在训练期间使用匈牙利算法将预测与地面事实相匹配。相比之下,我们的方法只使用一个查询,并且始终将其与地面事实相匹配,而不使用匈牙利算法。(4)包围盒头部不同。DETR使用三层感知器来预测盒子。我们的网络采用基于角点的盒头,以实现更高质量的本地化。
此外,TransTrack[44]和TrackFormer[35]是transformer跟踪领域最新的两部代表作。Trans-track[44]具有以下特点。(1)编码器将当前帧和前一帧的图像特征作为输入。(2)有两个解码器,分别以学习到的对象查询和上一帧的查询作为输入。对于不同的查询,编码器的输出序列被分别转换为检测盒和跟踪盒。(3)使用匈牙利算法基于IoUs匹配预测的两组盒子[24]。而Trackformer[35]则具有以下特点。(1)只将当前帧特征作为编码器输入。(2)只有一个解码器,学习的对象查询和来自最后一帧的跟踪查询相互交互。(3)它仅通过注意力操作来关联随时间推移的轨迹,而不依赖于任何额外的匹配,例如运动或外观建模。相比之下,我们的工作与这两种方法有以下根本区别。(1)网络输入不同。我们的输入是一个三元组,由当前搜索区域、初始模板和动态模板组成。(2)我们的方法通过更新动态模板来捕捉跟踪目标的外观变化,而不是像[44,35]那样更新对象查询。
时空信息利用。时空信息的利用是目标跟踪领域的核心问题。现有的跟踪器可以分为两类:纯空间跟踪器和时空跟踪器。大多数离线Siamese跟踪器[2,26,25,60,29]属于纯空间跟踪器,它们将目标跟踪视为初始模板和当前搜索区域之间的模板匹配。为了提取模板和搜索区域在空间维度上的关系,大多数跟踪器采用相关性的变体,包括朴素相关性[2,26],深度相关[25,60]和点相关[29,52]。虽然近年来取得了显著的进展,但这些方法只捕捉局部相似性,而忽略了全局信息。相比之下,transformer中的自我注意机制可以捕捉远距离关系,适合于配对任务。与纯空间跟踪器相比,时空跟踪器还利用时间信息来提高跟踪器的健壮性。这些方法也可以分为两类:基于梯度的方法和无梯度的方法。基于梯度的方法在推理过程中需要计算梯度。其中一个经典作品是MDNet[37],它用梯度下降法更新特定领域的层。为了提高优化效率,后来的工作[9,3,27,48,55]采用了更先进的优化方法,如高斯-牛顿法或基于元学习的更新策略。然而,许多用于部署深度学习的现实设备不支持反向传播,这限制了基于梯度的方法的应用。相比之下,无梯度方法在实际应用中具有更大的潜力。一类无梯度方法[54,57]利用额外的网络来更新Siamese跟踪器[2,61]的模板。另一个代表作LTMU[8]学习了一个元更新器来预测当前状态是否足够可靠,以用于长期跟踪中的更新。虽然这些方法是有效的,但它们造成了空间和时间的分离。相反,我们的方法将时间和空间信息作为一个整体进行整合,同时通过变换学习它们。
跟踪流水线和后处理。以前的跟踪器[25,51,60,47]的跟踪管线都很复杂。具体地说,它们首先生成大量具有置信度得分的边界盒提案,然后使用各种后处理来选择最优的包围盒作为跟踪结果。常用的后处理方法有余弦窗口、尺度或纵横比惩罚、包围盒平滑、基于轨迹小程序的动态规划等,虽然效果较好,但后处理对超参数敏感。有一些跟踪器[16,19]试图简化跟踪管道,但它们的性能仍然远远落后于最先进的跟踪器。这项工作试图缩小这一差距,通过预测每帧中的一个单一边界框来实现最佳性能。
在这一部分中,我们提出了一种用于视觉跟踪的时空变换网络,称为STARK。为清楚起见,我们首先介绍一种简单的基线方法,该方法直接应用原始编解码器transformer进行跟踪。基线方法只考虑了空间信息,取得了令人印象深刻的效果。之后,我们将基线扩展到学习空间和时间表示用于目标定位。我们引入了一个动态模板和一个更新控制器来捕捉目标对象的外观变化。
我们提出了一种简单的基于视觉变换的目标跟踪基线框架。网络结构如图2所示,它主要由三个部分组成:卷积主干、编解码器转换器和包围盒预测头。
图2 纯空间跟踪框架
主干。我们的方法可以使用任意的卷积网络作为特征提取的主干。在不失通用性的情况下,我们采用了vanilla ResNet[15]作为主干。更具体地说,除了去掉最后一级和完全连通的层外,原有的ResNet没有其他变化[15]。主干的输入是一对图像:初始目标对象的模板图像和当前帧的搜索区域。在通过主干之后,模板z和搜索图像x被映射到两个特征映射和。
编码器。从主干输出的特征地图在送入编码器之前需要进行预处理。具体地说,首先使用瓶颈层将通道数从C减少到d。然后将特征地图沿空间维度进行展平和拼接,生成长度为、维度为d的特征序列,作为transformer编码器的输入。该编码器由N个编码层组成,每个编码层由一个带前馈网络的多头自注意力模块组成。由于原始transformer[46]的排列不变性,我们在输入序列中添加了正弦位置嵌入。编码器捕获序列中所有元素之间的特征依赖关系并用全局上下文信息增强原始特征,因此允许模型学习判别特征用于目标定位。
解码器。解码器将目标查询和来自编码器的增强特征序列作为输入。与DETR[5]采用100个对象查询不同,我们只向解码器输入一个查询来预测目标对象的一个包围盒。此外,由于只有一个预测,我们去掉了DETR中用于预测关联的匈牙利算法[24]。与编码器类似,解码器堆叠M个解码层,每个层由自我关注、编解码器关注和前馈网络组成。在编解码器注意力模块中,目标查询可以关注模板上的所有位置和搜索区域特征,从而学习最终边界框预测的鲁棒表示。
头。DETR[5]采用三层感知器预测目标盒坐标。然而,正如GFLoss[28]所指出的那样,直接回归坐标等同于拟合狄拉克增量分布,它没有考虑数据集中的模糊性和不确定性。这种表示方式不灵活,对目标跟踪中的遮挡和杂乱背景等挑战也不够稳健。为了提高盒子估计的质量,通过估计盒子角点的概率分布,设计了一种新的预测头。如图3所示,我们首先从编码器的输出序列中提取搜索区域特征,然后计算搜索区域特征与解码器输出嵌入的相似度。然后,将相似度分数与搜索区域特征进行元素级相乘,以增强重要区域并削弱较不具区分性的区域。新的特征序列被重塑为的特征映射,然后馈入简单的全卷积网络(FCN)。FCN由L个堆叠的Conv-BN-RELU层组成,并分别为对象边界框的左上角和右下角输出两个概率图Ptl(x,y)和Pbr(x,y)。最后,通过计算角点概率分布的期望值来获得预测框坐标和,如公式(1)所示。与DETR方法相比,我们的方法对坐标估计中的不确定性进行了显式建模,为目标跟踪生成了更准确和更稳健的预测。
训练和推理。我们的基线跟踪器是以端到端的方式训练的,结合了L1损失和广义IOU损失[41],就像在DETR中一样。损失函数可以写为
其中和分别表示基本事实和预测框,,是超参数。但与DETR不同的是,我们没有使用分类损失和匈牙利算法,从而进一步简化了训练过程。在推理过程中,模板图像及其来自主干的特征由第一帧初始化,并固定在随后的帧中。在跟踪过程中,在每一帧中,网络将当前帧中的搜索区域作为输入,并返回预测框作为最终结果,而不使用余弦窗口或边界框平滑等后处理。
由于目标对象的外观可能会随着时间的推移而发生显著变化,因此捕获目标的最新状态以进行跟踪非常重要。在本节中,我们将演示如何基于前面介绍的基线同时利用空间和时间信息。有三个关键区别,包括网络输入、额外的分数头以及训练和推理策略。我们逐一阐述如下。时空结构如图4所示。
图4:时空跟踪框架。与纯空间架构的区别以粉色突出显示
输入。与仅使用第一帧和当前帧的基线方法不同,时空方法引入了从中间帧采样的动态更新模板作为附加输入,如图4所示。除了初始模板的空间信息外,动态模板还可以捕捉目标外观随时间的变化,提供额外的时间信息。类似于SEC3.1中的基准架构,将三元组的特征图扁平化、拼接后发送给编码器。该编码器通过在空间和时间维度上对所有元素之间的全局关系建模来提取可区分的时空特征。
头。在跟踪过程中,有些情况下不应更新动态模板。例如,当目标被完全遮挡或移出视线时,或者当跟踪器漂移时,裁剪的模板是不可靠的。为简单起见,我们认为只要搜索区域包含目标,就可以更新动态模板。为了自动确定当前状态是否可靠,我们添加了一个简单的分数预测头,它是一个三层感知器,然后是sigmoid激活。如果得分高于阈值τ,则认为当前状态可靠。
训练和推理。正如最近的工作[7,43]所指出的,定位和分类的联合学习可能会导致这两个任务的次优解,这有助于将定位和分类解耦。因此,我们将训练过程分为两个阶段,将定位作为首要任务,将分类作为次要任务。具体地说,在第一阶段,除了分数头外,整个网络都接受了端到端的训练,只有等式2中与定位相关的损失。.在这个阶段,我们确保所有的搜索图像都包含目标对象,并让模型学习定位能力。在第二阶段,仅利用定义为如下的二进制交叉熵损失来优化分数头
其中,yi是地面事实标签,Pi是预测置信度,所有其他参数都被冻结,以避免影响定位能力。这样,最终的模型在经过两个阶段的训练后,既学习了定位能力,又学习了分类能力。
在推理过程中,在第一帧中初始化两个模板和对应的特征。然后,裁剪搜索区域并将其送入网络,生成一个边界框和置信度分数。仅当达到更新间隔并且置信度分数高于阈值τ时,才更新动态模板。为了提高效率,我们将更新间隔设置为Tu帧。新的模板被从原始图像中裁剪出来,然后馈送到主干中进行特征提取。
本节首先介绍我们的STARK tracker在多个基准上的实现细节和结果,并与最先进的方法进行比较。然后,提出消融研究以分析所提出的网络中关键组件的影响。我们还报告了其他候选框架的结果,并将它们与我们的方法进行了比较,以显示其优越性。最后,在编码器和解码器的注意图上进行可视化,以了解变压器是如何工作的。
我们的跟踪器是使用Python3.6和PyTorch 1.5.1实现的。实验在8个16 GB Tesla V100 GPU的服务器上进行。
模型。我们报告了STARK的三个变体的结果:STARK-S50、STAK-ST50和STAK-ST101。STAK-S50只利用空间信息,以ResNet-50[15]为骨干,即SEC3.1中提出的基线跟踪器。STARK-ST50和STARK-ST101分别以ResNet-50和ResNet-101为主干,同时利用时空信息,即SEC3.2中提出的时空跟踪器。
主干使用在ImageNet上预先训练的参数进行初始化。BatchNorm[20]层在训练期间冻结。主干特征从第四阶段开始,步幅为16。该transformer结构类似于DETR[5]中的结构,有6个编码层和6个解码层,由多头关注层(MHA)和前馈网络(FFN)组成。MHA有8个头部,宽度256,而FFN有2048个隐藏单元。使用0.1的丢弃比。包围盒预测头是一个轻量级的FCN,由5个堆叠的Conv-BN-REU层组成。分类头是一个三层感知器,每层有256个隐含单元。
训练。训练数据由LaSOT[13]、GOT-10K[18]、COCO2017[30]和TrackingNet[36]的训练拆分组成。根据VOT2019挑战的要求,我们从GOT-10K训练集中去除了1k个禁用序列。搜索图像和模板的大小分别为320×320像素和128×128像素,分别相当于目标方框面积的25倍和4倍。使用数据增强,包括水平翻转和亮度抖动。STARK-ST的最小训练数据单元是一个三元组,由两个模板和一个搜索图像组成。STARK-ST的整个训练过程分为两个阶段,分别用了500个epoch进行定位和50个epoch进行分类。每个epoch使用6×104个三元组。使用ADAMW优化器[31]和权重衰减10−4对网络进行优化。损失权重λL1和λIOU分别设置为5和2。每个GPU拥有16个三元组,因此最小批量大小为每次迭代128个三元组。主干和其余部分的初始学习速率分别为10−5和10−4。第一阶段学习速度在400个epoch后下降了10倍,第二阶段在40个epoch之后下降了10倍。STARK-S的训练设置与STARK-ST几乎相同,不同之处在于:(1)STARK-S的最小训练数据单元是模板-搜索对;(2)训练过程只有第一阶段。
推理。默认情况下,动态模板更新间隔Tu和置信度阈值τ分别设置为200帧和0.5。推理管道只包含前向传递和从搜索区域到原始图像的坐标变换,没有任何额外的后处理。
我们在三个短期基准(GOT-10K、TrackingNet和VOT2020)和两个长期基准(LaSOT和VOT2020-LT)上将我们的STARK与现有最先进的对象跟踪器进行了比较。
GOT-10K。GOT-10K[18]是一个涵盖目标跟踪中广泛常见挑战的大规模基准测试。GOT-10K要求跟踪器只使用GOT-10K的训练集进行模型学习。我们遵循这一政策,只用GOT-10K训练集组对我们的模型进行再训练。如表1中所述,在具有相同ResNet-50主干的情况下,STARK-S50和STARK-ST50的AO得分分别比PrDiMP50[10]高3.8%和4.6%。此外,STAK-ST101获得了68.8%的最新最先进的AO得分,比使用相同ResNet-101主干的Siam R-CNN[47]高出3.9%。
TrackingNet。TrackingNet[36]是一个大规模的短期跟踪基准,包含测试集中的511个视频序列。表2中表示在AUC中,STAK-S50和STARKST50分别比PrDiMP50[10]提高4.5%和5.5%。凭借更强大的ResNet-101主干,STARK-ST101实现了82.0%的最佳AUC,比Siam-CNN高出0.8%。
VOT2020。与以往基于重置的评估[23]不同,VOT2020[22]提出了一种新的基于锚点的评估方法并且使用二进制分段掩码作为groundtruth。排名的最终指标是预期平均重叠(EAO)。表3表明STARKS50达到了竞争的结果,优于DIMP[3]和UPDT[4]。在引入时间信息后,STAK-ST50获得了0.308的EAO,优于以前的包围盒跟踪器。受VOT2020实时挑战赛获胜者AlphaRef[22]的启发,我们为STARK配备了一个由AlphaRef提出的精化模块来生成分割掩码。新的追踪器“STAK-ST50AR”超越了之前的SOTA追踪器,如AlphaRef和Ocean Plus[60],获得了0.505的EAO。
LaSOT。LaSOT[13]是一个大规模的长期跟踪基准,在测试集中包含280个视频,平均长度为2448帧。STARK-S50和STARKST50使用相同的ResNet-50主干,分别比PrDiMP[10]提高6.0%和6.6%。此外,STAK-ST101获得了67.1%的成功率,比暹罗-CNN[47]高出2.3%,如图5所示。
VOT2020-LT。VOT2020-LT由50个长视频组成,其中目标对象频繁消失和重现。此外,追踪者还被要求报告目标在场的置信度得分。准确率(Pr)和召回率(Re)是在一系列置信度阈值下计算的。定义被用来对不同跟踪器进行排名。由于STAK-S无法预测此分数,因此我们不会在VOT2020-LT上报告其结果。表4结果表明,STARK-ST50和STARK-ST101的F值分别为70.2%和70.1%,优于以往的所有方法。同样值得注意的是,STARK的框架比VOT2020-LT挑战赛的获胜者LTMU_B要简单得多。具体地说,LTMU_B采用ATOM[9]和SiamMask[50]的组合作为短期跟踪器,MDNet[37]作为验证器,GlobalTrack[19]作为全局检测器。而在STARK中只有一个网络,并且只需一次前向传播不需要后处理即可得到结果。
速度、翻转和参数。如表5中所示,STARK-S50的实时运行速度可以超过40fps。此外,STARK-S50的FLOP和参数分别比SiamRPN++少4倍和2倍。虽然STARKST50采用动态模板作为额外的输入,并引入了额外的分数头,但Flops和params的增加很少,甚至可以忽略不计。这表明我们的方法能够以几乎免费的方式利用时间信息。当使用ResNet-101作为主干时,FLUPS和PARS都显著增加,但STARKST101仍然可以实时运行,这比Siam R-CNN(5fps)快6倍,如图1所示。
在这一部分中,我们选择STARK-ST50作为基础模型,并评估其中不同成分对LaSOT的影响[13]。为简单起见,编码器、解码器、位置编码、角点预测和分数头分别缩写为enc、dec、pos、角点和分数。如表6中所示,#1,当拆卸编码器时,成功率显著下降5.3%。这说明来自模板和搜索区域的特征之间的深度交互起着关键作用。当如#2所示移除解码器时,性能下降1.9%,这一降幅小于移除编码器时的性能降幅,说明解码器的重要性低于编码器。当去掉位置编码时,性能仅下降0.2%,如#3所示。因此,我们得出结论,在我们的方法中,位置编码不是关键部分。我们还尝试用一个三层感知器来代替角头,就像在DETR[5]中那样。#4显示,使用MLP作为盒头的STARK的性能比建议的角头低2.7%。结果表明,角头预测的盒子精度更高。如#5所示,去掉分数头时,性能下降到64.5%,低于不使用时间信息的STARK-S50。这表明不正确地使用时间信息可能会损害性能,并且过滤掉不可靠的模板是很重要的。
在本节中,我们选择STARK-ST50作为我们的基础模型,并将其与其他可能的候选框架进行比较。这些框架包括从模板生成查询、使用匈牙利算法、像TrackFormer[35]中那样更新查询,以及联合学习本地化和分类。由于篇幅所限,详细建筑的图表在补充材料中列出。
模板图像充当查询。查询和模板在变压器跟踪中具有类似的功能。例如,它们都被期望对有关目标对象的信息进行编码。从这个角度来看,一个自然的想法是使用模板图像作为解码器的查询。具体地,首先将模板和搜索区域特征分别馈送到加权共享编码器,然后使用模板特征生成的查询与解码器中的搜索区域特征交互。如表7中所示,该框架的性能为61.2%,比我们设计的性能低5.2%。我们推测其根本原因在于,与我们的方法相比,该设计缺乏从模板到搜索区域的信息流,从而削弱了搜索区域特征的区分能力。
使用匈牙利算法[5]。我们也尝试使用K个查询,用置信度分数预测K盒。在实验中,k等于10。在使用匈牙利算法的训练期间,基本事实与这些查询动态匹配。我们观察到,这种培训策略导致了“马太效应”。具体地说,一些问题在训练开始时预测的框比其他问题稍微准确一些。然后由匈牙利算法选择它们与基本事实进行匹配,进一步拉大了选择的查询和未选择的查询之间的差距。最后,只有一两个查询能够预测高质量的盒子。如果在推理过程中没有选择它们,则预测框可能会变得不可靠。如选项卡中所示。7、该策略的性能不如我们的方法,差距为2.7%。
更新查询嵌入。与STARK通过引入额外的动态模板来利用时态信息不同,TrackFormer[35]通过更新查询嵌入来编码时态信息。遵循这一思想,我们通过更新目标查询将STARK-S50扩展到一个新的时间跟踪器。制表符。7测试结果表明,本设计的成功率为64.8%,比STARK-ST50的成功率低1.6%。潜在的原因可能是可更新查询嵌入带来的额外信息比额外模板带来的信息少得多。
本地化与分类化的联合学习。如第3.2节所述,本地化被视为首要任务,并在第一阶段进行培训。而分类训练是第二阶段的次要任务。我们还进行了一次联合学习本地化和分类法的实验。如表7中所示,这一策略导致的结果是次优的,比斯塔克的策略低3.9%。两个潜在的原因是:(1)分数头的优化干扰了盒头的训练,导致盒头预测不准确。(2)这两个任务的训练需要不同的数据。具体地说,本地化任务希望所有搜索区域都包含跟踪目标,以提供强有力的监督。相比之下,分类任务要求均衡分布,一半的搜索区域包含目标,而其余一半不包含。
编码器注意力。图6的上部显示了来自Cat-20的模板搜索三元组,以及来自最后一个编码层的注意图。以初始模板的中心像素为查询,以三元组中的所有像素为关键字和值计算可视化关注度,可以看出关注点集中在跟踪的目标上,并与背景大致分离。此外,编码器产生的特征对目标和干扰物也有很强的分辨能力。
解码器注意力。图6的下部展示了来自牛-13的模板搜索三元组,以及来自最后一个解码层的注意图。可以看出,解码器对模板和搜索区域的关注度是不同的。具体地说,对模板的关注主要集中在目标的左上角区域,而对搜索区域的关注往往集中在目标的边界上。此外,习得的注意力对分心的人来说也是健壮的。
本文提出了一种新的基于transformer的跟踪框架,该框架能够捕捉到时间和空间两个维度上的远程依赖关系。此外,提出的STARK跟踪器去掉了对超参数敏感的后处理,从而使推理流水线变得简单。广泛的实验表明,STARK跟踪器在五个短期和长期基准上的性能比以前的方法要好得多,而且是实时运行的。我们期望这项工作能引起人们对变压器架构视觉跟踪的更多关注。