GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)

GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读

  • Abstract
  • Related Work
  • Our Approach
    • 3.1 Query-guided RPN
    • 3.2 Query-guided RCNN
    • 3.3 Cross-query Loss交叉查询损失
    • 3.4 Offline Training离线训练
    • 3.5 Online Tracking在线跟踪
  • Experiments
    • 4.1 Implementation Details实现细节
      • 4.1.1Parameters
      • 4.1.2Training Data
      • 4.1.3 Optimization
    • 4.2 Ablation Study 消融实验
      • 4.2.1 QG-RPN分析
      • 4.2.2 QG-RPN与QG-RCNN的比较
      • 4.2.3 Impact of Loss Function
    • 4.3 与先进水平的比较
      • 4.3.1 LaSOT
      • 4.3.2 TLP
      • 4.3.3 TrackingNet
      • 4.3.4 OxUvA
  • 结论及未来工作

论文链接: https://arxiv.org/abs/1912.08531

Abstract

    长期跟踪器的一个关键能力是在非常大的区域(通常是整个图像)搜索目标,以处理可能的目标缺失或跟踪失败。然而,目前还缺乏这样一个强大的全局实例搜索基线。在这项工作中,我们的目标是弥合这一差距。具体来说,我们提出了GlobalTrack,这是一个纯全局实例搜索的跟踪器,它不假设目标位置和规模的时间一致性。GlobalTrack是基于两级对象检测器开发的,它可以对任意实例进行全图像和多尺度搜索,只需要一个查询作为向导。我们进一步提出了一个交叉偏移损失,以提高我们的方法对干扰的鲁棒性。没有在线学习,没有对位置或尺度变化的惩罚,没有尺度平滑,没有轨迹细化,我们的纯全局实例搜索跟踪器在四个大规模跟踪基准上获得了相当的,有时更好的性能(即,LaSOT上52.1%的AUC, TLP上63.8%的成功率,OxUvA上60.3%的MaxGM和TrackingNet上75.4%的标准化精度),与通常需要复杂后处理的最先进的方法相比。更重要的是,我们的跟踪器没有累积错误,也就是说,任何类型的临时跟踪故障都不会影响它在未来帧上的性能,使其成为长期跟踪的理想选择。我们希望这项工作将成为长期跟踪的坚实基础,并将刺激该领域未来的工作。代码可在https: //github.com/huanglianghua/GlobalTrack。

   在第一帧中给定一个任意的、用户指定的目标,视觉跟踪的任务是在连续的帧中连续地定位它。视觉跟踪已广泛应用于监控、增强现实、机器人和视频编辑等多个领域。在过去的几十年里,这一领域已经取得了重大进展。
    现有的跟踪器大多在目标位置和规模平稳变化的强时间一致性假设下工作。这些方法通常在小窗口内搜索目标,并对大位置和规模变化施加惩罚,以限制预测空间。然而,现实世界中的各种挑战可能会打破这种假设,导致这些方法失败。图1显示了一些最先进的跟踪器的典型故障案例,在突然的位置和规模变化、目标缺失和临时跟踪故障下,这些方法都不能长时间一致地定位目标。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第1张图片
图1:我们的方法与最新跟踪器的比较。TOM、siamrpn++和DaSiam LT在目标状态平稳变化的时间一致性假设下工作。然而,如图所示,这种假设并不一定成立。在突然运动和目标暂时缺失的情况下,这些跟踪器无法长期定位目标。我们的方法GlobalTrack,一个纯粹的基于全局实例搜索的跟踪器,成功地处理了这些挑战,并提供了强大的跟踪结果。

   在本文中,我们提出了一个使用纯全局实例搜索来处理这些挑战的基线跟踪器。其关键思想是去除局域性假设,使跟踪器能够在任意位置和任意尺度上搜索目标,从而避免跟踪过程中的累积误差。我们基于目标检测模型构建了这种全局实例搜索算法,因为它们能够对任意大小的目标进行全图像和多尺度搜索
   具体来说,我们提出了GlobalTrack,一个全图像视觉跟踪器,灵感来自于两阶段对象检测器Faster-RCnn。与Faster- RCnn类似,GlobalTrack包含两个子模块:用于生成特定于查询的候选对象的查询引导区域提议网络(QG-RPN)和用于对候选对象进行分类并产生最终预测的查询引导区域卷积神经网络(QG-RCNN)。GlobalTrack的整体架构如图2所示。在QG-RPN和QG-RCNN的特征调制部分,我们在骨干和ROI输出中对查询和搜索图像特征之间的相关性进行编码,从而指导检测器定位特定于查询的实例。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第2张图片
图2:GlobalTrack的整体架构。该体系结构由两个子模块组成:用于生成特定于查询的建议的查询引导RPN (QGRPN)和用于区分建议并产生最终预测的查询引导RCNN (QG-RCNN)。在QG-RPN和QG-RCNN的特征调制中,我们对骨干输出和ROI输出中查询和搜索图像特征之间的相关性进行编码,从而指导检测器定位特定查询实例。在跟踪时,我们使用第一帧作为查询,并简单地将一帧中排名前1的预测作为跟踪结果。
   在跟踪过程中,我们将带注释的第一帧作为查询,并在每一帧中独立地搜索目标。我们简单地将QGRCNN的top-1预测作为跟踪结果,不做任何进一步的后处理。虽然添加额外的过程,如轨迹平滑,可能会提高我们方法的性能,但我们更倾向于保持当前模型的简单和直接。在训练阶段,我们从视频数据集中采样帧对来优化模型,利用与fast-rcnn相同的分类和定位损失。我们进一步提出了一个交叉查询损失来提高GlobalTrack对实例级干扰的鲁棒性,它平均了同一图像上不同查询的损失,迫使模型学习查询和预测结果之间的强依赖性。
   我们在四个大规模跟踪基准上验证了我们方法的性能:LaSOT、TrackingNet、TLP和OxUvA,其中LaSOT、OxUvA和TLP是平均视频长度分别为2500、4260和13529帧的长期跟踪基准。与通常需要复杂后处理的最先进方法相比,GlobalTrack在这些数据集上的表现令人印象深刻。例如,GlobalTrack在LaSOT基准上实现了52.1%的曲线下面积(AUC),表现优于SiamRPN++和ATOM;在TLP基准上,它也实现了11.1%的大利润率绝对收益,超过了之前最好的长期跟踪器SPLT。更重要的是,由于我们的方法没有对时间一致性进行假设,因此它在一帧中的表现完全独立于之前的跟踪失败,使我们的模型能够跟踪非常长的视频而不会受到累积误差的影响图3显示了一个示例,其中目标暂时消失了大约400帧。比较后的方法无法在目标再次出现时重新定位目标,而GlobalTrack在目标出现时立即捕获目标,显示了我们的方法在长期跟踪场景中的优势
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第3张图片
图3:一个长期跟踪的例子,目标经历了一段时间(约400帧)的缺失。所有比较方法都无法在暂时缺席后重新定位目标,而GlobalTrack在目标重新出现时立即重新定位,并获得了更高的平均IoU分数。这个例子显示了GlobalTrack的优势——由于它不做局部性假设,而是全局搜索,所以它在一帧中的性能不受之前失败的影响

Related Work

   长期跟踪是指在相对较长的视频中连续定位任意目标的任务,该目标可能会暂时消失。长期跟踪的一个关键挑战是在目标缺席或跟踪失败一段时间后找回目标。据我们所知,只有有限的研究关注这一任务(Kalal, Mikolajczyk, and Matas 2012;Ma等2015;Wang等2019 b;杨阳等,2019)。代表性的方法包括TLD,SPL,LCT,EBT和DaSiam LT。
   TLD、SPL、LCT和EBT都能够进行充分搜索,这是一项重要的能力,特别是在目标可能消失的情况下。TLD、SPL和LCT在检测到跟踪失败时全局搜索目标,而EBT始终执行全图像搜索DaSiam LT是DaSiamRPN的一种变体,用于长期跟踪,在检测到跟踪失败时扩大搜索区域。与这些跟踪器类似,我们的GlobalTrack方法可以对目标执行全图像搜索。不同的是,我们不使用在线学习,也不对目标位置或规模的时间一致性施加限制,以避免累积错误
   在跟踪框架方面,我们的方法与SiamRPN和ATOM有一些相似之处,它们都使用共享的主干来提取查询和搜索图像的特征,并使用相关性来编码它们之间的关系。然而,我们的工作与这些方法有显著的差异:(1)我们的方法在所有帧中对目标进行全局搜索,不依赖任何局域性假设,而ATOM和SiamRPN只进行局部搜索,并使用复杂的后处理对目标的位置和规模变化施加约束;(2)我们重用Faster-RCNN的RPN和RCNN头,并将其应用于调制特征上,生成建议和最终预测。但是,SiamRPN使用查询生成分类和定位权重,而ATOM在跟踪过程中从头学习手工制作的分类器。

Our Approach

   在这项工作中,我们提出了GlobalTrack,一个纯粹的基于全局搜索的跟踪器,由两个组件组成:用于自适应生成特定于某个查询的建议的QueryGuided RPN (QG-RPN)用于对建议进行分类并生成最终预测的query - guided RCNN (QG-RCNN)。GlobalTrack的整体架构如图2所示。在QG-RPN和QG-RCNN的特征调制部分,我们在骨干层和ROI层的输出中对查询和搜索图像特征之间的相关性进行编码,从而使模型能够学习查询与预期预测结果之间的强依赖性
   下面,我们首先详细介绍QG-RPN和QG-RCNN。然后,我们提出了在我们的方法中使用的交叉查询损失。最后,我们介绍了该方法的离线训练和在线跟踪过程。

3.1 Query-guided RPN

   区域建议网络(Region Proposal Networks, RPNs)被广泛应用于两级对象检测器中,用于生成预定义类的类未知候选对象,并缩小搜索范围。然而,这些RPN是通用的;在跟踪时,我们只对特定目标的候选对象感兴趣。我们提出了一个查询引导的RPN (QG-RPN)来实现这一点,其关键思想关键思想使用相关性来编码骨干特征中的查询信息
其中,设 在这里插入图片描述表示查询实例的ROI (region-of-interest)特征,在这里插入图片描述表示搜索图像特征,其中h、w、k表示特征大小;我们的目标是获得一个编码z和x之间相关性的在这里插入图片描述

在这里插入图片描述

这里在这里插入图片描述表示卷积算子,在这里插入图片描述将z转换为卷积核,该卷积核应用于投影特征在这里插入图片描述 上,以生成z和x之间的相关性。 在这里插入图片描述确保输出在这里插入图片描述有相同的大小,定义: 在这里插入图片描述是一个k×k卷积层,填充为零,将z转换为1×1卷积核在这里插入图片描述是一个带有1像素填充的3×3卷积层在这里插入图片描述是一个将通道数channel转换回c的1×1卷积层。我们在这些投影中不使用归一化和激活
由于在这里插入图片描述保留了x的大小,我们直接重用RPN的模块,并执行它的后续过程(分类、定位、过滤等)来生成提案。我们使用相同的RPN损失来训练QG-RPN,其中分类和定位损失在这里插入图片描述在这里插入图片描述分别为二元交叉熵和平滑L1 (Girshick 2015)。
QG-RPN的总损耗为:
在这里插入图片描述

其中pi和si是第i个建议的预测分数和位置,而在这里插入图片描述在这里插入图片描述是基本真理。λ是平衡分类和定位损失的权重。

3.2 Query-guided RCNN

   对于QG-RPN生成的提案,在第二阶段,我们需要根据ROI特征对其标签和边界框的预测进行细化。注意,这样的过程是特定于查询的,因为显然不同的查询对应不同的基本事实。我们提出了查询引导RCNN (QG-RCNN)来对这些建议进行分类和边界框细化。具体来说,给定查询在这里插入图片描述和第i个提议在这里插入图片描述的ROI特征,我们对它们的相关性进行特征调制编码:在这里插入图片描述
其中在这里插入图片描表示矩阵对应元素相乘,hx和hz分别为xi和z的特征投影,hout生成输出特征 并确保其保留xi的大小。在我们的方法中,我们简单地将hx和hz设置为3×3卷积层,填充1像素,hout设置为1×1卷积层,输出通道数为c。
   在得到调制特征xi之后,我们继续进行传统的RCNN过程,并对建议进行分类和本地化,以获得最终的预测。在训练过程中,与QG-RPN类似,我们使用二进制交叉熵和平滑L1作为分类和定位损失来优化我们的模型。QG-RCNN的总损耗公式为:在这里插入图片描述
其中在这里插入图片描述是提案编号。
在这里插入图片描述
这里的pi和si是估计的置信度和位置(中心和尺度偏移),而 在这里插入图片描述在这里插入图片描述是基本事实。λ是平衡不同损失的权重。

3.3 Cross-query Loss交叉查询损失

   为了提高我们的方法对实例级干扰的鉴别能力,我们提出了交叉查询损失。关键思想是通过使用不同的查询搜索相同的图像平均它们的预测损失来增强我们的模型对查询和预测输出之间关系的认识。形式化地说,给定一对具有M个共存实例{1,2,····,M}的图像,我们可以构造M个查询搜索图像对,从而计算M个QG-RPN和QG-RCNN损失。我们对这些查询的损失进行平均,以获得一对图像的最终损失:
在这里插入图片描述
其中: 在这里插入图片描述
注意在这里插入图片描述的计算是非常高效的,因为M个查询-搜索图像对在骨干特征提取中共享大部分计算。

3.4 Offline Training离线训练

   在训练阶段,我们从训练视频中随机抽取帧对来构建训练数据。对于每个帧对 和 ,我们找到M个同时存在于这两个帧中的实例,然后相应地构造M个查询搜索图像对。我们在 和 上运行一个骨干网向前传递,获得它们的特征映射,然后使用Eq.(1)和Eq.(3)进行M次特征调制。调制后的特征被输入QG-RPN和QG-RCNN,以获得特定查询的预测。然后使用公式(6)计算帧对的损失,这是所有可用查询损失的平均值。数据采样和损失评估进行了多次迭代,我们使用标准的随机梯度下降(SGD)算法来优化我们的模型。

3.5 Online Tracking在线跟踪

   我们方法的跟踪过程非常简单。在第一帧中,我们使用用户指定的注释初始化查询。然后,查询在整个跟踪过程中是固定的,不需要更新。在一个新的跟踪框架中,我们以查询和当前图像为输入,运行QG-RPN和QG-RCNN的正向传递。最后,我们直接将QG-RCNN在这一帧中的top-1预测作为跟踪结果。不需要进一步的后处理。虽然添加一些后处理,如对大状态变化施加惩罚或执行轨迹细化,可能会提高我们方法的性能,但我们更倾向于保持当前模型的简单和直接,并将更自适应的跟踪模型留给我们未来的工作。

Experiments

   为了验证我们方法的有效性,我们对四个大规模跟踪基准进行了评估:LaSOT、TrackingNet、TLP和OxUvA,其中他们的测试集分别包含280、511、180和166个视频。LaSOT、TLP和OxUvA是长期跟踪基准,平均视频长度分别为2500、13529和4260帧。在本节中,我们将我们的总体结果与最先进的方法进行比较。我们还进行实验,以分析我们的个别组件的有效性。

表2:AR@k中QG-RPN和QG-RCNN的数值比较。QG-RCNN在AR@1的表现比QG-RPN高出约9.5%。随着候选对象的增加,QG-RPN的平均召回率比QG-RCNN高5%左右。随着候选数的增加,QG-RPN和QG-RCNN的平均召回率趋于接近。
在这里插入图片描述

4.1 Implementation Details实现细节

4.1.1Parameters

   我们使用ResNet-50骨干的Faster-RCNN作为构建查询引导RCNN的基础模型。骨干特性的通道号为c 256。我们将fx, fz和hx, hz的输出通道数设置为c0 = 256。通过这种方式,fz实际上将查询特征z转换为1×1深度卷积核,这在计算中更有效。
我们采用ROI对齐(He et al 2017)来提取ROI特征,其中输出特征大小设置为k = 7。我们将每个输入图像的大小归一化,使其长边不大于1333像素,而短边不大于800像素。QG-RPN生成2000个提案用于计算其损失,其中512个提案被抽样输入QG-RCNN。将式(2)和式(5)中的定位损失权重设为λ = 1

4.1.2Training Data

   我们使用COCO,GOT-10k和LaSOT数据集用于训练我们的模型,其中三个数据集的采样概率分别为0.4,0.4和0.2。COCO是一个图像对象检测数据集,包含超过11.8万张图像,属于80个对象类。GOT-10k和LaSOT是视觉跟踪数据集,其中GOT-10k由属于563个对象类的10,000个视频组成,而LaSOT由属于70个对象类的1,400个视频组成。对于COCO数据集,我们随机抽取一张图像,并对其进行数据增强,生成图像对;而对于GOT-10k和LaSOT数据集,我们直接从视频中采样帧对。我们使用随机水平翻转和颜色抖动来增强图像对并丰富我们的训练数据。

4.1.3 Optimization

   我们使用4对批量大小的随机梯度下降来训练我们的模型。动量衰减和权值衰减分别设置为0.9和1×10−4。模型的主干是由COCO数据集上的Faster-RCnn初始化的。我们在训练过程中固定批归一化参数,同时允许所有其他参数可训练。我们在COCO上训练了12个epoch的模型,在COCO、GOT-10k和LaSOT数据集的组合上训练了另外12个epoch的模型,如前一小节所述。初始学习率为0.01,在第8和11 epoch衰减为0.1。我们的方法是使用PyTorch在Python中实现的。训练过程在4个GTX TitanX gpu上大约需要16个小时,而在线跟踪在单个gpu上以大约6帧/秒的速度运行。

4.2 Ablation Study 消融实验

   在本节中,我们将对所提议的方法进行广泛的分析。除非特别说明,实验是在OTB-2015数据集上进行的,该数据集包含100个视频。我们使用重叠精度(OP)来评估这些方法,它表示重叠率超过0.5的成功跟踪帧的百分比

4.2.1 QG-RPN分析

   我们比较了所提出的查询引导RPN,它能够根据不同的查询自适应地改变预测,与通用RPN及其改进的导向锚RPN (GA-RPN)。结果如图4和表1所示。我们使用AR@k来评估这些RPN,它表示使用前k预测的平均召回率。如图4所示,QG-RPN始终以较大的优势优于RPN和GA-RPN,并且仅用少量的提议就能实现较高的召回率。表1显示了数值比较。仅使用排名前1的预测,QG-RPN的召回率为67.1%,超过RPN和GA-RPN 55%以上。QG-RPN的召回率仅为91.9%,与RPN和GA-RPN的召回率前500名相当,表明了我们方法的有效性。对于前2000个提案,我们的方法也优于比较的方法,召回率达到99.2%。这些结果验证了QG-RPN在召回率和效率上的优越性。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第4张图片
图4:不同区域提案网络(RPNs)的AR@k图(Accuracy Ratio @k)。与通用提议网络RPN和GA-RPN相比,所提出的查询引导RPN始终表现出更高的查全率。

表1:不同区域提案网络(RPNs)的AR@k。QG-RPN在很少的建议下显示出较高的回忆率。此外,在所有方案可用的情况下,QG-RPN的平均召回率仍然超过了比较的方法。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第5张图片

4.2.2 QG-RPN与QG-RCNN的比较

   QG-RPN和QG-RCNN是我们的方法中分别追求召回率和top-1精度的两个阶段。我们在图5和表2中比较了他们的AR@k结果。如图5所示,QG-RCNN在一开始就比QGRPN获得了更高的AR分数,随着候选对象的增加,QG-RPN很快就超过了QG-RCNN。从表2中我们观察到,QGRCNN的top-1精度(即AR@1)超过QG-RPN高达9.5%。然而,随着引入更多的候选,即使只使用前5个预测,QG-RPN的召回率也明显高于QG-RCNN。随着k的增大(如k≥100),QG-RPN和QG-RCNN的AR值趋于接近。结果验证了QG-RPN和QG-RCNN的有效性,并显示了它们在准确性和召回率方面的不同偏好。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第6张图片
图5:QG-RPN和QG-RCNN的AR@k图。QGRCNN获得了比QG-RPN更高的AR@1(相当于top1精度),而随着引入更多的候选,其平均召回率很快被QG-RPN超过。
结果表明,QGRPN和QG-RCNN在查全率和准确率上有不同的偏好。

4.2.3 Impact of Loss Function

   为了验证所提出的交叉查询损失的有效性,我们将我们的模型与交叉查询损失和单个查询损失(每个图像对只考虑一个实例的损失)进行了比较。我们在LaSOT数据集的测试集上对这两个模型进行了评估。结果如表3所示。我们观察到,使用交叉查询损失训练的模型在所有三个指标上都超过了使用单个查询损失训练的模型2.6% ~ 4.2%,验证了所提出的损失函数的鲁棒性。
表3:使用交叉查询损失和单查询损失训练的GlobalTrack的比较。在LaSOT测试集上对其性能进行了评估。结果表明,使用交叉查询损失训练的模型在所有三个指标上都优于使用单查询损失训练的模型。
在这里插入图片描述

4.3 与先进水平的比较

   我们将GlobalTrack方法与最先进的跟踪器在四个大规模跟踪基准上进行了比较。比较的方法包括SPLT、ATOM、siamrpn++、C-RPN、MBMD、DaSiam LT、UPDT, VITAL, SINT, CF2 (Chao et al. 2016), ADNet,MDNet, SiamFC, SiamFCv2, CFNet, StructSiam, ECO, PTA V, TLDand LCT.

4.3.1 LaSOT

   LaSOT的测试集由280个视频组成,平均长度为2448帧,比大多数其他数据集都要长。LaSOT的精度和成功图如图6所示。与之前的最佳方法ATOM和SiamRPN++相比,我们的方法在精度分数上分别获得了2.2%和3.6%的绝对增益,在成功分数上分别获得了0.7%和2.5%的绝对增益。跟踪结果证明了全局实例搜索在长期跟踪中的优势。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第7张图片
图6:GlobalTrack和最先进的跟踪器在LaSOT测试集上的成功图。与之前的最佳跟踪器ATOM相比,我们的方法分别获得了2.2%的精度分数和0.7%的成功分数的绝对收益。此外,GlobalTrack的表现也大大优于最新的长期跟踪器SPLT和DaSiam LT。

4.3.2 TLP

   该数据集由50个长视频组成,平均长度为13529帧,比所有其他跟踪数据集都长得多。跟踪器的结果如表4所示。我们的GlobalTrack方法优于所有其他跟踪器,包括最新的长期跟踪器SPLT,以非常大的差距(SR0.5的绝对增益约为11.1%),验证了我们的方法在跟踪超长视频方面比所有现有算法的显著优势。
表4:长期跟踪基准TLP在成功率(SR,重叠阈值0.5以下)、成功评分和精确评分方面的最新比较。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第8张图片

4.3.3 TrackingNet

   TrackingNet的测试集包括从YouTube网站收集的511个视频。跟踪器的评价结果如表5所示。SiamRPN++和ATOM分别获得了73.3%和70.3%的成功分数,而我们的方法获得了70.4%的成功分数,这与最好的跟踪器相当。跟踪结果表明了该方法在大量测试数据上的泛化能力。
表5:TrackingNet测试集在精度、归一化精度和成功(AUC)方面的最新比较。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第9张图片

4.3.4 OxUvA

    OxUvA是一个长期跟踪基准,其开发和测试集分别由200个和166个视频组成。OxUvA的平均视频长度为4260帧,比大多数其他数据集要长得多。OxUvA协议要求该方法不仅要提交估计的边界框,还要提交所有帧中目标缺失的预测。为了生成存在/缺席预测,我们简单地设置QG-RCNN的top1分数的阈值,其中top-1分数超过τ = 0.84的帧被认为是目标存在,而top-1分数低于阈值的帧被认为是目标缺席。跟踪器在OxUvA测试和开发集上的评估结果分别如表6和表7所示。
表6:OxUvA测试集在最大几何均值(MaxGM)、真阳性率(TPR)、真阴性率(TNR)方面的最新比较。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第10张图片

表7:OxUvA发育集的最大几何均值(MaxGM)、真阳性率(TPR)和真负率(TNR)的最新比较。与报道的最佳跟踪器siamfc - r相比,我们的方法在OxUvA的测试和开发集上分别获得了14.9%和24.2%的MaxGM (TPR和TNR的最大几何平均值)的绝对增益。结果证明了我们的方法在长期跟踪情况下的强大性能。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking中文翻译+阅读)_第11张图片

结论及未来工作

   在这项工作中,我们提出了一个纯粹的基于全局实例搜索的跟踪器,它对时间一致性没有任何假设或限制。因此,它在一帧内的性能不受以前跟踪失败的影响,这使它成为长期跟踪的理想选择。该方法基于两级目标检测器,由两个部分组成:用于生成特定于查询的候选实例的查询引导区域提议网络,以及用于对候选实例进行分类并生成最终预测的查询引导区域卷积神经网络。在四个大型跟踪基准上的实验验证了该方法的良好性能。

你可能感兴趣的:(计算机视觉,目标跟踪)