[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers

Abstract

背景:长期跟踪的难点在于目标离开视线或被遮挡引起的不连续运动。

现存方法:现存的长期跟踪方法有2种策略:1)使用局部跟踪器执行平滑的跟踪并在目标丢失时使用其他的重检测器检测目标,这样的方法可以探索类似目标历史外观和定位的时域上下文信息,但其局部跟踪器可能被相近的干扰物误导,使得在目标丢失时没有激活重检测器;2)在整张图像中追踪目标而不是基于先前帧的追踪结果执行局部追踪,但这些样的全局追踪无法有效利用时域上下文。

本文做法:联合了以上2种策略的优势,在全局中追踪目标并探索时域上下文。具体地,通过整张图像上的局部跟踪器的集成执行全局追踪:目标的平稳移动可以通过一个局部追踪器处理;目标突然丢失,其他接近目标的局部追踪器被激活并继续定位目标。

本文效果:6个数据集上验证本文的算法是SOTA。

1. Introduction

长期跟踪和短期跟踪的2大差异

  • 长期跟踪benchmarks数据集(LaSOT, TLP, OxUvA)中序列的平均持续时间约为几百秒,而短期跟踪benchmarks数据集(OTB2015, TrackingNet, GOT-10k)中序列的平均持续时间只有几十秒;
  • 长期跟踪任务需要算法可以处理由目标消失/形变导致的目标不连续运动问题。

大部分算法都是在一个局部区域内搜索目标,导致无法处理长期跟踪任务中目标频繁不连续移动的问题。以下介绍2种经典策略来处理此类问题:

名称 内容 缺陷
local-global switching strategy 为局部跟踪器装配一个全局重检测器,当局部跟踪器丢失目标时,使用重检测器重新找回目标 是否切换重检测器由局部跟踪结果决定,算法可能会被干扰物误导,无法适时启动重检测器
long-term trackers 在每一帧的整张图像上执行全局重检测 GlobalTrack:完全忽视时域信息,在目标形变和背景干扰时效果差;DMTrack:引入Re-ID嵌入,将相邻帧的检测连接起来,但仅限于行人数据集。

本文做法:通过局部跟踪器的集成执行全局跟踪,结合了以上2种方法各自的优势(以全局视角跟踪目标+利用时域信息)。具体地,在整张图象的不同参考位置使用不同的局部跟踪器,每个局部跟踪器在其参考位置附近的区域内搜索目标。当一个局部跟踪器成功定位目标时,它就继续保持跟踪(同事探索时域信息);当该跟踪器丢失目标时,其他距离目标近的局部跟踪器就会被激活去继续跟踪,而原来的跟踪器就回到它的起始位置。这个过程可用下图表示:[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第1张图片
此外,本文还提出了a deformable attention-based local tracker在全局视野中模拟局部跟踪机制; a temporal context transferring scheme去探索时序信息(i.e.目标形变和历史位置)。

2. Related Work

方法类型 相关算法 备注
Local-global Switching Strategy Trackers TLD:将光流用于局部追踪,弱分类器的集成用于全局重检测;一些方法:增大搜索区域 关键点在于如何决定是否转换至全局重检测(由局部追踪器得到的响应图;额外的可学习验证器)。这些转换方法都是完全由局部追踪器决定的,i.e.,在局部搜索区域外的信息被完全忽略,使得算法被干扰物误导。
Global Tracking Strategy Trackers GlobalTrack:不考虑时域上下位直接执行全局one-shot检测,对目标形变敏感;Siam R-CNN设计了一个精细的全局重检测器并和手工分数联系起来用于动态规划,运行很慢;DMTrack引入Re-ID分支,仅适用于行人数据集。
Transformer Tracking 本文用局部追踪器的集成以编解码结构来实现全局追踪。本文和MOT都用了多个queries,MOT中的每个query负责检测和追踪不同目标,本文中所有的queries协同工作用于追踪一个目标

3. Method

官方图示**:[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第2张图片

具体操作**:
[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第3张图片

4. Experiments

4.1 Implementation Details

Backbone ImageNet上预训练的ResNet-50,conv-4的输出作为Backbone特征
Head DERT
匈牙利算法 从候选框内选择最终的预测框,考虑了候选框的置信度和位置
候选框置信度计算 模板和候选框在特征空间内的余弦相似度,通过将分类分数和余弦相似度相乘得到置信度
目标丢失判断 置信度和阈值比较
局部跟踪器N和L值设置 10和5
损失函数中的各个权重 1.0, 5.0 ,5.0, 2.0
训练样本来源 COCO, LaSOT, TrackingNet, GOT-10k

4.2 Ablation Study

[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第4张图片[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第5张图片

4.3 Comparison with State-of-the-art Trackers[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第6张图片[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第7张图片

4.4 Qualitative Comparison

[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第8张图片

4.5 Limitations

[VOT7](2022CVPR) GTELT:Global Tracking via Ensemble of Local Trackers_第9张图片

你可能感兴趣的:(目标跟踪,目标跟踪,人工智能,计算机视觉)