StrongSORT

论文地址:https://arxiv.org/abs/2202.13514
代码地址:https://github.com/dyhBUPT/StrongSORT

摘要

现有的多目标跟踪 (MOT) 方法可以大致分为检测跟踪和联合检测关联范式。尽管后者引起了更多的关注,并显示出相对于前者的可比性能,但我们声称,就跟踪精度而言,跟踪检测范式仍然是最佳解决方案。在本文中,我们重新审视了经典的跟踪器DeepSORT,并从各个方面对其进行了升级,即检测,嵌入和关联。生成的跟踪器称为StrongSORT,在MOT17和MOT20上实现了新的HOTA和IDF1。我们还提出了两种轻量级和即插即用算法,以进一步完善跟踪结果。首先,提出了一种无外观链接模型 (AFLink),将短轨迹关联到完整的轨迹中。据我们所知,这是第一个没有外观信息的全局链接模型。其次,我们提出了高斯平滑插值 (GSI) 来补偿缺失的检测。GSI不再像线性插值那样忽略运动信息,而是基于高斯过程回归算法,并且可以实现更精确的定位。此外,AFLink和GSI可以以可忽略的额外计算成本 (在MOT17上分别为591.9和140.9Hz) 插入到各种跟踪器中。通过将StrongSORT与两种算法集成在一起,最终地跟踪器StrongSORT在HOTA和IDF1指标方面在MOT17和MOT20上排名第一,并以1.3-2.2的优势超过第二名。代码将很快发布。

引言

多目标跟踪在视频理解中起着至关重要的作用。它的目标是逐帧检测和跟踪所有特定类别的对象。在过去的几年里,通过检测进行跟踪的范例主导了MOT任务。它执行每帧检测,并将MOT问题描述为数据关联任务。得益于高性能的目标检测模型,基于检测的跟踪方法因其出色的性能而受到青睐。然而,这些方法通常需要多个计算组件,比如一个嵌入模型和一个检测器。为了解决这个问题,最近的几种方法将检测器和嵌入模型集成到一个统一的框架中。此外,与单独的检测和嵌入训练相比,联合检测和嵌入训练似乎产生了更好的结果。因此,这些方法(联合跟踪器)与检测跟踪方法(单独跟踪器)相比,可获得相当甚至更好地跟踪精度。

联合跟踪器的成功促使研究人员为各种组件(例如,检测、运动、嵌入和关联模型)设计统一的跟踪框架 。然而,我们认为在这些联合框架中存在两个问题:

(1) 不同组件之间的竞争

(2) 用于联合训练这些组件的有限数据。

虽然已经提出了多种策略来解决这些问题,但这些问题仍然降低了跟踪精度的上限。相反,单独地追踪器的潜力似乎被低估了。

在本文中,我们重新审视了经典的单独跟踪器DeepSORT,这是最早将深度学习模型应用于MOT任务的方法之一。据称,与最先进的方法相比,DeepSORT的表现不佳是因为它过时的技术,而不是它的跟踪范式。我们表明,通过简单地为DeepSORT配备各方面的高级组件,从而产生了StrongSORT,它可以在流行的基准MOT17和MOT20上实现新的SOTA。

我们还提出了两种轻量级、即插即用、独立于模型、无外观的跟踪算法。首先,为了更好地利用全局信息,有几种方法提出使用全局链路模型将短轨迹关联到轨迹 。它们通常生成准确但不完整的轨迹,并以正常的方式将它们与全局信息关联起来。虽然这些方法显著提高了跟踪性能,但它们都依赖于计算密集型模型,尤其是外观嵌入。相比之下,我们提出了一种仅利用时空信息来预测两个输入轨迹是否属于同一ID的无外观链接模型(AFLink)。

其次,线性插值被广泛用于补偿缺失检测 。但是,它忽略了运动信息,这限制了插值位置的准确性。为了解决这个问题,我们提出了高斯平滑插值算法 (GSI),该算法通过使用高斯过程回归算法来增强插值 。

2相关工作

2.1 SDE和JDE

MOT方法可以分为单独跟踪器和联合跟踪器。单独地跟踪器遵循检测跟踪范式,首先定位目标,然后将其与外观、运动等信息相关联。受益于物体检测的快速发展 ,多年来,单独地跟踪器一直主导着MOT任务。最近,已经提出了几个联合跟踪器来联合训练检测和一些其他组件,例如运动,嵌入和关联模型。这些跟踪器的主要好处是它们的低计算成本和相当的性能。但是,我们声称联合跟踪器面临两个主要问题: 不同组件之间的竞争以及用于联合训练组件的有限数据。这两个问题限制了跟踪精度的上限。因此,我们认为检测跟踪范式仍然是跟踪性能的最佳解决方案。

同时,最近的几项研究放弃了外观信息,只依赖高性能检测器和运动信息,从而在MOTChallenge基准上实现了高运行速度和最先进的性能。然而,我们认为,部分原因是这些数据集中的运动模式普遍简单。在更复杂的场景中,放弃外观特征会导致鲁棒性差。在这篇论文中,我们采用了各种先进的技术来证实这一点。

2.2 MOT中的全局连接

为了利用丰富的全局信息,几种方法使用全局链接模型来改进跟踪结果。 他们倾向于通过首先使用时空和或外观信息来生成准确但不完整的轨迹。 然后,通过以离线方式探索全局信息,将这些轨迹链接起来。 TNT 设计了一个多尺度的 TrackletNet 来测量两个 tracklet 之间的连接性。 它通过使用多尺度卷积核在一个统一的网络中对运动和外观信息进行编码。 TPM提出了一个 tracklet-plane 匹配过程,将容易混淆的 tracklet 推入不同的 tracklet-plane,这有助于减少 tracklet 匹配步骤中的混淆。 ReMOT 是从 ReMOTS 改进而来的。 给定任何跟踪结果,ReMOT 将不完美的轨迹分割成轨迹,然后将它们与外观特征合并。 GIAOTracker提出了一种复杂的全局链接算法,该算法通过使用改进的 ResNet50-TP 模型 对 tracklet 外观特征进行编码,并将 tracklet 与空间和时间成本相关联。 尽管这些方法产生了显着的改进,但它们都依赖于外观特征,这带来了很高地计算成本。 不同的是,我们提出了仅利用运动信息来预测两个轨迹之间的链接置信度的 AFLink 模型。 通过设计适当的模型框架和训练过程,AFLink 以极少的成本使各种最先进的跟踪器受益。 据我们所知,这是 MOT 任务的第一个无外观且轻量级的全局链接模型。

2.3 MOT中的插值

线性插值被广泛用于填补缺失检测的恢复轨迹空白。尽管线性插值简单有效,但它忽略了运动信息,这限制了恢复的边界框的准确性。为了解决这个问题,人们提出了几种有效利用时空信息的策略。V-IOUTracker通过在出现漏检时退回到单目标跟踪来扩展IOUTracker。MAT采用循环伪观测轨迹填充策略,对线性插值轨迹进行非线性平滑。需要额外的摄像机运动补偿(CMC)模型和卡尔曼滤波器来预测缺失位置。MAATrack通过仅应用CMC模型简化了它。所有这些方法都使用额外的模型,即单目标跟踪器、CMC、卡尔曼滤波器,以换取性能提升。相反,我们建议基于高斯过程回归(GPR)算法对非线性运动建模。在没有额外耗时组件的情况下,我们提出的GSI算法在准确性和效率之间实现了良好的权衡。

3 StrongSORT

3.1 DeepSort

StrongSORT_第1张图片

3.2 Strong Deepsort

使用更强的特征提取器来替代resnet18提取特征,采用杜克大学reid数据集进行预训练,采用指数移动平均的方式更新第t帧处第i个轨迹的外观状态。
e i t = α e i t − 1 + ( 1 − α ) f i t e_{i}^{t}=\alpha e_{i}^{t-1}+(1-\alpha) f_{i}^{t} eit=αeit1+(1α)fit

其中 F t i F_t^i Fti是当前匹配检测的外观嵌入,α = 0.9是动量项。EMA更新策略不仅提高了匹配质量,而且减少了时间消耗。

对于运动分支,我们采用ECC 进行相机运动补偿。此外,vanilla卡尔曼滤波器是不稳定的。低质量检测 ,忽略了检测噪声尺度上的信息。为了解决这个问题,我们借用了NSA Kalman算法,该算法提出了自适应计算噪声协方差的公式

R ~ k = ( 1 − c k ) R k \widetilde{R}{k}=\left(1-c{k}\right) R_{k} R k=(1ck)Rk

其中 R k R_k Rk 是预设的常数测量噪声协方差, c k c_k ck 是状态 k 的检测置信度得分。

同时使用外观特征距离和运动信息来进行匹配,代价矩阵C是外观模型A和运动模型代价Am的加权

C = λ A a + ( 1 − λ ) A m C=\lambda A_{a}+(1-\lambda) A_{m} C=λAa+(1λ)Am

其中权重因子λ设置为0.98。另一个有趣的发现是,虽然匹配级联算法在DeepSORT中并不平凡,但随着跟踪器变得更强大,它限制了性能。原因是,随着跟踪器变得更强大,它对可混淆的关联变得更健壮。因此,附加的先验约束将限制匹配精度。我们用Vanolla全局线性赋值代替匹配级联。

StrongSORT_第2张图片

4. StrongSort++

作者在第3节介绍了一个强大地跟踪器。在本节中,我们将介绍两种轻量级、即插即用、独立于模型、无外观的算法,即AFLink和GSI,以进一步完善跟踪结果。我们称最后一种方法为StrongSORT++,它将StrongSORT与这两种算法集成在一起

4.1 AFLink

轨迹的全局关联用于多个算法中,以追求高度准确的关联。但是,它们通常依赖于计算上昂贵的组件和许多超参数来进行微调。例如,GIAOTracker [12] 中的链接算法利用改进的ResNet50-TP [16] 来提取轨迹3D特征并执行与额外的空间和时间距离的关联。这意味着要对6个超参数 (3个阈值和3个权重因子) 进行微调,这会导致额外的调谐实验和较差的鲁棒性。此外,我们发现过度依赖外观特征容易受到噪音的影响。为此,我们设计了一个无外观模型AFLink,仅依靠时空信息来预测两个轨道之间的连通性。

图 3 显示了 AFLink 模型的两分支框架。 它采用两个轨迹 T i Ti Ti T j Tj Tj 作为输入,其中 T ∗ = { f k , x k , y k } k = 1 N T_{*}=\left\{f_{k}, x_{k}, y_{k}\right\}_{k=1}^{N} T={fk,xk,yk}k=1N, 由帧 f k f_k fk 和最近 N = 30 帧的位置 (xk, yk) 组成。如果N小于30,则进行 零填充。 一个时间模块用于通过沿时间维度与 7×1 核进行卷积来提取特征。 然后,融合模块执行 1×3 卷积以整合来自不同特征维度的信息,即 f、x 和 y。 将生成的两个特征图分别池化并压缩为特征向量,然后进行连接,其中包含丰富的时空信息。 最后,MLP 用于预测关联的置信度分数。 注意两个分支的时间模块和融合模块没有绑定。

StrongSORT_第3张图片

AFLink 模型由两个轨道的时空信息作为输入,然后预测他们的连通性。

在关联过程中,我们利用时空约束过滤出不合理的tracklet对。然后,作为具有预测的连通性分数的线性分配任务 [29] 来求解全局连接。

4.2 GSI

插值被广泛用于填补由于缺失检测而导致的轨迹空白。线性插值因其简单性而广受欢迎。然而,它的准确性是有限的,因为它不使用运动信息。尽管已经提出了几种策略来解决这个问题,但它们通常会引入额外的耗时模块,例如单目标跟踪器、卡尔曼滤波器、ECC。不同的是,我们提出了一种轻量级插值算法,该算法采用高斯过程回归 [61] 来模拟非线性运动

我们为第 i 个轨迹制定 GSI 模型如下

p t = f ( i ) ( t ) + ϵ p_{t}=f^{(i)}(t)+\epsilon pt=f(i)(t)+ϵ

其中 t ∈ F 是帧, p t p_t pt ∈ P 是帧 t 处的位置坐标变量(即 x, y, w, h), ϵ \epsilon ϵ∼N(0, σ 2 σ^2 σ2) 很高斯噪声。给定跟踪和线性插值的轨迹 S ( i ) = { t ( i ) , p t ( i ) } t = 1 L S^{(i)}=\left\{t^{(i)}, p_{t}^{(i)}\right\}_{t=1}^{L} S(i)={t(i),pt(i)}t=1L,长度为 L,非线性运动建模的任务通过拟合函数 f(i) 来解决。我们假设它服从一个高斯过程 f ( i ) ∈ G P ( 0 , k ( ⋅ , ⋅ ) ) f(i) ∈ GP(0, k(·,·)) f(i)GP(0,k(⋅,⋅)),其中 k ( x , x ′ ) = exp ⁡ ( − ∥ x − x ′ ∥ 2 2 λ 2 ) k(x, x^{\prime}) = \exp \left(-\frac{\left\|x-x^{\prime}\right\|^{2}}{2 \lambda^{2}}\right) k(x,x)=exp(2λ2xx2)是径向基函数核。基于高斯过程的性质,给定新的框架集 F∗,其平滑位置 P∗ 由下式预测

P ∗ = K ( F ∗ , F ) ( K ( F , F ) + σ 2 I ) − 1 P P^{*}=K\left(F^{*}, F\right)\left(K(F, F)+\sigma^{2} I\right)^{-1} P P=K(F,F)(K(F,F)+σ2I)1P

其中 K ( ⋅ , ⋅ ) K(·,·) K(⋅,⋅) 是基于 k ( ⋅ , ⋅ ) k(·,·) k(⋅,⋅) 的协方差函数。此外,超参数 λ λ λ 控制轨迹的平滑度,这应该与它的长度有关。我们简单地将其设计为一个适应长度 l l l的函数,如下所示

λ = τ ∗ log ⁡ ( τ 3 / l ) \lambda=\tau * \log \left(\tau^{3} / l\right) λ=τlog(τ3/l) τ \tau τ设为10.

图 4 举例说明了 GSI 和线性插值 (LI) 之间的差异。 原始跟踪结果(橙色)通常包括噪声抖动,LI线性插值(蓝色)忽略运动信息。 我们的 GSI(红色)通过使用自适应平滑因子平滑整个轨迹同时解决了这两个问题。

StrongSORT_第4张图片

5 实验

5.1 数据集和评估指标

private 的detection

MOT17, MOT20,使用Dukemtmc训练重识别网络,在CrowdHuman和MOT17半训练集上训练检测器。添加cityperson和ethz进行测试。

使用指标 MOTA、ID、IDF1、HOTA、AssA、DetA 和 FPS 来评估跟踪性能 [2、33、44]。 MOTA 是基于 FP、FN 和 IDs 计算的,更侧重于检测性能。相比之下,IDF1 更好地衡量了 ID 匹配的一致性 [23]。 HOTA 是检测分数 DetA 和关联分数 AssA 的显式组合,它将执行准确检测和关联的效果平衡到一个统一的指标中。此外,它评估预测和 GT 边界框之间的多个不同的不同检测相似度值(0.05 到 0.95,间隔为 0.05),而不是像 MOTA 和 IDF1 那样设置单个值(即 0.5)。

5.2 实验细节

对于检测,我们采用在COCO[31]上预训练的YOLOX-X[17]作为检测器,以提高时间精度。训练过程与[73]中的类似。在推理中,非最大抑制(NMS)的阈值设置为0.8,检测置信度的阈值设置为0.6。对于StrongSORT,特征距离阈值为0.45,ECC的扭曲模式为运动欧几里德,EMA中的动量项α为0.9,外观成本的权重因子λ为0.98。对于GSI,插值允许的最大间隙为20帧,超参数τ为10

对于 AFLink,时间模块由具有 7×1 内核和输出通道{32,64,128,256}的四个卷积层组成。 每个卷积后面跟着一个 BN 层 和一个 ReLU 激活层 。 融合模块包括一个 1×3 卷积、一个 BN 和一个 ReLU。 它不会改变通道的数量。 分类器是一个 MLP,有两个全连接层和一个 ReLU 层插入其中。 训练数据是通过以 1:3 的正负样本比例将带注释的轨迹切割成具有随机时空噪声的轨迹来生成的。 我们使用 Adam 作为优化器 ,使用交叉熵损失作为目标函数,并使用余弦退火学习率计划对其进行 20 个 epoch 的训练。 整个训练过程只需 10 多秒。 在推理中,使用 30 帧的时间距离阈值和 75 像素的空间距离阈值来过滤掉不合理的关联对。 最后,如果其预测分数大于 0.95,则考虑该关联。 所有实验均在具有单个 V100 的服务器机器上进行。

5.3 消融实验

StrongSORT_第5张图片

在六个不同的跟踪器上应用 AFLink 和 GSI,即三个版本的 StrongSORT 和三个最先进的跟踪器(CenterTrack 、TransTrack 和 FairMOT )。 他们的结果如表 2 所示。每个跟踪器的第一行结果是原始性能。 AFLink(第二行)的应用为不同的跟踪器带来了不同程度的改进。 具体来说,由于更多缺失的关联,较差地跟踪器往往会从 AFLink 中受益更多。 特别是CenterTrack 的IDF1 提高了3.7。 每个跟踪器的第三行结果证明了 GSI 在检测和关联方面的有效性。 与 AFLink 不同,GSI 在更强地跟踪器上效果更好。 它会被糟糕地跟踪器中的大量错误关联所迷惑。 表 3 将我们的 GSI 与 LI 进行了比较。 结果表明,GSI 以少量额外计算成本产生更好的性能。

StrongSORT_第6张图片

StrongSORT_第7张图片

5.4 MOT results

StrongSORT_第8张图片
StrongSORT_第9张图片
StrongSORT_第10张图片

5.5 局限

StrongSORT和StrongSORT++仍然有几个限制。主要关注的是,与关联跟踪器和几个无外观分离跟踪器相比,它们的运行速度相对较低。进一步研究提高计算效率是必要的。此外,虽然我们的方法在度量IDF1和HOTA中排名第一,但它具有略低的MOTA,这主要是由于检测分数的高阈值导致许多缺失检测造成的。我们相信精心设计的阈值策略或关联算法会有所帮助。至于AFLink,虽然它在恢复丢失的关联方面表现良好,但它对错误的关联问题是无能为力的。具体而言,AFLink不能将ID混合轨迹拆分为准确的轨迹。

参考文献

  1. StrongSORT: Make DeepSORT Great Again

你可能感兴趣的:(MOT多目标跟踪,计算机视觉,目标跟踪,深度学习)