【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking

本文是地平线在CVPR2020发表的一篇多目标跟踪文章,代码即将在审核后公开。

Multi-object Tracking via End-to-end Tracklet Searching and Ranking

通过端到端Tracklet搜索和排名来进行多目标跟踪

pdf链接:https://arxiv.org/pdf/2003.02795.pdf

摘要

在多目标跟踪方面的最新研究中,采用序列模型计算出目标与前一目标之间的相似度。然而,在训练阶段被迫暴露于ground truth,会导致训练推理偏差问题(the forced exposure to ground-truth in the training stage leads to the training-inference discrepancy problem),即训练推理偏差、暴露偏差,即关联误差会在推理中累积,使轨迹漂移。在本文中,我们提出了一种新的优化轨迹跟踪一致性的方法,该方法通过引入一个在线的端到端轨迹跟踪搜索训练过程,直接将预测误差考虑在内。值得注意的是,我们的方法直接优化了整个tracklet评分,而不是成对亲和力( pairwise affinity.)。该跟踪器以序列模型作为跟踪器的表征编码器,在常规跟踪器的基础上获得了可重新标记的性能增益。我们的方法使用公共检测和在线设置在MOT15~17挑战基准上取得了 state-of-the-art。

1.介绍

多目标跟踪(MOT)是计算机视觉[12]中一个非常重要而又具有挑战性的任务,它的目的是估计视频序列中多个目标的运动轨迹。从机器学习的角度出发,提出了连续序列预测和生成的问题。在跟踪过程中,一个共同关心的问题是,当错误的预测或关联发生时,如何防止错误的积累,特别是当相邻的单个对象的外观非常相似时。随着基于深度学习的对象检测算法的显著进步[19,35,48],MOT社区非常关注基于检测的跟踪帧工作,它的目标是在给定检测边界框[12]的情况下正确地跨帧链接对象。也叫做:数据关联。多目标跟踪算法中数据关联的一种常用选择是基于亲缘模型的成对检测匹配[25,45,3,4]。在这些方法中,相邻帧的检测结果是根据从外观[25,45]或运动[3,4]特征中获得的亲和度评分进行关联的。然而,这些方法只利用当前帧的信息,而忽略了tracklets中前一帧的时间线索。因此,这种方法在关联长期一致轨迹方面的能力有限,并通过局部匹配将其裁剪为局部最优。为了解决这个问题,一些最近的方法[22,37,29,26]在序列模型的基础上建立它们的仿射模型,如递归神经网络 (RNNs[18])。作为一种常用的方法,这些方法通常迫使模型去学习小轨与候选检测之间的亲和力,目的是为了扩大正确匹配的亲和力,减少反匹配部分。他们的工作已经证明了基于tracklet的方法建模高阶信息的有效性和潜力。然而,这些方法有两个缺点。首先,这种利用递归神经网络产生具有代表性的轨迹特征进行匹配的方法可能存在一定的不适定性。要迫使具有内部方差的目标序列在外观上达成一致是很困难的。同时,最后一个特征是很难解释的,更不用说在多线索参与的情况下。其次,我们假设之前训练的轨迹是一个ID相同的纯检测序列,即ground truth tracklet。然而,这不是推理的情况,在任何时候都可能发生错误的关联。这种理想的假设导致了一个潜在的弱点,即模型是按照与测试场景不同的分布进行训练的,这既会降低可辨别力,又会导致推理过程中的错误积累。这一问题在自然语言处理中也得到了强调[2,15,34,44],其名称为暴露偏差(exposure bias),当模型只暴露于训练数据分布时就会发生这种偏差。这些早期的论文也说明了将模型暴露于预测数据分布的重要性。
在这项工作中,我们为上述两个问题提供了一个可能的解决方案。我们提出了一个全局评分来衡量tracklet的内部外观一致性,就像测量tracklet和目标对象之间的亲和力一样。值得注意的是,我们margin损失优化了整个tracklet。此外,本文还提出了一种新的算法,通过引入现实的混乱候选模型来模拟训练的预测数据分布。这在很大程度上有助于消除暴露偏差问题。

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第1张图片

图1.提出的基于在线假设搜索的学习给tracklets打分的方法。搜索部分:在线训练中从t到t+1搜索踪片提议(tracklet proposals)。时间步t + 1中的小轨建议是对之前时间步的扩展。只有tracklets的TopK分数保留给损失计算和下一步更新。地面真值部分:地面真值测定和轨迹用绿色表示。该网络学会了在搜索分支中扩大地面真实踪片(ground truth tracklets)与搜索踪片(tracklets)之间的距离。
  
  综上所述,我们的算法具有以下特点:
  1. 提出了一种基于margin损失和rank损失的tracklet评分模型来量化tracklet质量,提高了tracklet数据关联的一致性。
  2. 我们提出了一个周期性的基于搜索的优化框架,该框架能显著地暴露错误的训练关联。训练过程遵循一个搜索-学习-排名-修剪的流水线。该方法解决了以往MOT研究中未能解决的序列建模中存在的暴露偏差问题。
  3.我们的方法在MOT的三个基准数据集上进行了验证,取得了最新的结果。我们进行了广泛的消融研究,证实了各成分的显著增强作用。我们的代码将在审查后公开。

2.相关工作

在本节中,我们将概述tracklet水平跟踪以及与我们的方法相关的减少暴露偏差的方法。

2.1 Tracklet级跟踪模型

近年来,随着深探测技术的发展,基于检测的跟踪方法[8]以其令人印象深刻的性能成为MOT中最受欢迎的方法。目前主流的检测跟踪方法主要有两类:基于踪片级(tracklet level)的跟踪方法成对检测关联方法。基于tracklet级别的跟踪在tracklet级别上构造一个亲缘模型,然后使用它将tracklet与检测关联起来或连接短的tracklet。两两关联方法建立孤立检测的亲和模型,由下而上产生跟踪结果。这两种方法共同关心的是保证整个相关目标的一致性。许多以前的方法[10,40,45]已经训练了一个二元分类器来确定检测对之间的关联。然而,这些方法仅限于建模非常短期的相关性,即。,两个帧。对长期的时间依赖性进行建模和处理出现变化等挑战场景是很困难的。最近的一些方法在tracklet级别上构建关联模型,以利用高阶信息[11,22,37,47]。在这些工作中,tracklet的表征来自于通过递归神经网络、时间检测[11]或关系模型[47]进行个体检测的融合特征[22,37]。结果表明,长期的外观信息有助于预测检测结果是否属于某一给定的轨迹。然而,这种融合的特征并不是完全无法解释的,因为他们试图找到一个对拖尾(tailing)目标具有代表性的特征。另一方面,这些模型是在地面轨迹剪辑上训练的,这使得它们容易受到曝光偏差的影响。

2.2 跟踪中的曝露偏差

暴露偏差问题定义了模型只暴露于训练数据分布(模型分布),而不暴露于自身预测(数据分布)的现象。该问题普遍存在于机器学习相关的任务中,如文本摘要[33]和机器翻译[46],当对历史样本进行预测时,所有的历史样本在训练范式中都加入了ground truth。NLP的研究人员已经提出了他们的解决方案[2,38,42]来减少偏差。在此之前,Bengio[2]提出了一种训练计划,使模型在整个训练过程中以一个增加的概率使用自身的输出作为输入。一些研究试图使用非条件概率模型来避免暴露偏差。Semeniuta[38]提出了一个反向语言模型评分来评估模型生成性能。Tevet[42]使用生成式对抗式网络工程(GAN)[14]来近似序列的分布。这些工作激励我们通过将预测数据应用于模型训练来避免暴露偏差。不幸的是,暴露偏差在多目标跟踪领域并没有引起研究者的足够重视。最新的工作[27]试图消除曝光偏差通过设计一个近似的IDF评分损失,但它未能平衡多目标跟踪精度(MOTA)和IDF的指标。其结果根据大量的假阴性向具有鉴别能力的候选人倾斜。

3.方法

在检测跟踪范式中,MOT由两个阶段组成:在每一帧检测目标(检测)和为每一帧检测结果分配跟踪ID(关联)。通常根据航迹/探测之间的相似性来分配IDs。在这一节中,我们首先对我们提出的框架进行了总体架构描述,并使用了检测跟踪的方法,然后在各个小节中对细节进行了扩展。
  我们提出了一个新的框架来直接优化tracklet分数与保证金损失通过tracklet在线搜索。该框架由迭代搜索、学习、排序和修剪过程组成,如图2所示。在得到一个模型后,我们采用了在线Hun- garian算法[32]和近似在线算法MHT[21]进行推理,对其有效性进行了综合说明。最后,我们逐帧运行这个分配过程,得到一组随时间变化的目标轨迹。

3.1 Tracklet 级优化

如第1节所述,为了解决暴露偏差和基于RNN的亲和模型的问题,我们提出了一个新的框架,通过搜索-学习-排序-剪枝范式来优化轨迹片段(tracklets)。核心部分包括如何执行得分学习,以及如何进行基于搜索的tracklet优化。
  学习得分。 设 aaa为视频中目标 i 的轨迹,其中包括检测补丁部分(patches)D i ,即该轨迹可表示为t时刻以前的轨迹加上t时刻的检测部分组成了整个轨迹Ti)。给定一个在t时刻已经获得的tracklets作为,并取得了一系列新的观测检测结果{b t+1 1,b x+1 ,…,b t+1 i,…,b t+1 j}。我们提出了一个基于轨迹搜索的方法来优化扩展轨迹(如图1所示)的核心。我们的目标是找到一个有利于训练和推理阶段一致性的评分函数。在给出深度网络实现的评分函数的基础上,我们首先探讨了如何通过端到端训练来学习深度网络,而将网络设计留给3.2部分。

      对于一个被跟踪的对象,假设我们在t时刻有一组预先指定的候选tracklets,这里跟踪可以被理解为最大化与ground truth tracklet一致的踪片(tracklet)的得分和最小化错误连接踪片(tracklet)的得分。与其对tracklet分数的值施加严格的约束,我们更愿意为实例内部的差异留出一些空间,但是如果它们的分数可能导致歧义,则惩罚错误关联。( but punish the wrong associations if their scores may lead to an ambiguity)。我们就定义一个margin损失,通过一个余裕\alpha来约束ground truth tracklets的分数超过错误的tracklets的分数:

(1)

margin损失试图将ground-truth的tracklets与预测的候选者区分开来(加上\alpha后使得T_{gt}^{t}的得分高于\alpha),却无法消除候选者之间的差异。具有较低身份切换(IDS)的候选者应该具有较高的传播保留概率。然而,IDS是一个不可微的度量,不能直接优化。在学习排序[6]思想的启发下,我们可以采用成对的排序损失(the pair-wise ranking loss),并将不可微度量编码到连续函数中。

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第2张图片

这里给出我的理解:首先公式下面最后一个应该是\begin{cases} &\\ \gamma=1 \if\ IDS(\hat{T}_{i}^{t})>IDS(\hat{T}_{j}^{t}) &\\ \gamma =-1 \if\ IDS(\hat{T}_{i}^{t})<IDS(\hat{T}_{j}^{t}) \end{cases},即当j的IDS较小时,目标是使得尽量大,尽量小,分数高的排到前面,整个loss是最小化,前面加符号就是最大化

这里,\gamma是成对tracklets的排序标签,IDS()代表的是一个tracklets的IDS。然后,总损失为

基于搜索Tracklet优化 。我们现在介绍一种创新的tracklet 级训练算法,称为基于搜索的tracklet优化(SBTO)。它避免了前面提到的暴露偏差问题,因为我们反复地在训练中去除模糊的候选轨迹。

我们的SBTO的总体架构如图1和算法1所示,它由5个主要步骤组成:

1. 对于特定的被跟踪对象o,假设我们在 t 时刻有K个保留的tracklet提案(修剪后)=,这里 K 为限制保留tracklets proposals 数量的一个常量。

2.根据 t+1 帧的检测结果,应用搜索候选者扩展每条轨迹并建立假设传播树。这里,让 C 表示每个被搜索目标的候选者数目。在这一步以后,我们在 t+1 帧得到 K x C 个假设tracklets提议

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第3张图片

图2。我们提出了的网络架构的训练概览。利用CNN(蓝色空心梯形)提取每个检测的外观特征,通过带有边缘损失和排序损失的在线假设tracklet搜索训练的编码器(灰色虚线矩形)网络获得tracklet的外观嵌入。使用tracklet分数来表示tracklet一致性,然后通过在线搜索逐帧生成一组假设tracklet。 

 3.使用打分函数计算每个假设tracklet 提议 和ground truth tracklets的得分,在本文中,我们使用一个编码器模型参数化。具体地说,我们用序列模型提取tracklet的外观特征来实现编码器。(详见3.2节)。然后,我们将tracklet分数按降序排列。

4. 我们使用排序的tracklet评分来删除简单的假设tracklet提议,以限制提议的数量。根据定义tracklets

作为第K个被排序的假设tracklets提议。我们保留最高的K个tracklets提议:

5. 我们定义在 t+1 帧的损失为最高分数K个假设tracklets提议的损失的总和。最后,为了学习tracklets在时间上的长期依赖性,我们递归地累积每一步随时间的损耗。设N为tracklets的总步长,每个tracklets的总损失为:

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第4张图片

图3。训练中假设tracklet建议的Top2排序,数字表示每次步进的tracklet得分。

不同于其他标准的网络的训练,SBTO需要运行搜索来收集所有的最高的K个假设的tracklets提议。在前向过程中,我们记录了序列模型的 和隐藏状态,在传播假设tracklets提议的过程中,这些模型在每个时间步长对损失作出了贡献。在向后传递中,我们通过调整时间反向传播(BPTT)算法来向后传播误差[31]。如图3所示,在线搜索还可以挖掘与ground truth tracklets高度相似的困难样例tracklets,并在训练阶段经过几个epoch后通过边缘损失给它分配一个低分。

3.2 在线表征编码

视觉跟踪依赖于时间背景,这促使我们结合历史内容中的外观特征来丰富tracklet的表现。从这个角度看,可以直接对时间表象信息和长期依赖关系进行建模的方法是序列模型,如RNN。在我们的框架中,我们通过不同的序列模型构建评分函数来编码tracklets的外观信息,如图2所示。

对于一个被跟踪对象 o 以及tracklet ,让边界框表示在每一帧 t 处的位置。我们使用卷积神经网络(CNN)来提取每个边界框的外观。特别是CNN接受原始块(raw patch)作为输入,输出CNN的最后一层feature map。让表示每步的pathes的外观特征,这里是一个H维向量。我们的在线表征编码器接收序列作为输入,循环地输出H维的隐藏状态向量

基于序列模型,实现了tracklet的外观编码器。我们已经探索了各种序列模型来实现编码器,包括LSTM [18]、带有注意力的LSTM[1]和转换器(transformer)[43]。在本节中,我们将以带有注意力机制的LSTM为例说明编码器。定义t时刻的上下文向量为,然后它可以被计算为历史信息的加权和:

表示的转置,则可以用公式表示为:

将第t+1步时注意力层的输出传递给另一个全连接层,该全连接层将H维向量压缩为一个标量。

在本节中,我们使用序列模型来利用来自给定tracklet的所有先前外观信息。注意,与以前的研究[21,22,37]相比,我们只使用我们的tracklet评分网络中的外观信息。

3.3 在跟踪中的应用

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第5张图片

我们的方法遵循在线跟踪检测范例,它通过关联帧之间的检测结果来生成轨迹。为了进一步验证SBTO对于不同关联算法的有效性,我们使用匈牙利算法(Online)和多重假设跟踪算法(MHT, near Online)进行数据关联。认为匈牙利算法是MOT中的一种通用算法。在本节中,我们将简要总结与实现的多重假设跟踪相关的关键步骤。MHT的关键步骤包括假设树构建、门控、MWIS关联和修剪。更多关于MHT的细节可以在[21]中找到。

假设树结构。对于每一个目标对象,假设树从它第一次出现的检测开始,在下一帧中通过追加子检测来扩展。假设树中的每个树节点对应一个检测。从根到叶的每个路径表示一个候选的tracklet建议。在这个生成子进程的步骤中,只考虑门控区域内的检测。这个过程不断重复,直到最终的假设树被完全构造出来。在树的构建过程中,基于我们提出的每条假设路径的评分函数的tracklet评分被记录下来,以后用于树的修剪。

闸门和关联。为了避免在生成树的过程中出现组合爆炸,我们需要在下一帧中进行干扰检测。我们使用第n次检测与tracklet方案的最后一次检测之间的IOU作为门控标准。从门控中选择检测,我们可以建立假设树来运行多个假设的传播。之后,我们使用MWIS(maximum weight independent set)来寻找最佳的轨迹集合,具体细节参考[5]。

剪枝。我们使用标准的N-scan剪枝方法来删除冲突的假设路径。对于第t帧中选择的每条路径,我们都要回溯到第 t-N 帧中的节点,并对与该节点上选择的路径冲突的子树进行修剪。注意,N越大,延迟决策的窗口越大,这将带来精度的提高,但需要更多的时间消耗。修剪后,在下一帧只更新幸存的假设路径。

4.实验

在本节中,我们首先介绍了数据集的细节、评估度量和实现细节,然后在MOT挑战中对各种基准数据集进行了深入的分析。最后,我们提出了更多的见解和消融研究我们提出的方法。

 4.1. 数据集及度量

 数据集。为了测试我们的方法的能力,我们报告了MOT挑战基准测试中三个数据集的定量结果[24,28]。该基准被广泛用于评估多目标跟踪器的性能。

2DMOT2015 [24] 它由11个训练序列和11个测试序列组成。该数据集仅包含500个训练集的轨迹,但由于分辨率低、检测噪声大,潜在的挑战更大。
MOT16 [28] 它由7个训练序列和7个测试序列组成,在不同的行人场景中使用移动和固定摄像机。MOT16提供了用于训练和测试的DPM[13]的检测响应。
MOT17 它包含与MOT16相同的视频,但是有更精确的注释。此外,序列还提供了另外两种检测算法的检测结果:fast - rcnn[35]和SDP[48]。
为了进行公平的比较,我们使用每个数据集提供的公共检测结果作为我们的方法的输入。
评估度量标准 对于绩效评估,我们遵循标准的清晰贴切的指标[30]用于非常贴切的基准,由多个对象的跟踪精度(粘土),多个对象跟踪精度(MOTP)主要是跟踪目标(MT),主要是失去了目标(ML),假阳性(FP),假阴性(FN) ID开关(IDS), ID F1得分(IDF1) ID精密(IDP)、ID召回(IDR),片段错误(碎片弹)。关于这些度量的详细描述可以在[30]中找到。

4.2 实现细节

网络架构。我们使用预训练的ResNet-50[16]和ImageNet图像分类任务[36]作为骨干网络,然后在MOT训练数据集上对该模型进行细化。将ResNet-50的最后一个卷积层的输出特征映射输入到一个嵌入网络中。该嵌入网络由输出通道256的卷积层和输出维数256的全连通层组成,分别用来缩小通道维数和生成最终的外观特征。

根据检测的边界框,我们将其裁剪并调整为12864的大小,并将其输入到主干和嵌入网络中,生成外观特征。跟踪编码器是由LSTM与注意。利用隐藏大小为256的单层LSTM对时间信息进行建模,构造轨迹网。LSTM的最后一步隐藏状态,通过注意机制计算与前一步隐藏状态对应的上下文特征。然后将上下文特征反馈给单层全连接网络,生成tracklet分数。

Tracklet提议。由于gpu的内存限制,我们构造了一个最大长度为的人工tracklet方案作为训练数据。首先,我们从注释中随机选择一个长度为的ground truth tracklet,它是整个轨迹的剪辑。对于本tracklet方案中的每一帧,我们都随机抽取其他包围盒中的候选对象作为tracklet假设生成过程中的候选对象。最后,我们构造 patch作为每一次训练迭代的一批输入。

训练。在训练期间,我们应用Adam优化器[23]对网络进行端到端训练,并将权值衰减率设置为5e-4。我们使用5个epoch进行模型热身,然后以1e-5的学习率训练另外45个epoch。margin α设置为1。batch size设置为16。最佳模型的最大长度和候选数分别为8和8。

推断。在推理过程中,根据在线跟踪方法[39]的一般实践,对原始的检测结果进行预处理。每帧生成的候选tracklets的分数根据3.1节计算。然后通过求解二部图(在线)或MHT(近在线)实现关联。我们将MHT中的超参数修剪K设为3。

平台。所有的实验都是在一个1.2GHZ的Intel Xeon服务器和8个NVIDIA TITAN X gpu上进行的。我们使用的深度学习框架是Pytorch。

4.3 与最先进的技术比较

我们使用公开检测结果进行比较。为了进一步验证我们的方法对于不同关联算法的有效性,我们使用匈牙利算法(Online)和MHT (Near Online)进行了实验。我们分别在表1、2、3中报告了与其他SOTA方法在MOT挑战15/16/17基准上的性能比较。为了进行公平的比较,我们在在线跟踪器中选择了最近发布的跟踪器,如STRN[47]、FAMNet[10],以及几乎所有基于mhc的跟踪器。此外,我们增加了一些离线的全面性跟踪器,如SAS[27],它也试图解决曝光偏差的问题。注意,我们的方法只在评分模型中使用外观特征。据我们所知,我们的跟踪器实现了最有希望的结果与类似的设置。在在线设置中,我们的方法在MOT15、MOT16和MOT17上分别实现了MOTA 40.0、50.1、52.6,在最近发布的结果中,几乎击败了所有的在线方法。我们在基于MHT的近在线版本跟踪器中获得了更好的结果,它在三个主要度量MOTA和IDF的基准数据集中表现优于所有其他基于MHT的方法。与[27]相比,[27]倾向于减少许多短的期望轨迹并导致更高的FN,我们对tracklet质量的中性测量可以平衡各种MOT指标而不牺牲MOTA。

4.4 消融实验

我们现在透明地展示了我们为实现这两个目标所采取的每一个组成部分的影响。我们对MOT17进行了对比实验,并报告了最小验证损失模型的跟踪结果。对于本节的所有实验,我们从训练集(DPM、FRCNN和SDP三个检测器的MOT17-02、MOT17-05、MOT17-09)中分离出三个序列进行验证,其余的序列进行训练。为了更好的说明,我们报告了我们的在线关联方法(匈牙利算法)的结果。

margin损失和在线tracklet搜索的影响。我们首先通过测量验证集的性能来调查我们的方法中每个组件的贡献。我们在我们的模型的三个变体上进行基线实验。在EXP1中,我们将边缘损失和秩损失(方程3)替换为交叉熵损失作为基线。并去除训练阶段的在线假设轨迹搜索,即,正/负曲目在训练集中随机抽样。为了避免LSTM对固定长度序列的过拟合,我们构造了变长人工轨迹建议,该建议由[22]中的地面真道注释生成。在EXP2中,我们保留了margin loss,但是删除了rank loss和tracklet search作为EXP1。在EXP3中,我们只删除了原始模型中的tracklet搜索。为了比较公平,我们在三个实验中将最大序列长度Nlength设置为8。如表4所示,在边缘损失和秩损失的情况下,MOTA的跟踪精度分别比对照组提高了6.8和2.1。值得指出的是,我们提出的边缘损失和秩损失显著降低了FP和IDS,这表明该代价函数可以帮助跟踪器更准确地识别不正确的关联。与EXP3相比,我们的方法实现了额外的2.5 MOTA和-259 IDS改进,这符合我们的期望,即在线tracklet搜索可以减少暴露偏差。

超参数对在线tracklet搜索的影响。然后,我们进行敏感性分析,并检查各种超参数配置在成本计算和在线假设轨迹搜索中的影响。如前所述,保留的tracklet提案K的数量是我们方法中的一个中心参数。最好使用较大的K值,这样可以采集到足够的和多样化的小轨。相比之下,较大的K将为给定的有限的C引入简单的轨迹,这可能会导致模型过早地收敛。另一个关键参数是候选数C,我们倾向于使用较大的C来搜索无法区分的检测,生成无法提前裁剪的假设轨迹。但是,由于GPU内存的限制,我们不能无限制地增加C。图4显示了我们对K和c不同参数的分析结果。在这些实验中,我们将最大序列长度Nlength设置为8,其他所有参数在训练和推理阶段都是一致的。结果表明,C值对跟踪精度有正向影响。这是很直观的,因为大C可以引入我们前面分析过的足够的训练样本。另一方面,当C固定时,由于K太小或太大,导致跟踪精度下降,这也符合我们的假设。综上所述,图4表明,同时增加C和K来扩展搜索空间,可以提高跟踪性能。

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第6张图片

图4。同时增加K和C可以改善MOTA,降低IDS。

序列模型的有效性。如上所述,注意LSTM只是tracklet编码器的一个实现。在本节中,我们探讨了不同类型的序列模型对跟踪性能的影响。为了消除训练序列长度的影响,我们在不同模型的训练/推理中将序列长度设置为8,并比较验证集上的跟踪性能。如表5所示,所有的序列模型,包括LSTM、transformer和LSTM,只要注意,都实现了与基线相比的性能提升。这一结果表明,我们的学习框架可以有效地减少曝光偏差,并且tracklet编码器是可插拔的,可以扩展到更强大的模型。我们的研究结果也率先发现了注意使用LSTM而不是LSTM的优点,而LSTM是MOT领域的常见做法[2,22,37]。

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第7张图片

表1。在2DMOT2015基准数据集上跟踪性能。 

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第8张图片

表2。在MOT2016基准数据集上跟踪性能。 

【论文翻译】Multi-object Tracking via End-to-end Tracklet Searching and Ranking_第9张图片

表3。在MOT2017基准数据集上跟踪性能。 

5. 结论

暴露偏差作为序列产生和关联的一个基本问题,已经引起了许多研究者的关注。然而,与自然语言处理中的其他任务不同,暴露偏见在MOT社区中仍然是一个开放的问题。在本文中,我们提出了一种新的优化轨迹一致性的方法,该方法直接考虑了训练阶段的预测误差,可以有效地消除曝光偏差。其次,我们的方法直接优化了整个轨迹积分,而不是帧级的代价,这是一个比成对匹配更合适的模型。实验结果表明,该方法能有效地提高系统的整体性能,并在MOT挑战基准测试中获得SOTA结果。我们的方法在解决训练推理失配问题上没有更进一步。在未来的工作中,我们将把这种方法扩展到更大的应用场景,如车辆跟踪、交通灯跟踪、多摄像头多目标跟踪,这将进一步挖掘我们方法的潜力。

你可能感兴趣的:(多目标跟踪,机器学习,深度学习,multi,objects,tracking)