DEFT: Detection Embeddings for Tracking论文解读

DEFT: Detection Embeddings for Tracking论文解读

摘要

大多数现代多目标跟踪(MOT)系统遵循按检测跟踪的模式,由检测器和将检测关联到轨迹的方法组成。在结合运动和外观特征以提供对遮挡和其他挑战的鲁棒性的跟踪研究方面已有很长的历史,但是这通常伴随着更复杂和更慢的实现的权衡。最近在流行的2D跟踪基准上取得的成功表明,通过使用最先进的检测器和依赖于单帧空间偏移的相对简单的关联,可以获得最高分,这显著优于利用学习的外观特征帮助重新识别丢失轨迹的现代方法。在本文中,我们提出了一个有效的联合检测与跟踪模型DEFT,或称为“跟踪的检测嵌入”。我们的方法依赖于一个基于外观特征的目标匹配网络与一个底层的目标检测网络联合学习。还添加了一个LSTM来捕获运动约束。DEFT具有与2D在线跟踪排行榜上的顶级方法相当的精度和速度,同时在应用于更具挑战性的跟踪数据时在鲁棒性方面具有显著优势。

1简介

近年来,视觉多目标跟踪(MOT)技术取得了长足的发展,部分原因是受移动机器人技术和自主驾驶应用的推动。基于卷积神经网络(CNN)的目标检测器的精度和效率的不断提高推动了“检测跟踪”范式的主导地位。最近的工作表明,添加到最新检测器中的简单跟踪机制可以比依赖于旧检测体系结构的更复杂的跟踪器表现更好。
基于检测的跟踪方法主要包括两个步骤:1)检测单个视频帧中的目标;2)将当前帧中检测到的目标与前一帧中检测到的目标进行关联。最近的一个趋势是在单个神经网络中联合学习检测和跟踪任务,这使得跟踪基准和相关应用的性能提高。然而,结合外观和动作线索的现有端到端方法可能复杂且缓慢。
我们假设学习的目标匹配模块可以添加到大多数当代基于CNN的目标检测器中,以产生高性能的多目标跟踪器,并且,通过联合训练检测和跟踪(关联)模块,这两个模块可以相互适应,并共同表现出更好的性能。与使用检测作为关联逻辑的黑盒输入的方法相比,使用相同的主干进行对象检测和帧间关联可以提高效率和准确性。
本文提出了一种从检测器网络的多尺度主干中提取每个目标的嵌入信息,作为目标跟踪关联子网的外观特征的方法。我们将我们的方法命名为“用于跟踪的检测嵌入”(DEFT)。我们证明了DEFT可以有效地应用于几种流行的目标检测主干网。由于在网络设计中特征共享的好处,我们使用外观和运动线索进行跟踪的方法具有与使用简单关联策略的领先方法相当的速度。因为DEFT会随着时间的推移保留外观嵌入的记忆,所以它比顶级替代方案对遮挡和较大的帧间位移更具鲁棒性。这种鲁棒性使得DEFT在具有挑战性的nuScenes三维单目视觉跟踪基准上显著优于其他方法。

2相关工作

通过检测跟踪。大多数最先进的跟踪器都采用检测跟踪的方法,这在很大程度上取决于检测器的性能。这种方法中的跟踪器通常使用检测器作为黑盒模块,并且只关注跨帧关联检测。在预深度学习时代,跟踪器经常使用卡尔曼滤波器、联合交集(IoU)或流场进行关联。这些方法简单快速,但在具有挑战性的场景中很容易失败。最近,随着深度学习的成功,许多模型已经使用外观特征来关联对象。例如,DeepSORT利用离线训练的深度再识别(ReID)模型和Kalman滤波运动模型,对提供的检测目标进行关联。Mahmoudi等人将提取的视觉特征与动态位置特征一起用于对象关联。这些模型的主要缺点是使用耗时的特征抽取器,将检测和关联分开处理,导致精度和速度都不理想。DEFT在一个统一的网络中,关联与检测联合学习。用于匹配的特征提取重用了检测主干,因此目标关联的计算只需要很小的额外检测延迟。
联合检测和跟踪。最近在深度神经网络中多任务学习的成功导致了联合学习检测和跟踪任务的模型。Tracktor采用更快的RCNN检测器,从上一帧估计新帧中边界框的位置。Tracktor的缺点是,它只适用于帧间运动较低的高帧速率视频。还有作者扩展了R-FCN[14]检测器来计算连续帧的高级特征映射之间的相关映射,以估计边界框之间的帧间偏移。类似地,CenterTrack扩展了CenterNet检测器,以估计边界框的帧间偏移。CenterTrack是一种最先进的方法,但仅关联连续帧中的目标。我们的方法对于较长的遮挡和较大的帧间位移更具鲁棒性,从而在更具挑战性的条件下改进跟踪。Xu等人提出了一个端到端MOT训练框架,使用损失函数中MOT度量的可微近似。当他们的训练框架扩展时,他们展示了对现有的deep-MOT方法的改进。Chaabane等人提出了一种联合优化检测和跟踪的方法,重点是静态目标跟踪和定位。该模型充分利用了学习到的姿态估计特征,不适合作为动态物体的通用跟踪器。JDE[40]用一个reID分支扩展了YOLOv3[31],以提取用于关联的目标嵌入向量。特征抽取器和检测分支共享特征并共同学习。类似地,FairMOT[48]改进了JDE,并利用CenterNet检测器来提高跟踪精度。
DEFT在方法上类似于JDE和FairMOT。这些方法联合学习单个网络中的检测和特征匹配,作为视觉多目标跟踪的基础。DEFT提供了额外的证据,证明联合学习检测和匹配特征可以提供一个简单有效的(SOTA)跟踪解决方案。DEFT克服了竞争方法的一些局限性,例如在应用于具有挑战性的示例时,它提供了一个较长的轨迹内存,在该内存上聚集相似性分数,并应用一个简单的基于LSTM的运动模型来过滤物理上不可信的匹配。

3 DEFT网络

考虑到检测跟踪的范例,我们建议利用目标检测器(“检测器backbone”)中间特征映射的表示能力来提取嵌入向量,以用于跨帧关联对象的对象匹配子网。我们联合训练检测器和目标匹配网络。在训练过程中,目标关联中的误差通过检测主干传回,使得外观特征在检测和匹配时都得到优化。DEFT还使用低维LSTM模块为对象匹配网络提供几何约束。使用CenterNet主干网实现的DEFT在多个跟踪基准上实现了最先进的性能,同时比大多数类似的评分方法更快。加速的部分原因是,在DEFT中,目标关联是检测网络中的一个小的附加模块,因此只添加了几个模块来消除不真实的轨迹。
在推理过程中(参见图1),嵌入向量提取器使用来自检测器的特征映射和边界框作为输入,并为每个检测到的对象提取外观嵌入向量。匹配头使用嵌入向量来计算当前帧中的对象与以前帧(当前轨迹)中记住的对象之间的相似性。运动预测模块(LSTM)防止匹配导致物理上不可信的轨迹。匈牙利算法用于将对象与轨迹进行最终的在线关联。下面提供了每个模块的详细信息,然后是训练程序。

3.1目标嵌入向量

匹配网络中使用的目标嵌入向量从检测主干中提取,如下所述。我们在随后的文本中将其标记为“嵌入提取器”。嵌入提取器从检测器主干的中间特征映射构造具有代表性的嵌入向量,以帮助在跟踪期间关联(或“重新识别”)对象。我们使用不同层的特征映射从多个感受野(RFs)中提取外观,这比单个RF嵌入中更具鲁棒性。DEFT将一个视频帧作为输入,并通过检测头输出一组边界框. 为了方便起见,我们使用Nt=| Bt |表示帧中边界框的数量。对于每个检测到的目标,我们从估计的二维目标的中心位置提取特征嵌入向量。对于三维边界盒,我们使用三维中心位置到图像空间的投影作为其估计的二维中心位置。
特征向量的维数影响其对特征嵌入的贡献。为了改变某些特征映射的贡献度,控制嵌入维数,在提取特征向量之前,我们在某些特征映射上增加一个卷积层,使其维数从增加到减少。在实践中,这有助于增加早期特征图提供的要素的维度,同时减少后期特征图提供的要素的维度。

3.2匹配头

匹配头遵循Deep Affinity Network,使用目标嵌入向量来估计跨两帧的所有检测对之间的相似性分数。在每个帧中允许的对象数目最大的情况下,我们构造一个张量E,使得每个帧中对象的特征嵌入与每个帧中对象的特征嵌入沿着深度维连接,反之亦然。为了构造固定大小的张量,我们用零填充张量的其余部分。然后这个张量E被送入由(4-6)层1×1卷积组成的匹配头。匹配头的输出为亲和矩阵。
尽管我们了解了嵌入向量之间的相似性,但是在跨帧前后匹配(可理解为帧的前后顺序改变)时,我们无法保证结果分数是对称的。因此,我们使用一个单独的亲和矩阵来计算两个方向上的亲和度,在下面用上标“bwd”和“fwd”表示。
为了允许不应该在帧之间关联的对象(场景中的新对象或离开的对象),我们添加了一个列来填充常量值C。我们将softmax应用于每一行以获得Abwd矩阵,表示包含不匹配分数的最终亲和力。C的选择是不太敏感的,网络将学会分配比真实匹配更大的亲和力。
每一个Abwd[i,j]代表着目标bti 到bt-nj的概率,Abwd最后一列代表着检测的目标不在之前帧的概率。类似地,我们使用转置矩阵构造前向(fwd)亲和矩阵,在转置矩阵中添加一个填充有常量值的列c级然后对每一行应用softmax得到矩阵。

3.3在线数据关联

在DEFT中,tracks记住来自每个观察的对象嵌入。新的检测和现有的轨迹之间的关联需要计算新对象与内存中每个轨迹的观察值集的相似性。为了允许遮挡和漏检,轨迹记忆会保持几秒钟,以便在新的观察结果与以前的观察结果强烈相关时可以恢复非活动轨迹。从内存中丢弃N帧后没有观察到的轨迹。
将轨迹关联检测问题描述为一个二部匹配问题,从而保证了轨迹关联检测的唯一性。设K={Tj}为当前轨迹集。我们将所有成对检测附加到大小为| K |×Nt的轨迹距离(等式(1))上,并用大小为| K |×| K |的矩阵表示当前帧中某个轨迹与没有检测关联的情况,从而构造轨迹相似性矩阵∈rb。沿对角线的条目被计算为轨迹中检测的平均不匹配分数,非对角线条目被设置为–∞。
最后,我们用匈牙利算法[24]解决了由定义的二部匹配问题。我们只包括亲和力大于指定阈值时可能的关联。无法匹配的检测将启动新的轨迹。未关联超过预定义最大值N的轨迹将被视为已离开场景,并从轨迹集中删除。

3.4运动预测

当学习使用检测主干中的外观特征跨帧关联检测时,两个对象在嵌入空间中看起来足够相似从而导致混淆的可能性很大。通常的做法是添加额外的几何或时间约束来帮助解决这种模糊性。这通常采用卡尔曼滤波器或LSTM模块的形式。DEFT使用LSTM作为我们的运动预测模块。该模块根据∆Tpast帧中的信息,预测下一个∆Tframes中每个轨道的未来位置。运动预测用于将帧之间的关联限制为物理上合理的关联。对于距离轨迹预测位置太远的检测,运动预测模块将等式(1)中的亲和性分数设置为−∞。

3.5训练

在训练期间,一对相隔n帧的帧被输入到DEFT中,如图1所示。图像对被1≤n≤ngap的随机帧数分开,以鼓励网络学习对临时遮挡或漏检的鲁棒性。对于每个训练对,我们创建两个基本真值匹配矩阵,分别表示前向和后向关联。基本真值匹配矩阵由条目[i,j]∈{0,1}组成,维数为Nmax ×(Nmax+1)以允许无关联对象。矩阵中的值为1表示关联,也用于未关联的对象。其他地方的值都是0。
为了训练匹配估计的灵巧度,我们使用了定义为两个损失Lmatch bwd和Lmatch fwd的平均值的损失函数。
训练优化了联合亲和力和检测损失。为了更好地优化我们提出的双任务网络,我们使用了其他学者提出的策略来自动平衡两个任务的损耗。其中的系数也都是可学习的参数。

4实验

4.1数据集和指标

我们在一组流行的基准上评估了DEFT的跟踪性能:MOT Challenge(MOT16/MOT17)、KITTI tracking和nuScenes视觉跟踪基准。MOT Challenge和KITTI基准用于评估2D视觉跟踪,而nuScenes用于单目3D视觉跟踪。

4.2实施细则

在所有的实验中,我们使用了一个带有12gb内存的titan x gpu的Ubuntu服务器。所有超参数的选择都是基于3倍交叉验证2D跟踪的最佳MOTA分数和验证集3D跟踪的最佳AMOTA分数。我们的实现在所有数据集上都以大约12.5Hz的频率运行。
二维跟踪。使用四个目标探测器对DEFT进行训练和评估,包括CenterNet、YOLO v3、FPN和更快的R-CNN。
实验比较下来CenterNet的DEFT的性能是最优的。

4.3性能分析

如前所述,DEFT和CenterTrack在MOT17和KITTI的2D跟踪基准上的表现类似,但DEFT在nuScenes视觉跟踪排行榜上的得分远远超过CenterTrack和所有其他方法。在本节中,我们将研究哪些因素可以解释性能差异。
我们的直觉是,KITTI和MOT基准测试的主要性能改进是由改进的检测器驱动的。对于MOT和KITTI来说,跟踪/关联逻辑可能很弱,仍然会产生顶级数字。社区里的其他人似乎也同意。Tracktor的作者提倡“无需铃声和口哨的追踪”[2],而CenterTrack的创造者则声称它“……为了简单、快速、高效地重新连接远程追踪的能力,在当地制度中的高精确度……这种权衡是非常值得的。”[50]我们消融研究表5的第一行(见§4.5)为这一观点提供了额外的支持。我们观察到,一个简单的基线,只使用运动模型和IOU关联,当应用于中心网检测时,KITTI(验证)和MOT17(验证)的MOTA得分分别为86.7和63.5。虽然人们无法直接将验证分数与测试结果进行比较,但这表明,许多排名靠前的方法仅略好于与SOTA检测器耦合的简单基线。

5结论

在流行的公共基准上,大多数最先进的跟踪器都遵循检测跟踪范式,性能的大幅提升很大程度上归因于改进的目标检测器。这使得顶级评分算法在获得高跟踪性能和效率的同时,可以使用有限的匹配策略。“局部机制”中的跟踪概念,即将关联逻辑限制在相对较短的时间和空间范围内,已经证明在至少两个流行的2D跟踪基准(MOT,KITTI)上是有效的。在自动驾驶汽车应用中,侧装摄像头跟踪的物体会经历较大的帧间位移,持续几秒钟的遮挡并不少见。此外,在带宽受限的域中,还存在使用较低帧速率视频进行跟踪的用例。
我们已经证明,在KITTI和MOT跟踪基准上,DEFT在精度和速度上与领先的方法相当。在更具挑战性的nuScenes视觉跟踪基准上,跟踪性能比以前最先进的CenterTrack(在AMOTA上是3.8倍,在MOTAR上是2.1倍)提高了一倍多。此外,当遮挡和帧间位移较低时,DEFT和CenterTrack执行接近奇偶性。然而,当任何一个因素变得更具挑战性时,DEFT的表现会更好。DEFT在这些情况下的显著改进具有相当的现实意义。

你可能感兴趣的:(深度学习,算法,pyTorch)