【论文速递】ECCV2022-ByteTrack:通过关联每个检测框进行多目标跟踪

【论文原文】:ByteTrack: Multi-Object Tracking by Associating Every Detection Box

获取地址:https://arxiv.org/pdf/2110.06864.pdf

博主关键词:多目标跟踪,数据关联

推荐相关论文:

摘要

多目标跟踪(MOT)旨在估计视频中物体的边界框和身份。大部分方法是通过关联分数高于阈值的检测框来获得身份的。检测分数低的物体,例如被遮挡的物体,被简单地忽略,这带来了不可忽视的真正物体丢失和碎片化的轨迹。为了解决这些问题,我们提出了一种简单、有效和通用的关联方法,通过关联几乎每个检测框而不是只关联高分的检测框来进行跟踪。对于低分检测框,我们利用它们与tracklets的相似性来恢复真实对象并过滤掉背景检测。当应用于9个不同的最先进的跟踪器时,我们的方法在IDF1分数上实现了从1到10分的持续改进。为了提出MOT的state-of-theart性能,我们设计了一个简单而强大的跟踪器,命名为ByteTrack。我们首次在单 V100 GPU上以30 FPS运行速度在 MOT17 的测试集上实现了 80.3 MOTA、77.3 IDF1和 63.1 HOTA。ByteTrack 还在MOT20、HiEve和BDD100K跟踪基准上实现了最先进的性能。源代码、带有部署版本的预训练模型和应用于其他跟踪器的教程在 https://github.com/ifzhang/ByteTrack发布。
【论文速递】ECCV2022-ByteTrack:通过关联每个检测框进行多目标跟踪_第1张图片

Figure 1. 不同跟踪器在MOT17测试集上的MOTA-IDF1-FPS比较。横轴为FPS,纵轴为MOTA,圆半径为IDF1。我们的ByteTrack在30FPS的基础上,在MOT17测试集上达到了80.3 MOTA和77.3 IDF1,超越了以往所有的跟踪器。详细情况见表4。

简介

基于检测的跟踪是目前最有效的多目标跟踪方法。但是由于视频中复杂的场景,检测器并不能完美的预测。目前最先进的MOT方法需要权衡检测框中的真阳性/假阳性来消除低置信度检测框。但是直接去除这些低分框真的合理吗?我们的回答是否定的,低置信度检测框有时指示对象的存在,例如被遮挡的物体。过滤掉这些对象会导致MOT出现不可逆转的错误,并带来不可忽略的缺失检测和碎片化轨迹。标意味着对于MOT造成不可逆误差、漏检和碎片轨迹。

图2(a)和(b)显示了这个问题。在第t1帧中,我们初始化了三个不同的tracklet,因为它们的分数都高于0.5。但是,在第t2帧和第t3帧发生遮挡时,红色tracklet对应的检测分数变低,即从0.8到0.4,然后从0.4到0.1。这些检测框被阈值机制消除,红色轨迹相应地消失。然而,如果我们将每个检测框都考虑在内,则会立即引入更多误报,例如,图2(a)的帧t3中最右边的框。据我们所知,MOT中很少有方法 能够处理这种检测困境。
【论文速递】ECCV2022-ByteTrack:通过关联每个检测框进行多目标跟踪_第2张图片

Figure 2. 关联每个检测框的方法示例。(a)显示所有检测框及其分数。(b)显示了通过先前方法获得的轨迹,这些方法关联了分数高于阈值的检测框,即0.5。相同的框颜色代表相同的身份。©显示了通过我们的方法获得的轨迹。虚线框表示使用卡尔曼滤波器预测的之前轨迹框。两个低分检测框基于大IoU与之前的tracklets正确匹配。

在本文中,我们发现tracklets 的相似性为区分低分检测框中的对象和背景提供了强有力的线索。如图2©所示,两个低分检测框通过运动模型的预测框与轨迹匹配,从而正确地恢复了目标。同时,由于没有匹配的tracklet,背景框被移除。

为了在匹配过程中充分利用从高分到低分的检测框,我们提出了一种简单有效的关联方法BYTE,将每个检测框命名为tracklet的一个基本单元,在计算机程序中作为字节,我们的跟踪方法对每个详细的检测框进行估值。我们首先根据运动相似性或外观相似性将高分检测框与轨迹匹配。同样,我们采用卡尔曼滤波器来预测轨迹在新帧中的位置。相似度可以通过预测框和检测框的IoU或Re-ID特征距离来计算。图2(b)正是第一次匹配后的结果。然后,我们使用相同的运动相似性在未匹配的轨迹(即红色框中的轨迹)和低分数检测框之间执行第二次匹配。图 2©显示了第二次匹配后的结果。检测分数低的被遮挡人与前一个轨迹正确匹配,并且背景(在图像的右侧)被移除。

作为目标检测与关联的综合课题,MOT的理想解决方案绝不是检测器和以下关联。此外,精心设计它们的连接区域也很重要。BYTE的创新在于检测和关联的交界处,低分检测框是提升两者的桥梁。受益于这种集成创新,当 BYTE 应用于9个不同的最先进的跟踪器时,包括基于Re-ID的跟踪器,基于运动的跟踪器,基于链的跟踪器和基于注意力的跟踪器,几乎所有指标都取得了显着改进,包括MOTA、IDF1分数和ID切换。例如,我们将CenterTrack的MOTA从66.1 增加到67.4,IDF1从64.2增加到74.0,并将MOT17的半验证集上的ID从528减少到144。

为了推动MOT的最新性能,我们提出了一个简单而强大的跟踪器,名为ByteTrack。我们采用最近的高性能检测器YOLOX来获取检测框并将它们与我们提出的BYTE相关联。在MOT挑战中,ByteTrack在MOT17和MOT20中均排名第一,在MOT17的V100 GPU上以30 FPS的运行速度实现了80.3 MOTA、77.3 IDF1和63.1 HOTA,在更拥挤的MOT20上实现了77.8 MOTA、75.2 IDF1和61.3 HOTA。ByteTrack还在HiEve和BDD100K跟踪基准上实现了最先进的性能。我们希望ByteTrack的效率和简单性能够使其在社交计算等实际应用中具有吸引力。

【社区访问】

在这里插入图片描述
【论文速递|精选】
在这里插入图片描述
阅读原文访问社区
https://bbs.csdn.net/forums/paper

你可能感兴趣的:(目标跟踪,人工智能,计算机视觉)