ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第1张图片

摘要

多目标跟踪(MOT)的目的是估计视频中物体的bounding box和Id。

目前大多数的方法是通过关联得分高于阈值的检测框来获得Id。检测分数低的对象,例如被遮挡的物体,被简单地扔掉,这带来了不可忽略的真实物体丢失和碎片轨迹。

为了解决这一问题,文章提出了一种简单、有效和通用的关联方法(ByteTrack):通过关联每个检测框而不是只关联得分高的检测框进行跟踪。对于得分低的检测框,利用低分检测框和跟踪轨迹之间的相似性,恢复真正的物体并过滤掉背景。

当应用于9种不同的先进跟踪器时,该方法在IDF1评分上取得了一致的改善,提高了1-10个点。在MOT17测试集上,利用单个V100 GPU,以30 FPS的运行速度,实现了80.3 MOTA, 77.3 IDF1和63.1 HOTA。

一、介绍

ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第2张图片
介绍的第一句,就引用了一句黑格尔的话!还是第一次看到这样的论文,还是比较有意思的。
这句德语啥意思,有两种翻译。通俗一点的解释是:存在即合理
比较正确且专业的解释是:凡是合乎理性的东西都是现实的;凡是现实的东西都是合乎理性的

哲学是所有学科的金字塔尖,也是所有学科的金字塔底。

基于检测的跟踪是目前最有效的多目标跟踪方法。但是由于视频中复杂的场景,检测器并不能完美的预测。目前最先进的MOT方法需要权衡检测框中的真阳性/假阳性来消除低置信度检测框。但是直接去除这些低分框真的合理吗?

文章认为,低分框往往意味着被遮挡的物体。去掉这些目标意味着对于MOT造成不可逆误差、漏检和碎片轨迹。并提出了一种充分利用高低置信度检测框的、简单有效的数据关联方法BYTE:tracklet是一个基本单元,以每个检测框命名,并对每一个检测框进行计算。

如下图所示,T1帧中有3个置信度高于0.5的检测框,所以我们给它创建3个不同的 tracklets。T2帧和T3帧出现遮挡时,红色框中物体的置信度从0.8降至0.4,再降至0.1。如果采用关联高置信度检测框的方式,红色检测框中的物体会被直接去掉。

ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第3张图片

文章发现,在低分检测框中,tracklets的相似性提供了一个有力的线索来区分物体和背景。两个低分检测框被运动模型的预测框匹配到轨迹,因此物体被正确地恢复,同时,背景框被删除,因为它没有匹配的轨迹。
ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第4张图片

首先根据运动相似度将高分检测框与轨迹匹配。使用卡尔曼滤波器来预测轨迹在新帧中的位置。运动相似度可以通过预测框和检测框的IoU来计算。然后,在未匹配的tracklet之间执行第二次匹配,如红色框和低分框,图2©显示了第二次匹配后的结果,将检测分数低的被遮挡者与之前的轨迹正确匹配,并去除背景。

二、相关工作

主要介绍了多目标跟踪的两个重要内容:目标检测数据关联

2.1 目标检测

  1. Tracking by detection
    如单级物体检测器RetinaNet,CenterNet以及YOLO系列检测器,大多直接使用单个图像上的检测框进行跟踪。在视频对象检测中,当视频序列发生遮挡或运动模糊时,缺失检测和极低得分检测框的数量开始增加,通常利用前一帧的信息来提高视频检测的性能。

  2. Detection by tracking
    跟踪也可以用来帮助获得更准确的检测框。如使用单目标跟踪(SOT)或卡尔曼滤波来预测下一帧中轨迹点的位置,并将预测框与检测框融合以增强检测结果。其他方法使用前一帧中的跟踪框来增强下一帧的特征表示。同时,作者还提出利用与轨迹的相似性来增强检测框的可靠性。

    大多数MOT方法在获得各个检测器的检测盒后,只将得分较高的检测盒保留,通过设定一个阈值(取0.5),并使用这些框作为数据关联的输入。这是因为低分数检测框包含许多背景,这不利于跟踪性能。但是许多被遮挡的物体可以被正确地检测到,虽然置信度很低。为了减少漏检和保持轨迹的持久性,作者提出了保留了所有的检测框,并将每个检测框关联起来。

2.2 数据关联

  1. 相似性度量(Similarity metrics)

位置运动外观是数据关联的有用线索。

SORT以一种非常简单的方式组合了位置和运动线索。该算法首先利用卡尔曼滤波器预测轨迹在新帧中的位置,然后计算出检测框与预测框之间的IoU作为相似性值。最近的一些方法则设计网络来学习物体的运动。

在近距离匹配中,定位和运动相似是准确的。外观相似性在大范围的匹配中有帮助。当物体经过长时间遮挡后,利用外观相似度可以重新识别。外观相似度可以通过Re-ID特征的余弦相似度来度量。

DeepSORT则采用独立的Re-ID模型从检测框中提取外观特征。

  1. 匹配策略(Matching strategy)

通过相似度计算,匹配策略为对象分配Id。这可以通过匈牙利算法或贪婪分配来完成。

SORT通过一次匹配将检测框与tracklet匹配。

DeepSORT提出了一种级联匹配策略,首先将检测盒匹配到最近的轨迹,然后匹配到丢失的轨迹。

MOTDT首先使用外观相似度进行匹配,然后使用IoU相似度对未匹配的tracklet进行匹配。

QuasiDense通过双向softmax操作将外观相似性转化为概率,并使用最近邻搜索来完成匹配。

注意力机制可以直接在帧之间传播框,隐式关联。

最近的一些方法提出了跟踪查询,以便在接下来的帧中找到被跟踪对象的位置。

但是作者认为检测框决定了数据关联的上界,关注的是在匹配过程中如何利用从高到低的检测框。

三、BYTE

初始化一些参数:
ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第5张图片

  1. BYTE会将每个检测框根据置信度得分按设定的阈值分成两类,高分框和低分框,并进行两次关联。
    ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第6张图片
  2. 使用卡尔曼滤波算法预测各Tracks的新位置
    在这里插入图片描述
  3. 第一次关联:高分框和之前的跟踪轨迹进行匹配。
    ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第7张图片
  4. 第二次关联:低分框和第一次没有匹配上高分框的跟踪轨迹(例如在当前帧受到严重遮挡导致得分下降的物体)进行匹配。
    在这里插入图片描述
  5. 对于第二次关联还没有匹配上检测框的跟踪轨迹,将其放入T_lost,并保留30帧,在其再次出现时再进行匹配,否则就删除。
    在这里插入图片描述
  6. 对于第一次没有匹配上跟踪轨迹,得分又足够高的检测框,对其新建一个跟踪轨迹。
    ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第8张图片

四、ByteTrack

ByteTrack = YOLOX_X + BYTE

五、实验

MOT中的相关评价指标:

  • MOTA:跟踪准确度:误报、错过目标、身份切换
  • IDF1:正确识别的检测与平均真实数和计算检测数之比
  • IDs:ID切换总数
  • FP:误报总数
  • FN:未命中目标总数
  • FPS:帧率
  • MT:命中的目标轨迹占ground truth总轨迹的比例,不低于80%
  • ML:丢失的目标轨迹占ground truth总轨迹的比例,不超过20%

ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第9张图片
DeepSORT使用额外的Re-ID模型来增强远程关联。但是实验显示,与DeepSORT相比,BYTE还具有额外的增益。这表明,在检测框足够精确的情况下,简单的卡尔曼滤波可以实现远程关联,并获得更好的IDF1和id。
在严重的遮挡情况下,Re-ID特征是脆弱的,可能导致更多的身份切换,相反,运动模型行为更可靠。所以加入Re-Id的作用已经不大了。

同时,BYTE对超参数的选择也更加具有鲁棒性
ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第10张图片

将BYTE应用到了ECCV20之后的9种SOTA tracker上,其中包括基于ReID, motion和attention的方法,都得到了稳定的MOTA和IDF1指标的提升。
ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第11张图片
ByteTrack在MOT17和MOT20上都达到了榜单第一,并且速度在当前所有方法中也达到第一(30 FPS)
ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第12张图片
ByteTrack: Multi-Object Tracking by Associating Every Detection Box (论文阅读笔记)_第13张图片

六、总结

文章提出了一个简单有效的多目标跟踪数据关联方式:BYTE,并结合YOLOX提出了一个更强的跟踪器ByteTrack,实现了在当前所有跟踪器中排名第一。ByteTrack对遮挡非常具有鲁棒性,因为它具有精确的检测性能和关联了低得分检测框。同时文章也说明了如何充分利用检测结果来增强多目标跟踪。

你可能感兴趣的:(论文阅读笔记,目标检测,计算机视觉,深度学习,目标跟踪)