多目标跟踪(MOT)的目的是估计视频中物体的bounding box和Id。
目前大多数的方法是通过关联得分高于阈值的检测框来获得Id。检测分数低的对象,例如被遮挡的物体,被简单地扔掉,这带来了不可忽略的真实物体丢失和碎片轨迹。
为了解决这一问题,文章提出了一种简单、有效和通用的关联方法(ByteTrack):通过关联每个检测框而不是只关联得分高的检测框进行跟踪。对于得分低的检测框,利用低分检测框和跟踪轨迹之间的相似性,恢复真正的物体并过滤掉背景。
当应用于9种不同的先进跟踪器时,该方法在IDF1评分上取得了一致的改善,提高了1-10个点。在MOT17测试集上,利用单个V100 GPU,以30 FPS的运行速度,实现了80.3 MOTA, 77.3 IDF1和63.1 HOTA。
介绍的第一句,就引用了一句黑格尔的话!还是第一次看到这样的论文,还是比较有意思的。
这句德语啥意思,有两种翻译。通俗一点的解释是:存在即合理。
比较正确且专业的解释是:凡是合乎理性的东西都是现实的;凡是现实的东西都是合乎理性的。
哲学是所有学科的金字塔尖,也是所有学科的金字塔底。
基于检测的跟踪是目前最有效的多目标跟踪方法。但是由于视频中复杂的场景,检测器并不能完美的预测。目前最先进的MOT方法需要权衡检测框中的真阳性/假阳性来消除低置信度检测框。但是直接去除这些低分框真的合理吗?
文章认为,低分框往往意味着被遮挡的物体。去掉这些目标意味着对于MOT造成不可逆误差、漏检和碎片轨迹。并提出了一种充分利用高低置信度检测框的、简单有效的数据关联方法BYTE:tracklet是一个基本单元,以每个检测框命名,并对每一个检测框进行计算。
如下图所示,T1帧中有3个置信度高于0.5的检测框,所以我们给它创建3个不同的 tracklets。T2帧和T3帧出现遮挡时,红色框中物体的置信度从0.8降至0.4,再降至0.1。如果采用关联高置信度检测框的方式,红色检测框中的物体会被直接去掉。
文章发现,在低分检测框中,tracklets的相似性提供了一个有力的线索来区分物体和背景。两个低分检测框被运动模型的预测框匹配到轨迹,因此物体被正确地恢复,同时,背景框被删除,因为它没有匹配的轨迹。
首先根据运动相似度将高分检测框与轨迹匹配。使用卡尔曼滤波器来预测轨迹在新帧中的位置。运动相似度可以通过预测框和检测框的IoU来计算。然后,在未匹配的tracklet之间执行第二次匹配,如红色框和低分框,图2©显示了第二次匹配后的结果,将检测分数低的被遮挡者与之前的轨迹正确匹配,并去除背景。
主要介绍了多目标跟踪的两个重要内容:目标检测和数据关联。
Tracking by detection
如单级物体检测器RetinaNet,CenterNet以及YOLO系列检测器,大多直接使用单个图像上的检测框进行跟踪。在视频对象检测中,当视频序列发生遮挡或运动模糊时,缺失检测和极低得分检测框的数量开始增加,通常利用前一帧的信息来提高视频检测的性能。
Detection by tracking
跟踪也可以用来帮助获得更准确的检测框。如使用单目标跟踪(SOT)或卡尔曼滤波来预测下一帧中轨迹点的位置,并将预测框与检测框融合以增强检测结果。其他方法使用前一帧中的跟踪框来增强下一帧的特征表示。同时,作者还提出利用与轨迹的相似性来增强检测框的可靠性。
大多数MOT方法在获得各个检测器的检测盒后,只将得分较高的检测盒保留,通过设定一个阈值(取0.5),并使用这些框作为数据关联的输入。这是因为低分数检测框包含许多背景,这不利于跟踪性能。但是许多被遮挡的物体可以被正确地检测到,虽然置信度很低。为了减少漏检和保持轨迹的持久性,作者提出了保留了所有的检测框,并将每个检测框关联起来。
位置、运动和外观是数据关联的有用线索。
SORT以一种非常简单的方式组合了位置和运动线索。该算法首先利用卡尔曼滤波器预测轨迹在新帧中的位置,然后计算出检测框与预测框之间的IoU作为相似性值。最近的一些方法则设计网络来学习物体的运动。
在近距离匹配中,定位和运动相似是准确的。外观相似性在大范围的匹配中有帮助。当物体经过长时间遮挡后,利用外观相似度可以重新识别。外观相似度可以通过Re-ID特征的余弦相似度来度量。
DeepSORT则采用独立的Re-ID模型从检测框中提取外观特征。
通过相似度计算,匹配策略为对象分配Id。这可以通过匈牙利算法或贪婪分配来完成。
SORT通过一次匹配将检测框与tracklet匹配。
DeepSORT提出了一种级联匹配策略,首先将检测盒匹配到最近的轨迹,然后匹配到丢失的轨迹。
MOTDT首先使用外观相似度进行匹配,然后使用IoU相似度对未匹配的tracklet进行匹配。
QuasiDense通过双向softmax操作将外观相似性转化为概率,并使用最近邻搜索来完成匹配。
注意力机制可以直接在帧之间传播框,隐式关联。
最近的一些方法提出了跟踪查询,以便在接下来的帧中找到被跟踪对象的位置。
但是作者认为检测框决定了数据关联的上界,关注的是在匹配过程中如何利用从高到低的检测框。
ByteTrack = YOLOX_X + BYTE
MOT中的相关评价指标:
DeepSORT使用额外的Re-ID模型来增强远程关联。但是实验显示,与DeepSORT相比,BYTE还具有额外的增益。这表明,在检测框足够精确的情况下,简单的卡尔曼滤波可以实现远程关联,并获得更好的IDF1和id。
在严重的遮挡情况下,Re-ID特征是脆弱的,可能导致更多的身份切换,相反,运动模型行为更可靠。所以加入Re-Id的作用已经不大了。
将BYTE应用到了ECCV20之后的9种SOTA tracker上,其中包括基于ReID, motion和attention的方法,都得到了稳定的MOTA和IDF1指标的提升。
ByteTrack在MOT17和MOT20上都达到了榜单第一,并且速度在当前所有方法中也达到第一(30 FPS)
文章提出了一个简单有效的多目标跟踪数据关联方式:BYTE,并结合YOLOX提出了一个更强的跟踪器ByteTrack,实现了在当前所有跟踪器中排名第一。ByteTrack对遮挡非常具有鲁棒性,因为它具有精确的检测性能和关联了低得分检测框。同时文章也说明了如何充分利用检测结果来增强多目标跟踪。