图像 跟踪 - MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors - 预训练目标检测器的端到端自举多目标跟踪(CVPR 2023)

  • 摘要
  • 1. 引言
  • 2. 相关工作
  • 3. 方法
    • 3.1 修订MOTR
    • 3.2 动机
    • 3.3 总体架构
  References



  • 标题:MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors (CVPR 2023)
  • 作者:Yuang Zhang, Tiancai Wang, Xiangyu Zhang
  • 文章链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_MOTRv2_Bootstrapping_End-to-End_Multi-Object_Tracking_by_Pretrained_Object_Detectors_CVPR_2023_paper.pdf
  • 文章代码:https://github.com/megvii-research/MOTRv2



1. 引言


图1. 在DanceTrack和BDD100K数据集上MOTR(灰色条)和MOTRv2(橙色条)之间的性能比较。MOTRv2在不同场景下大大提高了MOTR的性能。



图2. MOTRv2的总体架构。由最先进的检测器YOLOX[11]产生的提案用于生成提案查询,它取代了MOTR[43]中用于检测新生目标的检测查询。跟踪查询从上一帧传输过来,用于预测被跟踪目标的边界框。提案查询和跟踪查询的级联以及图像特征被输入到MOTR以逐帧生成预测。



2. 相关工作


  使用匈牙利算法[14]进行关联有多种尝试:SORT[4]对每个跟踪的实例应用卡尔曼滤波器[37],并使用卡尔曼滤波器的预测框和检测框之间的交并比(IoU)矩阵进行匹配。Deep SORT[38]引入了一个单独的网络来提取实例的外观特征,并使用SORT之上的成对余弦距离。JDE[36]、Track-RCNN[25]、FairMOT[45]和Unicorn[41]进一步探索了目标检测和外观嵌入的联合训练。ByteTrack[44]利用了强大的基于YOLOX的[11]检测器,实现了最先进的性能。它引入了一种增强的SORT算法来关联低分数检测框,而不是只关联高分数检测框。BoT-SORT[1]进一步设计了更好的卡尔曼滤波器状态、相机运动补偿和ReID特征融合。TransMOT[9]和GTR[48]在计算分配矩阵时使用时空transformers,例如特征交互和历史信息聚合。OC-SORT[6]放松了线性运动假设,并使用了可学习的运动模型。






3. 方法


3.1 修订MOTR



3.2 动机


3.3 总体架构




