三维多目标跟踪(MOT)对于自动驾驶等应用来说是至关重要的。最近的工作重点是开发精确的系统,对计算成本和系统的复杂性不太重视。相比之下,这项工作提出了一个简单的实时3D MOT系统,具有很强的性能。我们的系统首先从LiDAR点云中获得三维检测。然后,使用三维卡尔曼滤波和匈牙利算法的直接组合进行状态估计和数据关联。此外,三维MOT数据集(如KITTI)在二维空间中评估MOT方法,而标准化的三维MOT评估工具对于三维MOT方法的公平比较是缺失的。我们提出了一个新的三维MOT评估工具以及三个新的指标来全面评估三维MOT方法。我们表明,我们提出的方法在KITTI上实现了强大的3D MOT性能,在KITTI数据集上的运行速度为207.4 FPS,在现代3D MOT系统中实现了最快的速度。我们的代码可在http://www.xinshuoweng.com/projects/AB3DMOT
Keywords: multi-object tracking, evaluation metrics
MOT对自动驾驶等应用至关重要[6]。由于检测方面的进步,MOT方面已经有了很大的进展。例如,如图1(左)所示,对于KITTI[2]二维MOT基准的汽车类,MOTA(多物体跟踪精度)在短短两年内从57.03提高到84.04。虽然我们对这一进展感到鼓舞,但我们注意到,我们对创新和准确性的关注可能是以重要的实际因素为代价的,如计算效率和系统的简单性,S.O.T.A.方法通常需要大量的计算成本[8,1,7],使得实时性能成为一个挑战。另外,现代MOT系统往往很复杂,并不总是很清楚系统的哪一部分对性能的贡献最大。
为了提供一个标准的三维MOT基线进行比较分析,我们实施了一个设计上既高效又简单的经典方法–卡尔曼滤波器[3](1960)与匈牙利方法[5](1955)相结合。具体来说,我们的系统如图1(右)所示,它采用了一个现成的3D物体检测器,从LiDAR点云中获得3D检测结果[4]。然后,三维卡尔曼滤波(具有恒定速度模型)和匈牙利算法的组合被用于状态估计和数据关联。与其他基于滤波器的MOT系统在图像平面内定义滤波器的状态空间不同[9],我们将物体的状态空间扩展到三维,包括三维位置、三维尺寸、三维速度和方向。
我们的经验结果是令人震惊的。虽然我们系统中的模块组合很简单,但我们在KITTI数据集上取得了强大的3D MOT性能。令人惊讶的是,尽管我们的系统没有使用任何二维数据作为输入,但通过将我们的三维MOT结果投射到图像平面上进行评估,我们也在图1(左)中的KITTI二维MOT排行榜上取得了具有竞争力的性能。我们假设,我们的三维MOT系统的强大的二维MOT性能可能是由于三维跟踪可以更好地解决深度模糊问题,并导致比二维跟踪更少的不匹配。同时,由于我们系统的有效设计,它在KITTI数据集上的运行速度为207.4FPS,在现代三维MOT系统中达到了最快的速度。明确地说,这项工作的贡献不是创新三维MOT算法,而是提供一个更清晰的现代三维MOT系统与最基本但强大的基线的比较,我们认为其结果对整个社区来说是很重要的。
我们观察到目前3D MOT评估的一个问题。标准的MOT基准,如KITTI数据集,只支持二维MOT评估,即对图像平面的评估。目前还没有一个直接在三维空间中评估三维MOT系统的工具。在KITTI数据集上,目前评估三维MOT方法的惯例是将三维跟踪结果投影到二维图像平面,然后使用KITTI二维MOT评估工具。然而,我们认为这将阻碍三维MOT系统的未来发展,因为在图像平面上的评估不能显示三维MOT方法的全部实力。
为了更好地评估三维MOT系统,我们实现了对KITTI二维MOT评估工具的扩展,用于三维MOT评估。 具体来说,我们将成本函数从二维IoU修改为三维IoU,并将三维MOT结果与三维地面真实轨迹直接在三维空间进行匹配。通过这种方式,我们不再需要将三维MOT结果投射到图像平面上进行评估。对于每一个被追踪的物体,需要与地面实况达到最小的3D IoU(我们在实验中使用0.25)才能被视为成功匹配。尽管我们的三维MOT评估工具是对二维对应工具的直接扩展,但我们希望它可以作为评估未来三维MOT系统的标准。
我们观察到的另一个问题是: 常见的MOT指标,如MOTA和MOTP,并不考虑被跟踪物体的置信度。因此,用户必须手动选择一个置信度阈值,并在评估前过滤掉置信度低于该阈值的跟踪对象。然而,选择最佳阈值并不容易,如果使用不同的检测器或在不同的数据集上进行评估,置信度阈值可能会有很大不同。更重要的是,使用单一的置信度阈值进行评估使我们无法了解MOT系统的全部准确性。一个后果是,一个在单一阈值下实现高MOTA的MOT系统在其他阈值下仍可能具有极低的MOTA,但仍然在排行榜上排名靠前。理想情况下,我们应该致力于开发能够在一大组阈值中获得高MOTA的MOT系统,即对置信度评分具有鲁棒性。
为了解决目前的MOT评价指标不考虑置信度得分和只在单一阈值下进行评价的问题,我们提出了三个积分指标–sAMOTA、AMOTA和AMOTP(缩放平均MOTA、平均MOTA和MOTP)—— 来总结MOTA和MOTP在不同阈值下的表现。具体来说,积分指标AMOTA和AMOTP是通过对所有召回值的MOTA和MOTP进行积分计算出来的。与其他积分指标类似,如物体检测中使用的平均精度,我们用离散的召回值集(40)上的总和来近似积分。然后,提出sAMOTA矩阵来调整AMOTA值在0%和100%之间的范围。
数据集和评估 我们在KITTI三维MOT数据集上进行评估,该数据集提供LiDAR点云和ground truth三维边界盒轨迹。由于KITTI测试集只支持二维MOT评估,而且其ground truth未向用户公布,我们不得不使用KITTI值集进行三维MOT评估。根据先前的工作,我们对KITTI数据集的汽车子集进行了评估,以进行比较。除了提议的三个积分指标外,我们还对标准的MOT指标进行评估,包括MOTA、MOTP、IDS、FRAG和FPS。
基线 我们与最近开源的3D MOT系统,如FANTrack[1]和mmMOT[10]进行比较。我们使用PointRCNN[4]在KITTI上获得的相同的三维检测结果,用于我们提出的方法和需要三维检测结果作为输入的基线[1,10]。对于需要2D检测作为输入的基线[1,10],我们使用3D检测的2D投影。
结果 我们在表1中显示了基线和我们提议的系统的结果。评估是在三维空间使用拟议的三维MOT评估工具和新指标进行的。我们的三维MOT系统在所有指标上都一直优于其他现代三维MOT系统,在KITTI三维MOT上建立了强大的性能,实现了令人印象深刻的零身份转换。我们在图2中展示了我们的3D MOT系统的定性结果。三维跟踪结果在图像上以彩色的三维边界框显示出来,其中的颜色代表物体的身份。我们可以看到,我们的系统可以在三维空间中可靠地跟踪示例序列的物体。
推理时间 我们在表1的最后一栏显示了推理时间的比较。我们的3D MOT基线系统(不包括3D检测器部分)在KITTI值集上的运行速度为207.4 FPS,不需要GPU,在现代3D MOT系统中实现了最快的速度。
我们提出了一个准确、简单和实时的在线3D MOT基线系统。同时,我们还提出了一个新的3D MOT评估工具,以及一套新的指标,以便在未来进行标准化的3D MOT评估。通过对KITTI 3D MOT基准的实验,我们的系统建立了强大的3D MOT性能,同时实现了最快的速度。我们希望我们的系统和发布的代码将作为一个坚实的基线,其他人可以很容易地在此基础上推进三维MOT的先进性。同时,我们希望我们发布的评估工具将作为未来3D MOT基准的标准。