哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?

原文链接:https://arxiv.org/pdf/2309.06036.pdf

摘要:由于高级驾驶员辅助系统(ADAS)和自动驾驶(AD)对三维感知的需求不断扩大,在线3D多目标跟踪(MOT)最近受到了极大的研究兴趣。在现有的ADAS和AD的3D MOT框架中,使用检测跟踪(TBD:tracking-by-detection)策略的传统点目标跟踪(POT-point object tracking)框架已被LiDAR和4D成像雷达点云充分研究和接受。相比之下,扩展目标跟踪(EOT-extended object tracking)——另一个接受联合检测和跟踪(JDT:joint-detection-and-tracking )策略的重要框架,则很少被探索用于在线3D MOT应用。

本文首次系统研究了真实世界ADAS和AD场景中在线3D MOT的EOT框架。具体而言,通过对两个开源4D成像雷达数据集(View of Delft-VOD和TJ4DRadSet)的广泛评估,比较了广泛接受的TBD-POT框架、最近研究的JDT-EOT框架和我们提出的TBD-EOT框架。实验结果表明,传统的TBD-POT框架仍然适用于具有高跟踪性能和低计算复杂度的在线3D MOT,而所提出的TBD-EOT框架在某些情况下有可能优于它。然而,结果也表明,JDT-EOT框架遇到了多个问题,并且在评估场景中表现不佳。在基于各种评估指标和可视化分析了这些现象的原因后,我们提供了可能的指导方针,以提高这些MOT框架在真实世界数据上的性能。这些为基于4D成像雷达的在线3D MOT的未来发展提供了第一个基准和重要见解。

1.介绍

        在线三维多目标跟踪(3D MOT)高级驾驶员辅助系统(ADAS)自动驾驶(AD)应用中的关键组件。它通过消除数据关联和估计物体状态的不确定性,帮助自动驾驶汽车实现稳健和准确的3D感知。由于传感器和信号处理技术的进步,近年来,使用各种类型传感器(如相机、激光雷达LiDar和RaDar)的在线3D MOT受到了极大的兴趣。

        在所有传感器模式中,汽车雷达作为唯一一种能够在极端照明条件和恶劣天气下工作的具有成本效益的传感器,已被广泛用于感知任务,例如,实例分割、目标检测以及多目标检测MOT。尽管传统的汽车雷达可以有效地在距离和多普勒速度维度上分离物体,但雷达测量的低角分辨率限制了基于雷达的目标检测和多目标检测的性能。近年来,基于多输入多输出(MIMO)技术的4D成像雷达越来越受到关注。与传统的汽车雷达不同,4D成像雷达能够测量物体的距离、速度、方位角和仰角,从而为开发基于雷达的新型3D MOT方法提供了新的可能性。

        3D MOT方法的设计范式可分为两类:基于模型的和基于深度学习的。基于模型的范式采用了精心设计的多目标动态和测量模型,适用于开发高效、稳健的3D MOT方法。作为基于模型的MOT范式的典型框架,使用检测跟踪(TBD)策略的点目标跟踪(POT)框架已在学术界和工业界广泛采用。虽然POT假设每个物体每次传感器扫描最多只生成一个测量值,但3D物体通常在激光雷达和4D成像雷达点云中生成多个测量值(即点)。因此,在跟踪之前执行目标检测,以将由同一对象生成的测量组合成单个检测。基于POT框架的TBD策略的有效性已在许多现实世界中基于激光雷达的在线3D MOT任务中得到验证。

        另一个最近在跟踪文献中受到广泛关注的基于模型的MOT框架是扩展目标跟踪(EOT),它采用了联合检测和跟踪(JDT)策略。与POT相反,EOT假设一个物体每次传感器扫描可以产生多个测量值。因此,EOT可以在没有额外目标检测模块的情况下实现JDT(联合检测和跟踪),并且据称可以使用真实世界的激光雷达点云和汽车雷达检测点在单目标跟踪方面取得有希望的结果。然而,在具有真实世界数据的复杂ADAS和AD场景中,很少对在线3D MOT进行EOT(扩展目标跟踪)。目前,只有两项可用的工作试图评估现实世界中基于激光雷达的多目标跟踪的EOT框架。上述工作都没有提供在ADAS/AD数据集中跟踪具有不同类别的多个目标的详细性能,也没有使用广泛接受的度量进行系统分析。因此,EOT在复杂的ADAS和AD场景中的适用性尚未真正得到证明。此外,随着深度学习的兴起,在ADAS和AD场景中,几乎所有具有点云的3D MOT的最新方法都遵循基于深度学习的目标检测的TBD-POT框架(点目标检测跟踪框架)或基于深度学习跟踪范式。这种现象似乎显示了一个不再需要EOT(扩展目标跟踪)的神话。具体来说,EOT是否能在3D MOT方面优于传统的TBD-POT框架,这仍然是一个悬而未决的问题。

        具体而言,本文的贡献是:

(1)本文通过比较POT和EOT框架,为ADAS和AD中基于4D成像雷达的在线3D MOT的后续研究提供了第一个基准。评估揭示了POT和EOT框架的优缺点,我们的分析为设计在线3D MOT算法提供了指导。

(2)为了填补基于EOT的在线3D MOT的理论与实践之间的空白,首次在真实世界的ADAS和AD场景中系统地研究了EOT框架。虽然广泛研究的JDT-EOT框架表现不佳,但我们提出的TBD-EOT框架利用了基于深度学习的目标检测器的优势,与JDT-EOT框架相比,实现了卓越的跟踪性能和计算效率。

(3)实验结果表明,传统的TBD-POT框架由于其高跟踪性能和计算效率,对于具有4D成像雷达的在线3D MOT仍然是优选的。然而,TBD-EOT框架在某些情况下可以优于TBD-POT,证明了在现实世界的ADAS和AD应用中使用EOT进行在线3D MOT的潜力。

        本文的其余部分组织如下。第二节对相关工作进行了审查。第三节解释了使用POT和EOT的三种不同的在线3D MOT框架。第四节提供了在View of Delft(VOD)和TJ4DRadSet数据集上评估的3D MOT模型的实验结果,并进行了系统比较。最后,第五节得出了结论。

2.相关工作

(1)利用4D成像雷达进行3D目标检测

        由于有限的角分辨率和多径效应,与激光雷达相比,4D成像雷达点云更稀疏,包含更多的噪声和模糊度。为了解决这些问题,最近提出了几种基于神经网络的4D成像雷达三维目标检测方法。例如,RPFANet中的自注意机制被用于从4D雷达点云中提取全局特征,从而提高了估计目标航向角的性能。[38]中提出了一种3D目标检测框架,通过速度补偿和帧间匹配在多个4D雷达帧中积累时间和空间特征。在SMURF中,通过利用柱化和核密度估计技术引入了4D雷达点的多个表示,在两个最新的4D成像雷达数据集VoD和TJ4DRadSet上实现了最先进的性能。此外,4D成像雷达还被提议与相机和激光雷达融合,以提高性能。

(2)基于激光雷达的3D多目标跟踪

        用于激光雷达的大多数3D MOT方法采用传统的TBD(检测跟踪)策略,其中点云由目标检测器处理,以获得边界框形式的检测结果。然后,点目标跟踪器对检测集执行MOT。由于许多用于激光雷达的3D目标检测器足够准确,因此可以通过使用简单的贝叶斯MOT算法(如具有启发式跟踪管理的全局最近邻跟踪器)来实现足够的跟踪性能。然而,由于检测器仍然会产生错误检测,这些MOT方法可能会受到轨道碎片和目标ID切换的影响。为了进一步提高跟踪性能,已经提出了几种基于随机有限集(RFS)的方法。RFS-M3采用泊松-多伯努利混合(PMBM)滤波器与基于神经网络的3D对象检测器相结合。刘等人进一步修改了PMBM,提出了具有全局最近邻的泊松多伯努利滤波器(GNN-PMB),作为一种简单有效的激光雷达在线MOT算法。提出了一种基于和积算法的新型MOT框架,以实现高效的概率数据关联,并大大减少ID切换错误。

        另一方面,也使用基于深度学习的范式实现了具有JDT(联合检测和跟踪)策略的基于激光雷达的3D MOT。例如,SimTrack将数据关联和跟踪管理集成到端到端可训练模型中,CenterTube通过检测点云序列中的4D时空小管道来实现JDT,3DMODT可以直接在原始激光雷达点云上操作,并对亲和矩阵采用基于注意力的细化模块。然而,在现实世界的ADAS和AD场景中,基于模型的范式(即EOT框架)所使用的JDT策略很少被研究用于基于激光雷达的3D MOT。因此,这仍然是一个需要进一步研究的领域。  

3.方法论      

        在本节中,我们介绍了具有4D成像雷达点云的在线3D MOT的三种不同框架,包括传统的TBD-POT、广泛研究的JDT-EOT和我们提出的TBD-EOT,见图1。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第1张图片

图1:具有4D成像雷达点云的在线3D MOT的三种不同框架的示意图。

(1)框架一:点目标检测跟踪(TBD with POT)

TBD-POT框架已在具有不同传感器模式的MOT的文献中被广泛采用,例如,[3,15,47,48]。在该跟踪框架中,4D成像雷达点云首先由目标检测器处理以生成3D边界框,该3D边界框提供诸如目标位置、边界框大小、方位、类别、检测分数等信息。为了简化计算,POT算法通常在笛卡尔坐标中进行二维物体位置测量,并在BEV平面上执行MOT。然后将3D边界框的其他信息与估计的目标位置和ID组合以生成3D跟踪结果。TBD-POT框架有两个主要优点:1)POT算法可以利用目标类别和检测分数等额外信息来进一步提高跟踪性能。2) 与EOT相比,POT的计算密集度通常较低。

        对于POT算法,我们选择GNN-PMB滤波器,据报道,该滤波器是使用激光雷达进行在线3D MOT的最先进的POT方法。它通过随时间传播PMB密度来估计多目标状态,PMB密度是未检测对象的泊松点过程(PPP-Poisson point process )和检测对象的多伯努利过程(MB-multi Bernoulli)的并集。数据关联是通过管理局部和全局假设来实现的。对于每个时间步长,测量可以与先前跟踪的目标、新检测到的目标或假警报相关联,以生成不同的局部假设。然后,将兼容的局部假设收集到全局假设中,该全局假设描述了每个当前目标和测量的关联。通过求解二维分配问题,可以从成本矩阵中获得总成本最低的全局假设。与计算和传播多个全局假设的PMBM滤波器不同,GNN-PMB只传播最佳全局假设以降低计算复杂度。总之,本文中的第一个在线3D MOT框架将基于深度学习的3D目标检测器与GNN-PMB相结合,如图1的第一行所示。

(2)框架二:扩展目标跟踪的联合检测与跟踪(JDT with EOT)

        与第一个框架相比,JDT-EOT框架通过同时检测和跟踪多个物体来对4D雷达点云进行操作。点云经过门控和聚类过程以生成潜在的测量分区(聚类),然后EOT滤波算法使用这些聚类执行3D MOT。理论上,该框架有可能提供对目标位置和形状的更准确估计,并减少假阴性,因为点云比预处理的3D边界框包含更多的信息。然而,产生准确的测量分区是一项挑战,特别是对于具有大量模糊性和杂波的4D雷达点云。由于点云的分布和密度在对象之间可能不同,通常使用不同的聚类算法,如DBSCAN和k-means,并使用不同的参数设置来生成尽可能多的不同测量分区。这进一步增加了EOT的计算复杂性,并对该框架的实时性能提出了挑战。

        对于实现JDT-EOT框架的方法,选择了具有伽玛-高斯逆Wishart实现(GGIW-PMBM)的PMBM滤波器,该滤波器在估计精度和计算复杂度方面被认为是最先进的EOT算法之一,如图1的第二行所示。之所以采用PMBM滤波器,是因为它可以通过对具有多伯努利混合(MBM:multi-Bernoulli mixture)密度的面向目标测量进行建模并传播多个全局假设来应对雷达测量的高不确定性。假设下,每个目标都有一个由逆Wishart(IW:inverse Wishart)密度表示的椭圆形状,椭圆的长轴和短轴用于形成矩形边界框。这种范围建模足够简单和灵活,可以对不同类别的对象进行建模。更重要的是,GGIW实现在所有现有EOT实现中具有最低的计算复杂度,使其适用于实时3D MOT。

(3)拟提出的框架三:扩展目标跟踪的检测跟踪(TDB with EOT)

        为了利用基于深度学习的目标检测器和EOT的优势,我们提出了第三个MOT框架TBD-EOT。不是直接对整个点云进行聚类,而是在聚类之前从原始点云中选择检测到的边界框内的有效点作为测量,这些有效点更有可能来自目标物体而不是杂波。与JDT-EOT相比,该框架具有双重优势。首先,通过去除可能来自杂波的测量,可以显著降低EOT中数据关联的计算复杂性。因此,这导致跟踪性能的提高,潜在的错误检测更少。其次,EOT算法可以利用来自检测器的信息来进一步提高跟踪性能,例如,为不同的目标类别设置优化的参数,丢弃检测分数较低的边界框等。如图1的第三行所示,该MOT框架使用与第一框架相同的3D目标检测器以及最先进的EOT滤波器GGIW-PMBM来实现。

4.实验与分析

(1)数据集和评估指标

我们在两个最近发布的基于4D成像雷达的自动驾驶数据集上评估了每个在线3D MOT框架:View-of-Delft(VoD)和TJ4DRadSet。这两个数据集都包含具有高质量注释的同步4D成像雷达、激光雷达和相机数据。每个框架在VoD的验证集(序列号0、8、12和18)和TJ4DRadSet的部分测试集(序列编号0、10、23、31和41)上使用三个对象类别(汽车、行人和骑自行车的人)进行评估。这些选定的序列涵盖了各种驾驶条件,并包含了数量平衡的不同类别的物体。SMURF是一种用于4D成像雷达点云的最先进的目标检测器,被选择来提取边界盒检测,以实现TBD-POT和TBD-EOT。由于JDT-EOT无法访问目标类信息,因此在状态提取过程中添加了启发式分类步骤。在此步骤中,根据估计边界框的宽度和长度,将未分类的跟踪结果分为汽车、行人、骑自行车的人和其他人。

        在以下评估中,在BEV平面上评估ADAS和AD的一组公认的MOT度量,包括多目标跟踪精度(MOTA)、多目标跟踪精确度(MOTP)、真阳性(TP)、假阴性(FN)、假阳性(FP)和ID切换(IDS)。此外,我们采用了最近提出的MOT度量HOTA(高阶跟踪精度)。HOTA分解为一系列子度量,包括检测精度(DetA)、关联精度(AssA)和定位精度(LocA),能够对MOT性能进行清晰的分析。

        最值得注意的是,MOTA、MOTP和HOTA度量是基于TP、FN和FP计算的。如果它们的中心位置之间的欧几里得距离不超过2m,则估计可以与地面实况相匹配,并算作TP,这与nuScenes跟踪挑战一致。剩下的不匹配估计变成了FP,而不匹配的基本事实变成了FNs。

(2)不同跟踪框架之间的比较

        为了实现三个在线MOT框架,即SMURF+GNN-PMB、GGIW-PMBM和SMURF+GGIWPMBM,在VoD和TJ4DRadSet的训练集上调整超参数。评估结果分别见表一和表二。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第2张图片

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第3张图片

表一:VoD验证集上基于4D成像雷达的3D MOT跟踪结果。

表二:TJRadSet测试集上基于4D成像雷达的3D MOT跟踪结果。

表三:TP和FN使用未分类的GGIW-PMBM跟踪结果评估JDT-EOT。

1) GGIW-PMBM的性能:表I和表II表明,在我们的实验中,GGIW-PMB的性能是不可取的。可以观察到,GGIW-PMBM对于所有三类都具有低检测精度,因为跟踪结果包括比TP明显更多的FP和FNs。为了分析根本原因,我们使用未分类的GGIW-PMBM跟踪结果重新计算TP和FN,其中距离地面实况位置2米以内的任何跟踪结果都匹配为TP。如表III所示,与原始评估结果相比,所有三个类别的TP都大幅增加,这表明GGIW-PMBM可以产生接近地面实况位置的可比跟踪结果。然而,如图2所示,GGIW-PMBM估计的大多数边界框具有相似的长度和宽度。因此,启发式分类步骤未能基于估计的边界框大小对一些跟踪结果进行分类,并且错误地将它们从原始评估中排除。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第4张图片

图2:GGIW-PMBM估计的边界框大小直方图。(a)以及(b)示出了在VoD验证集上估计的边界框宽度和长度。(c)以及(d)示出了在TJ4DRadSet测试集上估计的边界框宽度和长度。

        我们继续讨论GGIW-PMBM在两个数据集之间的性能差异。行人和自行车类的MOTA在TJ4DRadSet上明显低于在VoD上,这表明GGIW-PMBM在TJ4DRadSet上产生了更多的错误轨迹。性能上的差异可归因于TJ4DRadSet的测试序列包含源自路边障碍物的密集杂波,而聚类过程无法排除这些杂波。这种效果如图3所示,其中显示了TJ4DRadSet中的一个场景,车辆在四车道道路上行驶,道路两侧有围栏和路灯等障碍物。由于路边障碍物是静止的,因此可以通过在聚类之前移除具有低径向速度的雷达点来缓解这个问题。由于TJ4DRadSet尚未提供自我车辆运动数据,因此此处未进行补充实验。然而,我们可以推断,这个过程也会影响静止物体的点云,从而增加这些物体被错误跟踪的概率。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第5张图片

图3:在TJ4DRadSet测试集的场景中,GGIW-PMBM从路边障碍物产生的假阳性。红点是雷达点。绿色框是估计的对象边界框。

        总的来说,我们可以得出结论,GGIW-PMBM在真实世界的4D成像雷达点云上并没有获得优越的性能,因为如果没有目标检测器提供的信息,很难基于启发式方法对跟踪结果进行分类,也很难区分目标原点点云和背景杂波。

2)SMURF+GNN-PMB和SMRUF+GGIW-PMBM的性能:与GGIW-PMB不同,SMURF+TNN-PMB和SMURF+CGIW-PMB都利用了来自目标探测器的信息。如表I和表II所示,SUMRF+GNN-PMB在汽车目标方面比SMURF+GGIW-PMBM有很大的优势,主要是因为SMURF+CGIW-PMBM对汽车目标的定位精度要低得多。为了更好地说明这一现象,我们评估了不同TP匹配距离阈值α下汽车类的MOTA,如表IV所示。随着α的降低,SMURF+GGIWPMBM的MOTA比SMURF+GNNPMB的MOTA下降得更快,这表明在相同的TP匹配标准下,SMURF+GGIW-PMBM的更多轨道估计被评估为FP。SMURF+GGIW-PMBM的定位误差主要是由于点云分布建模的不准确造成的。图4表明,雷达点云倾向于聚集在汽车目标靠近雷达的一侧。这与GGIW实现中的建模假设不匹配,其中假设测量点分散在整个椭圆表面上,导致汽车目标的估计尺寸和位置偏离地面实况。因此,准确的测量模型,例如高斯过程,可能有助于TBD-EOT框架在汽车等大型物体上实现最佳性能。然而,这也意味着计算复杂性的增加。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第6张图片

表四:在不同TP匹配距离阈值α下评估的汽车级MOTA。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第7张图片

图4:从VoD验证集中的场景中拍摄的汽车目标的不均匀分布雷达点云的可视化。左列中的图说明了在同一时间步长内两个汽车目标的地面实况、检测到的和估计的3D边界框。4D雷达在物体的右侧。

        还观察到,对于自行车级别,SMURF+GGIW-PMBM和SMURF+GNN-PMB之间的性能差距缩小。在行人方面,SMURF+GGIW-PMBM由于其卓越的关联性和定位精度,甚至在HOTA上优于SMURF+GNN-PMB。此外,对于行人和骑自行车的类别,SMURF+GGIW-PMBM比SMURF+GNN-PMB产生更少的IDS,如图5所示。这些现象分析如下。首先,GGIW-PMBM对[21,Eq.(35)]中定义的对象检测概率Pd采用自适应建模。具体地,Pd=PdmPm,其中Pdm通常被设置为固定的超参数以表示可测量对象的检测概率,Pm表示现有对象可测量的概率,即对象生成GNN-PMB的边界框或GGIW-PMBM的至少一个雷达点。与将Pm建模为固定超参数的GNN-PMB不同,GGIW-PMBM基于估计的对象的GGIW密度来计算Pm,从而使Pd具有自适应性。其次,除了目标位置之外,GGIW-PMBM滤波器还利用目标雷达点的数量和空间分布来计算关联假设的可能性。由于GGIW密度可以更准确地为小物体的雷达点分布建模,因为与汽车相比,这些点不倾向于聚集在这些物体的一侧,因此GGIW-PMBM滤波器可以利用来自行人和骑自行车的点云的更多信息来准确地估计Pd和关联假设的可能性。这可以帮助SMURF+GGIW-PMBM通过减少错误终止引起的轨道碎片以及与错误警报的关联,在IDS、定位和关联方面实现卓越的性能。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第8张图片

图5:VoD验证集场景中行人的轨道ID维护。SMURF+GNN-PMB和SMURF+GGIW-PMBM的跟踪结果分别如(a)和(b)所示。虚线连接同一对象的边界框,十字标记表示ID开关。

        最后,根据每秒处理的帧数(FPS)来评估三个MOT框架的运行时间。如表5所示,SMURF+GGIW-PMBM比SMURF+GNN-PMB慢大约10倍。GGIW-PMBM比其他两个框架慢得多,主要是由于原始4D成像雷达点云生成的可能测量分区数量过多。

哪种框架适合使用汽车4D成像雷达进行自动驾驶的在线3D多目标跟踪?_第9张图片

表五:MOT框架的FPS,通过使用Intel i9-13950HX CPU和64GB RAM的Python实现进行评估。

5.结论和今后的工作

        本文系统地比较了在线3D MOT的POT和EOT框架与V oD和TJ4DRadSet数据集中汽车、行人和骑自行车的物体的4D成像雷达点云。实现了三个MOT框架,包括TBD-POT、JDT-EOT和TBD-EOT,并使用公认的3D MOT度量进行了评估。结果表明,传统的TBD-POT框架是有效的,因为它的实现SMURF+GNN-PMB对汽车和骑自行车的物体实现了最佳的跟踪性能。然而,深入研究的JDT-EOT框架的GGIW-PMBM实现在实验中没有产生令人满意的结果,这主要是由于传统的聚类方法无法去除密集的杂波,以及过多的测量分区假设导致的高计算复杂度。在所提出的TBD-EOT框架下,SMURF+GGIW-PMBM通过实现行人的卓越关联和定位精度,以及行人和骑自行车的类别的更可靠的ID估计,显示出优于TBD-POT、SMURF+GNN-PMB的实现的巨大潜力。然而,由于GGIW无法对不均匀分布的雷达点云进行建模,SMURF+GGIW-PMBM对汽车的性能恶化,因此未来需要研究一种计算复杂度较低、更真实、更准确的目标模型。

你可能感兴趣的:(汽车,自动驾驶,3d)