点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【3D目标检测】技术交流群
后台回复【FocalPETR】获取论文!!
1摘要
主要的多摄像机3D检测范式基于显式3D特征构建,这需要通过3D到2D投影对局部图像视图特征进行复杂的索引。其他方法隐式地引入几何位置编码并进行全局注意力(例如,PETR)以构建图像token和3D目标之间的关联。3D到2D视角的不一致性和全局注意力导致前景token和查询之间的弱相关性,进而导致收敛缓慢。论文提出了具有实例引导监督和空间对齐模块的Focal-PETR,以自适应地将目标查询聚焦在有区别的前景区域上。Focal-PETR还引入了下采样策略,以减少全局注意力的消耗。由于高度并行化的实现和下采样策略,本文的模型在没有深度监督的情况下,在大型nuScenes基准测试上实现了领先的性能,在单个RTX3090 GPU上实现了30 FPS的卓越速度!!!大量实验表明,论文的方法在训练时长减少3倍的同时,优于PETR。该代码将公开。
总结来说,本文的贡献如下:
论文首先分析了现有隐式3D检测范式中的语义歧义和空间错位,这导致了次优的判别特征提取和缓慢的收敛速度;
论文通过引入focal sampling和空间对准模块,提出了Focal-PETR。本文的方法缓解了上述问题,并有效地关注前景token。此外还分析了计算消耗和内存占用,以进一步验证算法的效率;
在大规模nuScenes基准上的实验显示,在单个时间戳输入下,所提出的Focal-PETR具有卓越的效率和最先进的性能(46.5%mAP和51.6%NDS)。
基于统一表示的3D目标 检测在多传感器融合中越来越受到关注。先前的工作如伪LiDAR[42]、OFT[31]、LSS[28]和BEVDet[10]明确预测了深度分布,以将2D特征提升到3D空间。DETR3D[43]首先将预定义的查询投影到图像上,然后采用注意力机制分别对与多视图特征的关系进行建模。BEVFomrer[16]通过使用密集查询和时间融合进一步扩展了这一思想。这些方法明确地将局部图像特征从2D透视图索引到3D空间,便于训练目标和图像特征之间的对齐。其他工作[6,20,21,46]通过隐式编码几何信息、构建3D查询和图像token之间的交互来建模视图转换。由于Transformer[37]强大的建模能力,基于隐式位置编码的模型可以以并行方式提取全局信息,但收敛速度慢且内存复杂。论文分析了隐式范式的机制,并指出定位前景信息的能力较弱会削弱目标查询的表示,从而导致训练目标和语义内容的错位。因为论文执行辅助任务以自适应地将注意力集中在显著区域。
基于查询的检测器由于其高性能和简单性而得到了广泛的研究,而缓慢的训练收敛限制了大规模部署[12]。一些著作[4,7,12,19,26,34,44,49]试图解决这个问题。其中一些人试图通过采取局部注意力操作来改善网络结构,如Deformerable DETR[49]、Dynamic DETR[4]、AdaMixer[7]。此外,还研究了用有意义的信息初始化查询。Anchor DETR[44]和DAB-DETR[19]将查询解释为2D参考点或4D锚框。Conditional DETR[26]将内容和位置信息组合在一起,以将每个查询集中在特定的空间空间上。DN-DETR[12]考虑了不稳定的二分图匹配的影响,并引入了查询去噪以缓解缓慢的收敛。基于2D查询的检测器的训练目标和特征都位于同一透视图中。而基于3D到2D查询的检测器由于目标查询和特征之间的弱对应性而更难收敛。论文提出了一种基于语义对应的空间对齐模块,以增强目标查询的空间敏感性。
基于卷积的密集检测器[18,29,36],具有一对多标签分配标准,已成为目标检测的主流。由于视觉信号中前景信息的非均匀性和稀疏性,物体的重复预测不可避免。通常,引入额外的NMS[29]和box质量排序策略[14,45],如分类、centerness[36]和IoU分数,以消除冗余预测。DETR[2]依靠Transformer[37]架构和一对一分配策略[2],优于Faster R-CNN[29]基线。然而,Transformer中巨大的计算和内存消耗限制了它的进一步发展。最近的工作对注意力机制进行了稀疏采样[32,40,49]。Deformable DETR[49]进行可学习的相邻采样,而不是整个图像特征。PnP-DETR[40]和Sparse DETR[32]以无监督的方式为后续编码器和解码器采样一部分显著token。本文提出了基于实例引导监督的focal 采样策略。通过检测质量排序简单地对前景特征进行采样可以获得SOTA性能,并验证2D和3D目标检测任务之间的训练一致性。
基于隐式位置编码的现有3D检测模型[6,20,21]直接利用图像编码器提取的像素级特征作为处理视图变换的最小单元。论文建议,像素表示的直接使用使得目标查询很难集中于前景特征。因此,本文试图将这些特征解释为有区别的实例。下文首先回顾了PETR[20]中提出的检测流水线,该流水线具有高度并行性,适用于融合实例之间的异构特征。然后详细介绍了论文的实例引导下采样策略和空间对齐模块。
PETR基于Transformer解码器架构[37]。其核心部件包括图像编码器、位置编码器和检测头。将稀疏BEV查询与交叉注意力机制相结合,PETR使用通过级联方式的3D位置嵌入增强的隐式特征来细化检测预测。PETR管道的简要回顾如下。
3D位置编码器:给定N个环视相机图像及其对应内参、外参,可以导出与统一坐标系中的每个像素中心相对应的跟踪光线。特定相机上的每个像素位置沿方向发射一条独特的光线,其穿过相应相机的光学中心。基于上述射线方程,采用线性递增离散化(LID)[35]对不同距离的射线进行近似采样。是LID中的depth bin索引。然后,采样点的坐标被归一化,并被馈送到2层多层感知中。生成了位置嵌入。整个过程可以抽象如下:
检测头:检测头由传统的Transformer解码器层组成。
为了简单起见,论文忽略比例因子。应该注意,3D隐式特征仅用作与这些查询交互的key(k)。也就是说,用于加权和的value(v)被几何忽略。最后馈送多层细化后的查询,分别完成分类和回归任务。有关详细信息,请参阅PETR的原始论文[20]。
论文的focal采样的目的是在实例级别区分特征,并提取具有代表性的token,同时确保高召回率。具体而言,首先采用实例引导的方式,将前景信息解耦为三类,包括语义可分辨性、目标完整性和位置敏感性。为了分别选择相应的特征,进行了三个子模块,即类class-aware、IoU-aware和centroid-aware模块。将几个卷积头附加到图像编码器以预测属性的质量分数(见图2)。focal采样模块是轻量级的,对推断时间的影响可以忽略不计。上述三种下采样策略主要强调正样本分配和损失定义的重要性。
Class-aware采样:为了尽快利用辨别前景信息,执行额外的2D目标检测任务以推理objectiveness。具体而言,使用FCOS[36]来监督分类分数c和从位置到边界框四边的归一化距离。除此之外,匈牙利匹配[2]考虑了分类和位置costs,用于正样本选择,这可以监督网络生成高召回预测,而无需后处理[33,38]。为简单起见,Focal损失[18]和L1损失分别用于分类和回归监督。
IoU-aware采样:先前的工作[17]已经表明,2D姿态属性的精确估计与3D几何信息高度相关。因此,仅对具有高分类分数的token进行采样将导致姿态预测任务的性能下降。因此,当匹配正样本时,计算额外的GIoU cost[30]。此外,网络预测IoU质量,通常由正样本监督。然而,一对一分配的使用导致了不公平,这意味着背景通常具有高置信度预测。受Generalized Focal loss[14]的启发,论文修改了分类分支,以联合估计分类IoU质量Q。这样,可以公平地评估正样本和负样本的质量分数,其公式如下:
Centroid-aware采样:PETR[20]通过学习查询和3D隐式特征之间的关系来推断3D属性。这种交互相当于学习从查询的参考点到图像平面的投影过程,如图16所示。论文得出结论,投影的2.5D中心的精确提取可以帮助网络定位目标。因此,论文为特征地图上的每个位置设置了2.5D中心偏移的辅助任务,并使用L1损失对其进行监督。此外,训练了关键点预测网络,以对质心周围的特征提供高可信度。高斯热图H用于定义2.5D中心c的地面真值:
在PETR[20]中,隐式位置编码是区分相机位姿的唯一方法,如等式3所示,这会导致重叠区域的模糊。此外,实例级下采样导致全局感受野的丢失,削弱了深度估计。为了对齐嵌入空间,论文提出使用空间对齐模块(见图2)将2D特征从图像平面转换为3D统一空间:
特征采样P的优先级取决于训练或推理阶段的质量分数Q和centerness C:
为平衡因子。同PnP DETR[40]一样,论文在训练阶段动态选择top 特征,并在推理时设置固定阈值。所提出的focal采样模块可以端到端训练,辅助损失被插入原始3D分支[20,43]:
论文在大规模nuScenes数据集[1]上验证了Focal-PETR,该数据集是最常用的以视觉为中心的感知数据集,具有6个覆盖360度水平FOV的校准相机。该数据集由1000个驾驶场景组成,这些场景被正式划分为700/150/150个场景,用于训练、验证和测试。具体来说,每个场景的持续时间为20秒,每0.5秒进行一次完全标注。按照惯例,论文报告了NuScenes检测分数(NDS)、mAP、ATE、ASE、AOE、AVE和AAE。
为了验证论文的方法在不同预训练下的有效性,使用了三种类型的图像编码器:ResNet-50、ResNet-101[8]和VoVNet-99[11]。注意,ResNet-50是从ImageNet[5]初始化的,ResNet-101是从FCOS3D[41]初始化,VoVNet-99是从DD3D[27]初始化。图像编码器的下采样步长设置为16。论文采用与PETR相同的图像和BEV数据增强方法[10,20]。Transformer[37]解码器头由6层组成,包含900个目标查询。
首先在nuScenes值集上评估Focal-PETR,并将其与表1中列出的最先进方法进行比较,包括DETR3D[43]、BEVDet[10]、BEVFormer[16]、BEVDepth[15]、PETR[20]等。如表1所示,使用ResNet-50主干设置了相对较小的输入分辨率,以与轻量级模型进行比较。具有704 x 256分辨率输入的Focal PETR以30.0 FPS的速度产生令人印象深刻的推理速度,比BEVDet快1.8倍。值得注意的是,尺寸为800x320的Focal PETR在精度和速度之间达到了理想的平衡。使用ResNet-101主干,Focal-PETR以1408x512分辨率进行训练,以与PETR进行比较。可以看到,mAP超过PETR 2.4%,在NDS中超过2.0%,尽管PETR是用CBGS策略训练的。凭借更大的(1600 x 640)分辨率输入,Focal-PETR的mAP和NDS分别比最先进的(1600x900)分辨率输入方法Ego3RT高1.8%和0.7%。
如表2所示,论文还在nuScene测试集上进行了实验,Focal-PETR在mAP和NDS上都产生了出色的结果。在ResNet-101主干上,Focal-PETR的mAP和NDS分别比BEVFormer(最先进的方法)高1.7%和2.4%。同样值得注意的是,使用VoVNet-99[11]主干,Focal-PETR在mAP和NDS中分别超过PETR 2.4%和1.2%。
Focal采样分析:表7中的结果表明,Focal采样中的每个组件都有助于性能改进。值得注意的是,具有额外实例引导监督的方法优于无监督方法PnP-DETR,这与2D范式中的经验不一致[32,40]。一个可能的原因是,仅解码器的架构在投影潜在目标方面较弱。在这种设计下,更需要前景token。此外,centroid-aware采样比IoU-aware采样带来了更多的改进,这与Generalized Focal Loss[14]中得出的结论不一致:作为定位质量的衡量,IoU总是比centerness表现更好。这意味着图像平面中质心的精确估计对于view transformer学习隐式3D到2D投影至关重要。
论文还对表4中不同采样率的影响进行了实验。首先比较了本文的方法和无采样的PETR(1.0采样率)的结果。结果表明,Focal-PETR在mAP和NDS方面分别提高了3.4%和4.0%。注意,当使用1.0采样率时,所提出的采样模块引入的额外3.7 GFLOP可以被丢弃。此外,当在Focal-PETR中进行不同采样率的实验时,它们对计算度量有更显著的影响。结果表明,在0.25采样率的情况下,与1.0采样率相比,该模型将FLOP和内存消耗分别减少了16.0G和2.8G。也就是说,它只牺牲了0.7%的mAP和0.7%的NDS,从而减少了近43.8%的内存成本和44.0%的解码器FLOPs。
空间对齐的有效性:如表9所示,空间对准模块的不同设计导致检测精度的较大差异。简单地对key-value应用相同的位置编码方案将损害性能。可以看出,论文的设计比常用的类SE架构表现得更好[9],表明权重和偏置的调制(见等式7)可以实现更灵活的空间变换。此外,frustum cone提供了比像素射线更精确的几何先验来感知3D场景,并且它带来了0.9%的NDS显著改善。
时间建模中的扩展:现有工作[15,16]已经证明,时间线索可以帮助网络进行速度估计和高度遮挡物体检测。为了验证论文的方法在时间建模中的可扩展性,作者对不同时间戳的不同采样率进行了详细分析。如表6所示,过去图像特征的采样对最终预测有少许影响。只有20%的历史特征token达到了几乎相同的性能(mAP为33.9%对34.1%,NDS为43.9%对44.2%)。注意,论文的语义和空间对齐策略仍然带来了很大的性能改进。与PETRv2基线相比,mAP显著提高3.5%,NDS性能提高3.0%。这一现象也暗示了论文的方法在时间建模中的潜力。
可视化结果如下图所示:
论文提出了Focal-PETR,这是一种多摄像机3D检测方法,可以缓解隐式范式的语义模糊和空间错位。考虑到目标检测本质上关注前景信息,Focal-PETR采用实例引导监督来选择有区别的图像token。这些token在语义上是集中的,这有助于检测头快速定位前景实例。所提出的空间对齐模块通过引入精确的几何表示来提高目标查询的搜索灵敏度。在大型nuScenes基准上的大量实验表明,Focal-PETR实现了最先进的性能和卓越的效率。尽管所提出的Focal-PETR在多相机3D目标检测中实现了高效率,但论文的采样策略忽略了地图元素的表示,这可能会阻碍目标检测和高质量地图分割的联合学习。对于未来的工作,论文将探索先进的技术来减轻这种限制。
[1] Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object Detection
往期回顾
Radar-LiDAR BEV融合!RaLiBEV:恶劣天气下3D检测的不二之选
【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称