Vision-Centric BEV Perception: A Survey
github项目地址
(今年8月的一篇有关BEV的综述,写的非常详细,本文是一篇翻译,其中有些内容可能并不准确,烦请各位多多指教!)
摘要:以视觉为中心的BEV感知由于其固有的优点,包括呈现世界的自然表示和对融合友好,最近受到了工业界和学术界的越来越多关注。随着深度学习的快速发展,人们提出了许多方法来解决以视觉为核心的BEV认知。然而,目前还没有关于这一新兴研究领域的调查。为了促进其未来的研究,本文全面综述了以视觉为中心的BEV感知及其扩展的最新进展。它收集和组织了最新的知识,并对常用的算法进行了系统的回顾和总结。它还提供了对若干BEV感知任务的深入分析和比较结果,有助于比较未来的工作,并启发未来的研究方向。此外,还讨论了经验实现细节,并证明了这些细节有助于相关算法的开发。
关键词:自主驾驶、视觉中心感知、鸟瞰图、transformer、深度估计、视图变换、3D检测和地图分割
准确全面地了解周围场景,包括动态对象和静态街道,对于自动驾驶车辆做出安全有效的驾驶决策至关重要。在鸟瞰图(BEV)中进行的3D感知近年来引起了极大的关注,主要原因有两个。首先,BEV对世界的表示,特别是交通场景,包含丰富的语义信息、精确的定位和绝对尺度,可由许多下游真实世界应用程序直接部署,如行为预测、运动规划等。其次,BEV提供了一种物理可解释的方式,可将来自不同视图、模式、时间序列的信息融合在一起,和代理。因为它在坐标系中表示世界,所以从周围摄像机捕获的数据的多个视图可以在BEV中融合成一个完整的场景,而无需在重叠区域进行额外的拼接操作。同时,连续视觉数据的时间融合是准确和自然的,透视图中不存在任何失真。此外,其他广泛使用的采集传感器,如激光雷达和雷达,可以在3D空间捕捉数据,很容易转换为BEV,并与摄像机进行传感器融合。即使对于电子车辆到电子车辆或电子车辆基础设施通信技术,BEV在融合来自多个来源的各种信息方面也发挥着重要作用。
对于低成本的自动驾驶系统,以视觉为中心的BEV感知是一个长期的挑战,因为摄像机通常放置在自车上,与地面平行,面向外部。图像在与BEV正交的透视图(PV)中捕获,并且两个视图之间的变换不适定。试图解决这个问题的最早工作[1]是在30多年前完成的。它使用单应矩阵以物理和数学方式将平坦地面从PV转换为BEV。多年来,这种方法一直占据主导地位,直到平地约束无法满足复杂真实场景中的自主驾驶要求。随着计算机视觉中数据驱动方法的发展,近年来出现了许多基于深度学习的方法,通过求解PV-BEV变换来促进以视觉为中心的BEV感知。
基于视图变换,当前的工作可分为两大类:基于几何的变换和基于网络的变换(图1)。前者充分利用相机的物理原理以可解释的方式变换视图。除了经典的基于单应性(homograph)的方法外,通过显式或隐式深度估计将二维特征提升到三维空间是主要的解决方案。对于图像的每个像素,都存在一条来自摄影机的光线,该光线会遇到现实世界中的对象,而不是直接将像素映射到BEV。另一种方法是计算每个像素的深度分布,利用该分布将2D特征提升到3D,然后通过降维从3D获得BEV表示。这些方法对深度采用不同的假设,如精确值、射线上的均匀分布或射线上的分类分布。深度监督来自显式深度值或最后的任务监督。对于后者,方法采用神经网络作为PV到BEV的视图投影。深度神经网络通过充当复杂的映射函数,将输入转换为具有不同模态、维度、表示形式的输出,在解决计算机视觉任务方面取得了巨大进展。
简单的想法是使用变分编码器或MLP将PV特征投影到BEV,并且已经提出了许多基于该方法的方法。上述方法在某种程度上采用了自下而上的策略,以正向方式处理转换。另一种重要的基于网络的方法采用了自上而下的策略,通过直接构造BEV query并通过交叉注意力机制在前视图图像上搜索相应的特征。提出稀疏、密集或混合查询来匹配不同的下游任务。
鉴于学术界和工业界在这一领域已经取得了大量的杰出成就,我们对最近的进展进行了全面回顾,以促进进一步的研究。这项工作的主要贡献可总结如下:
1) 据我们所知,这是第一次回顾解决透视图和鸟瞰图之间的视图转换的最新进展的调查。
2) 我们介绍了视觉中心BEV感知的最新相关方法,根据核心思想和下游视觉任务对其进行了明确分类。对这些方法的性能和局限性进行了详细的分析和比较。
3) 我们提出了BEV感知工作的额外扩展,包括多任务学习策略、BEV中的融合操作和经验训练技巧,以促进相关方法的实施和发展。
本文的组织结构如下。第2节介绍了以视觉为中心的BEV感知的背景。第3节总结了采用几何信息和投影进行视图变换的方法。第4节概述了基于网络的方法。第5节介绍了BEV下的扩展。第6节总结了本文。我们在以下网站上提供定期更新的摘要页面:https://github.com/4DVLab/Vision-Centric-BEVPerception.
我们讨论了该问题背景的四个方面,包括不同任务的任务定义和常规解决方案、常用数据集、通用评估指标和数据集特定指标。
以视觉为中心的BEV感知是指,给定输入图像序列I∈ RN×V×H×W×3中,算法需要将这些透视图输入转换为BEV特征,并执行感知任务,如在鸟瞰图中检测对象的3D边界框或周围环境的语义图。这里,N、V、H、W是帧和视图的数量以及输入图像的高度和宽度。
与基于激光雷达的方法相比,以视觉为中心的方法可以从图像中获得更丰富的语义信息,并依靠对图像的高级理解来推理场景几何结构,但缺乏精确的深度测量。为了获得有效解决该问题的统一表示,最近的研究通常采用视图转换范式将视角理解转换为BEV特征进行感知。
接下来,我们将介绍本文将涉及的相关任务,从定义到常规解决方案。这一讨论是为不同应用呈现这种工作范例的前提。
三维物体检测是三维感知的核心任务之一。根据不同的输入数据模式,该任务可分为多个设置,包括基于图像、基于激光雷达和基于多模态的三维检测。
基于图像的3D检测。最相关的设置之一是基于图像的3D检测。此设置需要模型预测仅给定多个图像的对象的类别和三维边界框。以前的工作[9]、[10]、[11]通常直接从透视图特征进行预测,这是一个简单的过程,但在实践中对多视图相机进行复杂的后处理。还难以利用来自多个视图和时间连续帧的立体线索。因此,最近基于BEV的方法在该领域引起了更多的关注,并在效率和性能方面取得了巨大的进步。
基于激光雷达的三维检测。基于激光雷达的方法在三维感知方面取得了巨大成功。由于激光雷达提供了对周围3D环境的精确测量,它们比基于图像的方法表现出更好的性能,并拥有许多丰富的探索经验。例如,它们可以分为基于点的[12]和基于体素的方法[13]、[14]、[15],基于体素方法在实践中可以进一步简化为BEV感知[14]。正如本文后面将介绍的,这些成功经验为以视觉为中心的BEV感知的发展提供了重要基础。
多模态3D检测。RGB图像包含关于物体颜色、形状和纹理的丰富信息,但不能提供精确的深度信息,这可以通过激光雷达进行补充。雷达只能提供粗略的定位信号,而激光雷达可以感知物体的运动。如何有效利用这些传感器是3D感知中的一个长期问题。随着以视觉为中心的BEV感知的发展,为视觉输入提供了更加一致和统一的表示学习范式,因此组合来自不同模式的特征也更加方便。因此,它还鼓励在这种情况下在方法设计方面出现新的趋势。
地图分割。有两种基于BEV的地图分割方法:即基于MLP的方法[16]、[17]、[18]、[19]、[20]和基于transformer的方法[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]。对于前者,PON[18]设计了语义贝叶斯占用网格框架,以单目图像作为输入来估计地图。对于基于transformer的方法,Image2Map[21]将图像的映射生成公式化为序列到序列转换问题,并利用基于transformer网络以端到端的方式执行映射生成。GitNet[22]设计了一个两阶段框架,首先在透视图中执行分割,然后使用基于光线的transformer处理变换后的BEV特征。
车道分割。除了基于BEV的地图生成外,还提出了各种方法来检测BEV中的车道,以减轻透视效果[29]、[30]、[31]、[32]。3DLaneNet[29]是利用CNN以端到端方式预测车道三维位置的开创性工作。GEN LaneNet[30]首先将图像投影到虚拟顶视图中,然后设计两阶段框架来回归车道位置,这可以显著改善不平路面上的车道检测。Persformer[31]利用类似transformer的架构从前视图特征生成更好的BEV特征,并可以同时预测2D和3D车道。
KITTI[2]、nuScenes[6]和Waymo开放数据集(WOD)[7]是基于BEV的3D感知的三个最有影响力的基准。KITTI是3D感知的著名基准。它由3712、3769和7518个样本组成,分别用于训练、验证和测试。它为汽车、行人和骑自行车的人提供二维和三维注释。根据检测对象的大小、遮挡和截断级别,检测分为三个级别,即简单、中等和硬。NuScenes包含1000个场景,每个场景的持续时间为20秒。每一帧包含六幅涵盖360度水平视野的校准图像,使nuScenes成为基于视觉的BEV感知算法最常用的数据集之一。Waymo开放数据集(WOD)是一个大型自主驾驶数据集,分别包含798个序列、202个序列和150个序列,用于训练、验证和测试。除了上述三个数据集外,还可以使用更多基准,如Argoverse、H3D和Lyft L5,用于基于BEV的感知。表1汇总了这些基准的详细信息。
BEV检测的指标。最常用的评估标准是AP(平均精度),即精度召回曲线下的面积。具体来说,为了计算AP,我们需要首先测量预测和标签之间的距离。最常用的指标是交并比(IoU)。IoU的定义预测A和标签B之间的IoU定义如下:
如果预测和标签之间的IoU大于预定义值,则预测被视为真正(TP)。否则,将其视为假阳性(FP)。然后,可以基于TP、FP和FN计算精度和召回率:
这里,FN表示假阴性。并且使用插值精度值计算AP:
其中R是所有召回位置的集合, 是插值函数,定义为:
和mAP(平均精度)是不同类别或难度等级的AP的平均值。
BEV分割的指标。最常用的度量是每个类的IoU和所有类的mIoU。IoU的定义见式1。
KITTI 3D。KITTI 3D对AP指标进行了若干修改。首先,在3D空间中计算IoU。其次,它使用40个召回位置而不是11个,并删除0处的召回位置。具体而言,使用的R40是{1/40,2/40,…,1}。此外,由于物体的高度在BEV中不是很重要,它还引入了BEV AP,并且IoU是在地面上而不是在3D空间中计算的。
此外,KITTI 3D还引入了一种新的度量,即平均方向相似性(AOS),用于评估方向估计的质量。AOS的定义如下:
方向相似性c(r)是余弦相似性的归一化变量,其定义为:
其中B(r)是召回r处的所有检测结果的集合,∆θi是方向预测和检测的地面真实方向之差,δi是惩罚同一物体上重复预测的惩罚项。值得注意的是,所有AP指标都是针对每个难度级别和每个类别独立计算的。
Waymo Open Dataset. 在计算AP度量时,Waymo开放数据集将R11替换为R21={0,1/20,2/20,3/20,…,1}。此外,它将航向预测纳入AP度量,并提出了以航向加权平均精度(APH)作为其主要度量。具体而言,APH在计算精度时考虑了航向信息。每个TP由航向精度加权,其定义为min(|θ− ˆθ|, 2π − |θ − ˆθ)/π,其中θ和ˆθ是预测的航向角和范围为[−π, π]. 值得注意的是,APH联合评估3D对象检测和方向估计的性能,而AOS仅评估方向估计的质量。
最近,Waymo团队提出了一个新的基于图像的3D检测指标[33],即纵向容错3D平均精度(LET-3D-AP),该指标奖励横向误差较小但纵向误差相对较大的预测。直觉上,这些预测受到深度估计误差的影响,但仍然提供了有关环境的宝贵信息。换句话说,该度量被设计为对深度估计误差具有更大的容忍度。给定中心为 =[xg,yg,zg]的地面真值边界框和中心为 =[xp,yp,zp]的预测框,它们首先定义纵向相关性al(P ⃑,G ⃑),这是在给定纵向误差公差的情况下,将预测边界框与地面真值边境框匹配的得分:
式中,
是纵向公差百分比,T ml控制近程物体的公差。
他们还提出了联合上的纵向容错相交(LET-IoU),通过补偿纵向误差来计算。具体而言,他们首先将地面真值中心投影到从传感器到预测的视线上:
其中,
是沿预测中心视线的单位矢量。然后,通过以下等式计算LET-IOU:
其中 Paligned是具有对齐的中心 Paligned→的预测边界框.
然后,他们通过考虑纵向误差容限来执行二部匹配。按以下方式计算二分匹配权重:
其中省略了al和LET IoU的(P(i)、G(j))以节省空间,并且Tiou是预定义的IoU阈值。
在二分匹配后,确定了TP、FP和FN,可用于计算精度和召回率。LET-3D-AP(具有纵向误差公差的平均精度)可通过以下公式计算:
其中p(r)是召回率r时的精度值。
在他们的论文中,他们还介绍了LET-3D-APL(纵向亲和加权LET-3D-AP),该度量惩罚了与任何基本事实不重叠的预测。具体地说,他们首先区分用于计算精度和召回率的T P。Tpp和Tpg分别表示精确性和召回率的匹配预测和标签的数量。然后,它们通过以下等式计算Tpp和Fp:
软精度可由下式计算:
这是由平均纵向亲和力加权的精度点。
至于召回率的计算,T PG是以正常方式计算的。最终,LET-3D-APL可以通过以下公式计算:
其中,pL(r)是由纵向亲和力加权的精度值,p(r)为召回率r时的精度值。有关更多详细信息,请参阅他们的原始论文[33]。
nuScenes。与使用IoU选择TP的传统AP计算不同,nuScenes使用地平面上的2D中心距离来匹配预测和地面实况,并具有特定的距离阈值d,例如2米。此外,nuScenes计算AP作为查全率和查准率超过10%的查准率查准率曲线下的归一化面积。最后,在所有匹配阈值D={0.5,1,2,4}米和所有类别C上计算映射:
但是,此度量仅考虑对象的三维位置,而忽略尺寸和方向的影响。为了弥补这一点,nuScenes还提出了几个真正度量(TP度量),旨在使用所有真正分别测量每个预测(在匹配过程中在中心距离d=2m下确定)。所有TP指标如下所示:
对于每个TP指标,nuScenes还计算所有类别的平均TP指标(mTP):
其中,TPk,c表示c类的第k个TP度量。nuScenes进一步提出了Nuscene检测得分(NDS),它是mAP和mTPk度量的组合:
将透视图转换为BEV的一个传统而直接的解决方案是利用它们之间的自然几何投影关系。我们称这种方法为基于几何的方法。根据它们如何弥合这两个视图之间的差距,以前的工作可以分为两组:基于homograph的方法和基于深度的方法。前者包括具有简化几何关系的早期作品或仅关注水平地面感知的近期作品,而后者更适用于实际场景。接下来,我们将详细讨论这两种方法类型。
三维空间中的点可以通过透视映射变换到图像空间,而将图像像素投影到三维空间的逆问题是病态的。逆透视映射(Inverse Perspective Mapping, IPM)[1]被提出用于在逆映射点位于水平面上的附加约束下解决数学上不可能的映射问题。这是将前视图图像扭曲为俯视图像的开创性工作。变换应用摄像机旋转单应性,然后进行各向异性缩放[34]。单应矩阵可以从相机的内部和外部参数物理地导出。一些方法[35]使用卷积神经网络(CNN)提取PV图像的语义特征,并估计图像中的垂直消失点和地平面消失线(地平线),以确定单应矩阵。IPM运行后,许多下游感知任务,如光流估计、检测、分割、运动预测、规划等,都可以基于BEV图像完成。VPOE[36]将YOLOv[37]作为检测主干,以估计BEV上的车辆位置和方向。基于合成数据集,[38]还通过IPM将仪表板摄像机视图中的检测映射到场景的BEV占用图上。在实际应用中,摄像机的内部和外部参数可能未知。TrafCam3D[39]提出了一种基于双视图网络架构的鲁棒单应映射,以缓解IPM失真。
由于IPM严重依赖于平坦地面假设,这些基于IPM的方法通常无法准确检测地平面上方的物体,如建筑物、车辆和行人。一些方法利用语义信息来减少失真。OGMs[40]将PV中车辆的足迹分割结果转换为BEV,以遵循单应性所暗示的平坦地面假设,避免车身位于地面上方造成的变形。根据这一思想,BEVStitch[41]使用两个分支来分割车辆和道路的足迹,并分别通过IPM将其转换为BEV,然后将其缝合到BEV上,以构建完整的路线图。DSM[42]首先在透视图中进行图像语义分割,然后利用单应性在BEV中构建语义图。对于行人,SHOT[43]使用多个单应矩阵将行人的不同部分投影到不同的地面上。
在网络训练阶段,一些方法不再将IPM应用于预处理或后处理,而是将其用于变换特征图。Cam2BEV[44]通过应用IPM变换每个视图的特征图,从多个车载摄像头获得整体BEV语义图。MVNet[45]基于IPM将2D特征投影到共享的BEV空间,以聚集多视图特征,并使用大卷积核来解决行人检测中的遮挡问题。3D LaneNet[46]专注于从单个图像预测车道的3D布局,不假设摄像机高度,而是以监督方式训练额外的网络分支来估计单应矩阵。然后在特征图的不同尺度上采用投影变换。Gu等人[47]应用2D检测预测来全局优化3D bbox,并提出单应性损失来嵌入2D和BEV空间之间的几何约束。
由于正面视图和鸟瞰视图之间存在较大的间隙和严重变形,仅采用IPM不足以在BEV中生成无失真图像或语义图。BridgeGAN[48]将单应视图作为中间视图,并提出了一种基于多GAN的模型来学习PV和BEV之间的交叉视图转换。利用生成对抗网络(GAN)[49]来增强生成的BEV图像的真实性。后续工作[50]通过在BEV上进行2D检测并将结果与地平面估计对齐以产生最终3D检测,解决了单目3D检测问题。由于PV图像中的遮挡,许多3D信息丢失,导致视图转换过程中出现模糊。MonoLayout[51]还利用GAN生成关于不可见位置的信息,并估计具有动态对象的场景布局。RAP[52]引入了一种增量GAN,以了解具有鲁棒真实世界标签的前向相机的更可靠IPM,这可以显著减轻远处物体的拉伸。
基于homograph的方法(图2)主要基于透视图和鸟瞰图之间平坦地面的物理映射,具有良好的可解释性。IPM在下游感知任务的图像投影或特征投影中发挥作用。为了减少地平面以上区域的失真,充分探索了语义信息,并广泛使用GAN来提高BEV特征的质量。通过矩阵乘法,核心映射过程非常简单,无需学习,是一种有效的选择。由于从PV到BEV的实际转换是不适定的,IPM仅通过硬假设解决了部分问题。PV整个特征图的有效BEV映射仍有待解决。
基于IPM的方法建立在假设所有点都在地面上的基础上。这为连接2D透视空间和3D空间的鸟瞰图提供了可行的途径,但牺牲了重要的高度辨别。为了避免这种情况,需要深度将二维像素或特征提升到三维空间。基于这一观点,PV-BEV变换的一种重要方法是基于深度预测。接下来,我们将首先比较这些作品中的技术设计,包括视图转换方法,是否包括深度监督,以及如何将它们与基于IPM的方法相结合。最后,我们讨论了这种方法在多视图情况下的固有优势。
基于深度的PV到BEV方法自然建立在显式3D表示上(图3)。与基于激光雷达的三维检测一样,这些方法可以根据使用的表示分为两类:基于点的方法和基于体素的方法。基于点的方法直接使用深度估计将像素转换为点云,在连续三维空间中散射。它们更直接,更容易集成单目深度估计和基于激光雷达的3D检测的成熟经验。作为先驱的工作,Pseudo-LiDAR[53](图4)首先将深度图转换为Pseudo-LiDAR点,然后将其输入基于现有激光雷达的3D探测器。作为一项开创性的场景工作,Pseudo-LiDAR++[54]通过立体深度估计网络和损失函数提高了深度精度。AM3D[55]提出用互补的RGB特征装饰伪点云。PatchNet[56]分析了深度图和3D坐标之间的差异,并提出将3D坐标整合为额外的输入数据通道,以获得类似的结果。然而,这种方法有两个共同的问题:1)数据泄漏问题。验证集和测试集之间的性能差距是由包括KITTI深度基准的数据泄漏造成的,这在[53]、[57]中进行了分析。2) 该管道通常具有泛化问题,并且由于两个阶段之间的梯度截止,在训练和部署期间可能会很复杂。E2EPseudo-LiDAR[58]提出了一种表示变化(CoR)模块,以允许对整个pipeline进行端到端训练。虽然有几项工作试图解决这两个问题,但这类方法在这些方面本质上不如基于体素的方法,尤其是对于大型户外场景。
与基于激光雷达的三维检测方法类似,纯相机方法在表示变换后的三维特征或几何体时也有两种常见的选择。与分布在连续三维空间中的点云相比,体素通过离散三维空间来构造用于特征变换的规则结构,为三维场景理解提供了更有效的表示;可以直接附加后续基于BEV的模块。尽管它牺牲了局部空间精度,但它在覆盖大规模场景结构信息方面仍然更有效,并且与视图转换的端到端学习范式兼容。
具体而言,该方案通常使用深度引导直接在相应的3D位置散射2D特征(而不是点)。先前的工作通过将2D特征图与相应的预测深度分布进行外积来实现这一目标。早期的工作假设分布是均匀的,即沿射线的所有特征都相同,如OFT[59](图5)。这项早期工作建立了一个内部表示,以确定图像中哪些特征与正交鸟瞰图上的位置相关。它构建在均匀间隔的三维晶格上定义的三维体素特征图,并通过在投影的相应图像特征图的区域上累积特征来填充体素。然后,通过沿垂直轴对体素特征求和获得正交特征图,然后深度卷积神经网络提取BEV特征用于三维对象检测。值得注意的是,对于图像上的每个像素,网络对分配的3D点预测相同的表示,即预测深度上的均匀分布。这类方法通常不需要深度监控,并且可以在视图转换之后以端到端的方式学习网络中的深度或3D位置信息。
相反,另一种范式明确预测深度分布,并以此仔细构建3D特征。如图6所示,LSS[60]代表了这种方法。它预测深度上的分类分布和上下文向量,它们的外积确定透视光线上每个点的特征,更好地接近真实深度分布。此外,它将来自所有摄像机的预测融合到场景的单一内部表示中,对校准误差更具鲁棒性。BEVDet[62]遵循这一LSS范式,提出了一种从BEV进行多视图仅摄像机3D检测的框架,包括图像视图编码器、视图transformer、BEV编码器和检测头。新版本BEVDet4D[63]展示了基于多摄像机的3D检测中的时间线索。具体而言,该方法保留前一帧的中间BEV特征,并将其与当前帧生成的特征连接起来。
先前的研究表明,当使用预测深度分布来提升二维特征时,该分布的精度非常重要。CaDDN[61](图6)使用经典方法对从投影激光雷达点导出的稀疏深度图进行插值,并利用它们来监督深度分布的预测。它表明,这种监督和鼓励快速分布预测的损失函数在这种方法中至关重要。其他基于双目的3D检测方法DSGN[64]和LIGA Stereo[65](图7)也依赖于类似的监督,其中稀疏激光雷达深度图更有效。其他不使用深度标签的作品只能从稀疏实例注释中学习此类3D定位或深度信息,这对于网络学习来说要困难得多。除了将深度监控纳入检测框架之外,DD3D[66]和MV-FCOS3D++[67]指出,深度估计和单目3D检测的预训练可以显著增强2D主干的表示学习。许多先前提到的基于BEV的方法[62]、[63]也受益于这些预训练主干。更多细节将在第5.3节中介绍。
如前所述,基于IPM的方法适用于平坦地面场景,只需学习很少的参数即可有效执行。不依赖于显式深度预测和监督的方法适用于沿垂直方向的特征聚合。PanopticSeg[68]利用了这两个优点,提出了一种用于全景分割的密集transformer模块,该模块由使用IPM的平面transformer和使用体积晶格建模中间3D空间的垂直transformer组成,前者使用IPM,然后进行误差校正,以生成平面BEV特征。
除了单目深度估计外,立体匹配还可以在纯相机感知中预测更精确的深度信息。它依赖于由适当的多视图设置自然形成的基线。其中,双目设置是最常见和研究最为深入的设置,其特点是重叠区域大,只有较小的水平偏移才能建立合适的多视图设置。为了进行比较,在以前的工作[60]、[62]中使用的一般多视图设置中,例如,环绕视图摄像机安装在自主车辆上,相邻视图之间的重叠区域通常非常小,因为主要目标是用较少的摄像机覆盖整个空间。在这种情况下,深度估计主要依赖于单目理解,基于BEV的方法仅在多视图感知的简单性和统一性方面具有优势。
相比之下,它们在双目情况下的深度估计中具有更重要的优点。最近的双目方法,如DSGN[64]和LIGA-LIGA-Stereo [65],通常使用平面扫描表示进行立体匹配和深度估计。然后,他们从平面扫描特征体积中采样体素和BEV特征,并在其上执行3D检测。其他针对多视图设置的方法,如ImVoxelNet[69],也显示了这种基于体素的公式在室内场景中的有效性,其中重叠区域在相邻区域中也更大。此外,对于连续帧,两个时间上相邻的图像也可以满足这些条件。DfM[70]从理论上分析了这个问题,并采用类似的方法从视频中实现更精确的单目3D检测。
基于深度的视图变换方法通常基于显式三维表示、量化体素或连续三维空间中的点云散射。基于体素的方法使用均匀的深度向量或明确预测的深度分布将2D特征提升到3D体素空间,并在其上执行基于BEV的感知。相反,基于点的方法将深度预测转换为伪激光雷达表示,然后使用自定义网络进行三维检测。表2显示了通过这种方法获得的结果。我们可以观察到:
基于几何的方法明确地建立在相机投影过程的物理原理之上,将视图从 PV 转换为 BEV,这是一种可解释的解决方案。另一种选择是以数据驱动的方式对视图变换进行建模,并且仅隐式利用相机几何,其中神经网络充当 PV 和 BEV 之间的映射函数。为了涵盖复杂的变换,例如单应性,MLP 和transformer是基于网络的 PV2BEV 方法的两个合适的选择。
多层感知器(MLP)在某种程度上可以看作是一个复杂的映射函数,并且已经在将输入映射到具有不同模态、维度或表示的输出方面取得了令人瞩目的成就。为了逃避标定相机参数中包含的继承归纳偏差,一些方法(图 8)倾向于利用 MLP 来学习相机校准的隐式表示,以在两种不同的视图之间进行转换,即透视图和鸟瞰图。
VED [16] 采用具有 MLP 瓶颈层的变分编码器-解码器架构,将驾驶场景的前视视觉信息转换为二维俯视笛卡尔坐标系。它是第一个对单目图像执行端到端学习以实时生成语义度量占用网格图的方法。出于对全局感受野的需求,VPN [17] 选择了一个两层 MLP,通过扁平化映射重塑过程将每个 PV 特征图转换为 BEV 特征图。然后它添加来自不同相机的所有特征图以进行多视图融合。基于 VPN 的视图转换模块,FishingNet [73] 将相机特征转换为 BEV 空间,并与雷达和 LiDAR 数据进行后期融合,用于多模态感知和预测。为了充分利用空间上下文并更好地关注行人等小物体,PON [18] 和 STA-ST [19] 首先利用特征金字塔 [74] 来提取多个分辨率的图像特征,如图 9 所示。然后通过MLP沿高度轴折叠图像特征并沿深度轴扩展来执行视图变换。这种设计的灵感来自以下观察:虽然网络需要大量垂直上下文来将特征映射到 BEV(由于遮挡、缺乏深度信息和未知的地面拓扑),但在水平方向上,BEV 位置之间的关系和可以使用简单的相机几何结构来确定图像位置。在基于transformer的 PV-to-BEV 方法中也探索了这种按列视图转换的想法,如第4.2节所示。
HDMapNet[75]同样采用基于 MLP 的特征投影策略,旨在从周围摄像机的图像中生成 BEV 和实例嵌入和方向的矢量化地图元素。单向投影难以保证正面视图信息的有效传递,因此可以使用额外的 MLP 将 BEV 的特征投影回 PV 以检查其是否正确映射。受这种双向投影的启发,PYVA[76]提出了一种循环的自我监督方案来巩固视图投影。它进一步引入了基于注意力的特征选择过程来关联两个视图,从而为下游分割任务获得更强的BEV特征。
HFT[20]分析了基于相机模型的特征变换和无相机模型的特征变换的优缺点。前一种基于 IPM 的方法可以轻松地处理地方道路和停车场等区域的 PV 到 BEV 的转换,但这些方法依赖于平坦地面假设,对地面以上的区域进行了扭曲。后者,基于 MLP 或基于注意力的方法,可以避免基础,但它们收敛缓慢,没有任何几何先验。为了从这两种方法中受益并避免它们固有的缺点,HFT 设计了一个由两个分支组成的混合特征变换,以分别利用几何信息和捕获全局上下文。
基于 MLP 的方法忽略校准相机的几何先验,并利用 MLP 作为通用映射函数来模拟从透视图到鸟瞰图的转换。尽管 MLP 在理论上是一种通用逼近器 [78],但由于缺乏深度信息、遮挡等原因,视图变换仍然难以推理。此外,多视图图像通常单独转换并以后期融合方式融合,这阻止了基于 MLP 的方法利用重叠区域带来的几何潜力。表 3 显示了基于 MLP 的 PV-to-BEV 方法取得的结果。我们可以观察到:
除了 MLP 之外,transformer(具有交叉注意力)也是一种现成的解决方案,可以将透视图映射到鸟瞰图,而无需明确利用相机模型(图 10)。基于 MLP 和基于transformer的张量映射之间存在三个主要区别。首先,由于在推理过程中权重矩阵是固定的,所以 MLP 学习到的映射不依赖于数据;相比之下,transformer 中的交叉注意力依赖于数据,而权重矩阵依赖于输入数据。这种数据依赖属性使transformer更具表现力,但难以训练。其次,交叉注意力是置换不变(permutation-invariant)的,也就是说transformer需要位置编码来区分输入的顺序; MLP 自然对排列很敏感。最后,与基于 MLP 的方法中以前向方式处理视图转换不同,基于transformer的方法采用自上而下的策略,通过注意力机制构建查询并搜索相应的图像特征。
Tesla [79] 是第一个使用transformer将透视图特征投影到 BEV 平面上的人。该方法首先使用位置编码设计一组 BEV 查询,然后通过 BEV 查询和图像特征之间的交叉注意执行视图转换。从那时起,已经提出了许多方法来使用transformer,或者更具体地说,交叉注意力,用于对视图变换进行建模。根据 Transformer 解码器中可学习槽(slots)(称为查询)的粒度,我们将方法分为三类:基于稀疏查询、基于密集查询和基于混合查询。接下来,我们将介绍每个类别中的代表工作及其优缺点,然后讨论在这些作品中加入几何线索的方法。
对于基于稀疏查询的方法,查询嵌入使网络能够直接生成稀疏感知结果,而无需显式执行图像特征的密集变换。这种设计选择对于诸如3D对象检测之类的以对象为中心的感知任务是自然的,但是将其扩展到诸如分割之类的密集感知任务并不简单。
受先驱2D检测框架DETR[80]的启发,STSU[83]遵循基于稀疏查询的框架,从单个图像中提取表示BEV空间中局部道路网络的有向图。该方法还可以通过使用两组稀疏查询联合检测三维对象,一组用于中心线,另一组用于动态对象,其中对象和中心线之间的依赖关系可以由网络利用。后续工作TopologyPL[84]通过保留最小循环来考虑道路网络的拓扑,从而改进了STSU。与STSU同时,DETR3D[81]提出了类似的范例,但侧重于多摄像机输入的3D检测,并用基于几何测量的特征采样过程代替交叉关注。它首先从可学习的稀疏查询中预测3D参考点,然后使用标定矩阵将参考点投影到图像平面上,最后对相应的多视图多尺度图像特征进行采样,以进行端到端3D边界框预测。为了缓解DETR3D中复杂的特征采样过程,PETR[82]将从摄像机参数导出的3D位置嵌入编码为2D多视图特征,以便稀疏查询可以直接与普通交叉关注中的位置感知图像特征交互,实现更简单、更优雅的框架。图11中提供了DETR3D和PETR的范例比较。后续工作PETRv2[24]通过将3D位置嵌入扩展到时域来利用时间信息。为了解决DETR3D中特征聚合不足的问题并改善重叠区域中的感知结果,Graph-DETR3D[85]通过图结构学习对每个对象查询的各种图像信息进行聚合,从而增强了对象表示。类似地,ORA3D[86]还专注于改善DETR3D重叠区域的性能。它通过立体视差监督和对抗性训练来规范重叠区域的表示学习。为了利用环绕视图摄像机的视图对称性作为诱导偏差,以便于优化和提高性能,PolarDETR[87]提出了用于3D检测的极坐标参数化,该参数化将边界框参数化、网络预测和损失计算重新编排,所有这些都在极坐标系中,如图12所示。它还利用除投影参考点特征之外的上下文特征来缓解DETR3D中上下文信息不足的问题。
SRCN3D[88]基于另一个2D检测框架SparseRCNN[89]设计了一种基于稀疏提议的多摄像机3D检测方法,其中每个提议包含可学习的3D边界框和编码实例特征的可学习特征向量。为了替代基于交叉关注的特征交互,提出了稀疏特征采样模块和动态实例交互头,以利用从提议框中提取的RoI特征更新提议特征。
对于基于密集查询的方法,每个查询预先分配有3D空间或BEV空间中的空间位置。查询的数量由光栅化空间的空间分辨率决定,该空间分辨率通常大于基于稀疏查询的方法中的查询数量。密集BEV表示可以通过密集查询和多个下游任务(如3D检测、分割和运动预测)的图像特征之间的交互来实现。
特斯拉[79]首先使用位置编码和上下文汇总在BEV空间中生成密集的BEV查询,然后利用查询和多视图图像特征之间的交叉注意力进行视图转换。在不考虑摄像机参数的情况下,执行BEV查询和图像特征之间的普通交叉注意力。为了便于交叉注意的几何推理,CVT[23]提出了一种摄像机感知交叉注意模块,该模块为图像特征配备了从摄像机的内部和外部校准得出的位置嵌入。由于每个transformer-解码器层中的注意力操作在大量查询和关键元素数量下需要较大的内存复杂度,因此通常限制图像分辨率和BEV分辨率以减少内存消耗,这在许多情况下可能会阻碍模型的可伸缩性。
最近,已经做出了许多努力来解决基于密集查询的方法的这个问题。可变形注意力[90]结合了可变形卷积[91]的稀疏空间采样和注意力[92]的关系建模能力,通过只关注稀疏位置,可以显著减少普通注意力的内存消耗。BEVSegFormer[93]的视图变换模块用于BEV分割,PersFormer[31]的视图转换模块用于3D车道检测。同时,BEVFormer[77]还采用了可变形注意,用于位于BEV平面上的密集查询与多视图图像特征之间的交互。它还设计了一组历史BEV查询,并通过查询和历史查询之间的可变形注意来利用时间线索。Ego3RT[25]将密集查询放置在极化BEV网格上,并依赖可变形注意力使查询和多视图图像特征交互。然后通过网格采样将极化BEV特征转换为笛卡尔特征,用于下游任务。值得注意的是,BEVFormer和Ego3RT利用摄像机参数和查询的预定义3D位置来计算2D参考点,用于变形注意力中的特征采样,而不是直接从BevSeFormer中的查询特征预测参考点。类似地,PersFormer依赖IPM来计算图像上的参考点。通过这种设计,网络可以更好地利用几何先验来识别图像上的适当区域,以进行引导,但这会使它们对标定矩阵更加敏感。GKT[26]在投影的2D参考点周围展开核区域,并将BEV查询与相应的展开核特征进行交互,如果摄像机校准固定,则导致从BEV查询到像素位置的固定映射。该算子可以被视为具有固定采样偏移和基于相似性的注意力权重的可变形注意力。然后提出了一种用于快速推理的BEV-to-2D查找表索引策略。CoBEVT[94]提出了一种称为融合轴向注意力(FAX)的新注意力变体,而不是采用可变形注意力,它以较低的计算复杂度同时考虑高层次上下文信息和区域细节特征。具体而言,它首先将特征图划分为3D非重叠窗口,然后在每个局部窗口内按注意力进行局部关注,并在不同窗口之间按注意力进行全局关注。
减少内存消耗的另一个有希望的方法是使用3D几何约束简化基于交叉注意力的交互。Image2Map[21]提出了一种单目BEV分割框架,首先假设单目图像中的垂直扫描线与从摄像机中心开始的BEV平面上的光线之间的11种关系,如图13所示。然后,视图变换可以被表示为一组1D序列到序列的平移问题,并由transformer建模。基于这一几何约束,Image2Map避免了2D图像特征图和BEV查询之间的密集交叉关注,而只包含1D序列到序列转换,从而形成了一个内存友好且数据高效的体系结构。GitNet[22]中采用该列式transformer模块作为第二视图变换阶段,以增强基于几何的第一视图变换阶段获得的初始BEV特征。Image2Map和GitNet都只处理单个图像输入。当将360度图像视为输入时,需要进行额外调整,以将来自不同摄像机的极射线(polar ray)对准到自车坐标系中,因为极射线的原点是不同的摄像机中心。PolarFormer[28]设计了一个极坐标对准模块,以聚集来自多个摄像机的光线,生成结构化极坐标特征图。提出了一种多尺度极坐标表示学习策略,以处理极坐标距离维度上的无约束对象尺度变化。与PolarDETR类似,边界框预测直接在极坐标系中进行(图12)。
LaRa [27] 通过首先将多视图图像特征编码到潜在空间中来控制计算足迹,然后通过使用交叉注意模块查询潜在表示来获得 BEV 特征。紧凑的潜在空间与输入大小和输出分辨率解耦,从而实现精确的计算预算控制。此外,提出了一种从标定矩阵派生的基于射线的位置嵌入,以增强视觉特征并引导特征和潜在向量之间的交叉注意力。
基于稀疏查询的方法适用于以对象为中心的任务,但不能导出显式的密集 BEV 表示,这使得它们不适合密集感知任务,例如 BEV 分割。因此,在 PETRv2 [24] 中设计了一种混合查询策略,除了稀疏对象查询之外,还提出了密集分割查询,每个分割查询负责分割一个特定的补丁(patch)(即16×16的形状)
尽管基于稀疏查询的方法在目标检测任务上取得了可喜的结果,但它们的 3D 表示没有自我坐标系的几何结构感,因此难以进行地图分割等密集预测任务。相比之下,具有显式空间分布的密集查询为 BEV 空间提供了密集且统一的表示,可以很容易地被不同的感知头采用。然而,由于大量 BEV 查询下的计算成本巨大,因此需要提高注意力机制的效率以实现高分辨率特征图。在过去的几年中,高效的transformer架构 [95]、[96]、[97] 引起了广泛的兴趣。然而,这些工作通常侧重于自注意力[98],其中键和查询来自相同的元素集。它们在交叉注意力中的有效性,其中键和查询来自两个未对齐的集合,仍有待探索。
从概念上讲,基于transformer的PV到BEV方法可以仅依赖注意力机制来执行视图变换,而不一定需要几何先验。早期的方法[93]确实没有将任何几何信息(如标定矩阵或像素深度)纳入其transformer框架。然而,置换不变的性质使得transformer不知道图像区域和BEV像素之间的空间关系,从而使网络收敛速度慢且数据量大。现在有更多的方法试图利用3D几何约束来实现快速收敛或数据效率。
标定矩阵。给定查询的3D坐标(预定义或使用查询特征预测),摄像机标定矩阵定义了从BEV空间到图像平面的映射,反之亦然,为视觉特征和查询交互提供了良好的线索。因此,标定矩阵以各种方式在大多数基于transformer的PV到BEV方法中得到利用。基于可变形注意力的方法[25]、[77]、[81]、[85]通常依赖于摄像机投影矩阵来计算特征采样的2D参考点,这有助于网络关注图像上的适当区域并摆脱全局注意力。利用标定矩阵的另一种有希望的方法是基于摄像机几何结构将每个图像垂直扫描线预先分配给BEV射线,然后将全局交叉注意力简化为逐列注意力,如[21]、[22]、[28]中所述。该策略还可以显著节省计算。此外,标定矩阵可用于生成3D位置嵌入[23]、[24]、[27]、[82],以几何先验丰富图像特征,并帮助transformer通过隐式几何推理学习从透视图到鸟瞰图的映射。
深度信息。虽然基于transformer的PV到BEV方法不一定需要每像素深度进行视图变换,但深度信息对于transformer的几何推理仍然很重要。在nuScenes对象检测基准上,大多数基于transformer的方法受益于深度预训练[10],[66],这为在查询和图像特征之间建立关联提供了有用的深度感知2D特征。深度预测还可以联合优化,以辅助视觉中心3D检测,其中地面真实深度可以从投影的激光雷达点[98]或物体方向深度标签[99]中得出。MonoDTR[98]和MonoDETR[99]设计了一个单独的模块,用于生成深度感知特征,并预测transformer中位置编码的每像素深度。然后,MonoDTR使用transformer集成基于锚的检测头的上下文特征和深度特征,而MonoDETR修改transformer以使其具有深度感知,从而通过提出一个配备深度交叉注意力的transformer解码器来直接解码来自2D图像的3D预测,以使对象查询与深度特征交互。
基于Transformer的视图投影由于其令人印象深刻的性能、强大的关系建模能力和数据相关特性而变得越来越受欢迎。除了作为视图投影器,Transformer还可以作为特征提取器来取代卷积骨干,或作为检测头来取代基于锚的无锚头。随着NLP中大transformer模型的发展趋势,自主驾驶行业的研究人员也在探索大transformer和通用transformer在提取感知和预测等多任务的强大表示方面的有效性。另一方面,基于transformer解码器的检测头和基于二部匹配(bipartite-matching)的标签分配策略现在通常用于基于图像的3D检测,因为该范式不需要后处理,例如NMS。
nuScenes数据集是视觉中心感知最常用的数据集,有六个校准摄像机,覆盖360度水平视场。表5和表4分别显示了基于transformer的PV到BEV方法在Nuscene检测和分割基准上的结果。可以得出几个观察结果:
交通场景的BEV表示,包括精确的定位和比例信息,可以精确地映射到真实的物理世界,这有助于许多下游任务。同时,BEV表示还充当物理介质,为来自各种传感器、时间戳和代理的数据提供可解释的融合方式。在本节中,我们介绍了BEV下的两个主要扩展,即多任务学习策略和融合方法,并总结了有利于未来研究工作的经验知识。
由PV2BEV方法导出的紧凑有效的BEV表示对许多下游任务都是友好的,例如对象检测、地图分割、预测和运动规划。共享骨干网可以大大节省计算成本并提高效率。因此,一些工作试图使用统一的框架来同时执行多个任务。
借助多摄像机视频的时空BEV表示,FIERY[100]首先提出了一种在一个网络中结合感知和预测的框架。StretchBEV[101]在每个时间戳对潜在变量进行采样,并估计剩余变化以产生未来状态。为了减少内存消耗,BEVerse[72]设计了用于有效生成未来状态的迭代流程,并共同推理图14中的3D检测、语义图重建和运动预测任务。M2BEV[71]还提出了一种基于BEV表示的多任务方法,并通过统一深度假设简化投影过程以节省内存。对于基于transformer的方法,STSU[83]和PETRv2[24]引入了与不同感知任务的共享图像特征交互的任务特定查询。BEVFormer[77]首先通过密集的BEV查询将多视图图像投影到BEV平面上,然后在共享的BEV特征图上采用不同的任务专用头,例如可变形DETR[90]和掩码解码器[102],用于端到端的3D对象检测和图分割。Ego3RT[25]和PolarFormer[28]也采用了类似的策略。
尽管几项研究表明,CNN受益于多个相关任务的联合优化,但我们观察到,3D对象检测和BEV分割的联合训练通常不会带来改善,如表6所示。检测性能通常会受到影响,不同类别之间对分割性能的改善并不一致。需要更多的努力来探索不同感知任务之间的相关性,以实现联合改进。
BEV表示为多传感器、多帧和多智能体融合提供了一种方便的方法,通过利用综合信息,极大地提高了自主驾驶的感知能力。根据不同类别的源数据,我们在下一节中总结了基于BEV表示的融合方法。
目前的自主车辆通常配备三种传感器,包括摄像机、激光雷达和雷达,以执行感知任务。不同的传感器有各自的优缺点,如表7所示。摄像机拍摄的图像具有丰富的外观特征,如颜色、纹理和边缘,但对光线敏感,缺乏深度信息。激光雷达点云包含精确的深度信息和丰富的几何特征,但缺乏纹理信息。雷达具有比激光雷达更长的探测范围,可以直接捕获移动物体的速度,但点云非常稀疏且噪声大,难以提取形状和尺度视觉特征。一个理想的感知解决方案是在一个网络中集成和利用这些传感器的所有优点,以实现高质量性能。然而,由于原始数据表示的巨大差异,合理有效的融合并不容易。
图像和点云的先前融合策略可分为数据级融合[106]、[107]和特征级融合[108]、[109]、[110]、[111]、[112]。前者使用标定矩阵将像素特征附加到点,反之亦然。后者在直接融合两种高维特征之前提取PV中的图像特征和3D或BEV中的点云特征。随着BEV感知算法的快速发展,一种更具可解释性的图像和点云融合方法是将图像特征转移到BEV,并根据BEV上的物理对应关系融合来自两个模态数据的特征。
根据BEV下的精确融合方法,融合方法可进一步分为三类。
第一类依赖深度引导,在3D空间中进行融合。如图15所示,UVTR[103]通过根据预测深度分数和几何约束对图像平面的特征进行采样来构建体素空间。AutoAlign[113]在没有显式摄像机投影的情况下自适应地对齐像素和三维体素之间的语义一致性,并通过自监督学习引导跨模态特征交互。这与AutoAlign中的全局关注不同。AutoAlignV2[114]使用确定性投影矩阵来指导跨模态特征的自动对齐,并在模态之间实现稀疏采样,类似于[90]。然后,对于每个体素,可以直接建立图像特征和相关点云特征之间的关系。同样在3D空间中进行融合过程,Frustum PointNets [115]和CenterFusion [116]利用截锥(frustum)投影将检测到的2D对象的图像特征转换为相应的3D位置,然后分别将其与激光雷达检测和雷达检测融合。
第二类方法对从多模态输入中提取的BEV特征执行融合操作。BEVFusion[104]在融合阶段充分保留了图像的稠密语义信息和空间几何信息,并提出了一种有效的BEV合并操作以加快推理。RRF[117]通过投影和双线性采样定义了图像特征的三维体积,连接了光栅化雷达BEV图像,并降低了垂直维度,最终得到了BEV融合特征图。FISHINGNet[73]将摄像机、激光雷达和雷达的特征分别转换为单一、通用和自顶向下的语义网格表示。
第三种BEV融合方法通过初始化3D参考点作为查询,从所有可用模态中提取特征,并进行融合操作,以完成3D检测任务。FUTR3D[105]采用基于查询的模态无关特征采样器和transformer解码器,用于传感器融合3D对象检测;该方法可以容易地适用于任何传感器组合和设置。TransFusion [118]使用标准3D和2D主干提取激光雷达BEV特征图和图像特征图,并依赖前者进行查询初始化。接下来,它沿着垂直维度压缩图像特征,然后使用交叉注意力将特征投影到BEV平面上,以与激光雷达BEV特征融合。具体地说,这些方法是面向输出的,它们在注意力机制的帮助下学习在哪里自适应融合。
除了多模态融合,时域融合是鲁棒可靠感知系统的另一个关键组件,原因如下。首先,它累积连续观测,这可以减轻摄像机的视图相关特性造成的自遮挡和外部遮挡的影响,并有助于检测严重遮挡的对象并生成可靠的道路地图。其次,时间线索对于估计物体的时间属性(如速度、加速度、转向等)是必要的,这有利于类别分类和运动预测。第三,尽管从单个图像进行深度估计自然是不适定和困难的,但由连续图像形成的立体几何结构为绝对深度估计提供了重要的指导和良好的理论基础。
考虑到存在于连续图像帧中的时间信息的好处,许多工作[121]、[122]、[123]将原始输入连接起来,将从图像中提取的特征连接起来,或者使用RNN或transformer进行视频理解,但他们很少采取这些步骤进行3D感知。这是因为相机随着自我车辆的移动而改变姿势,这意味着连续的透视图表示没有严格的物理对应关系。PV中时间特征的直接融合对精确3D定位带来有限的改进。幸运的是,BEV表示很容易转换为世界坐标系,并且可以作为以物理方式融合连续视觉中心数据的桥梁。
BEVDet4D[63]首先基于自车运动将来自先前帧的BEV特征图扭曲到当前帧,以将特征置于同一坐标系中,然后沿着通道维度连接对齐的特征图,以馈送到检测头中。这种基于级联的时间融合策略简单且可扩展,这就是为什么它们也被其他工作所采用,如Image2Map[21]、FIERY[100]和PolarFormer[28]。除了级联,还使用对称聚合函数(如max、mean)来组合时间包裹的(wrapped)特征[41]。AAs移动对象可以在不同的时间戳具有不同的网格位置,具有相同物理位置的不同时间的BEV特征可能不属于相同的对象。因此,为了更好地建立来自不同时间的相同对象的关联,BEVFormer[77]通过自注意力层对特征之间的时间连接进行建模,其中当前BEV特征用作查询,扭曲的先前BEV特征作为键和值。PETRv2[24]不包装BEV特征图,而是直接在透视图和三维坐标图上执行包装操作。它首先通过基于自我运动将先前帧的3D坐标转换为当前时间来生成先前帧的位置编码。然后,将两帧的2D图像特征和3D坐标连接在一起,用于transformer解码器,其中稀疏对象查询能够与当前和先前特征交互,以获得时间信息。类似地,UniFormer[124]将先前帧中的PV特征转换为统一的虚拟视图,并使用交叉关注来融合和集成所有过去和当前特征。
上述方法都侧重于在PV2BEV变换之后发生的BEV平面上的时间融合。此外,尽管在这些工作中,结合时间信息显著提高了定位精度,但没有一项工作明确指出这种现象的理论基础。相反,DfM从时间线索在深度估计中的重要作用的理论分析开始,并选择在早期阶段利用这些线索,通过更好的深度估计促进PV2BEV转换。DfM集成了来自时间相邻图像的立体几何线索,而不是依赖于单个图像的单目理解。为了处理立体估计方法无法处理的情况,提出了一种单目补偿策略,以自适应地平衡单目估计和立体估计。基于精确的深度估计,DfM然后将2D图像特征提升到3D空间并在其上检测3D目标。
如表8所示,将模型从纯空间3D空间提升到时空4D空间显著提高了整体检测性能,尤其是速度和方向预测。然而,大多数时间模型仅利用最多4个先前帧,而长期历史信息在很大程度上被忽略。例如,当帧数大于4时,BEVFormer的性能开始趋于平缓,这意味着长距离信息没有得到很好的利用。
最近的文献大多基于单智能体系统,它们在处理完全交通场景中的遮挡和检测远处物体时有困难。车辆对车辆(V2V)通信技术的发展使得可以通过在附近的自主车辆之间广播传感器数据来提供同一场景的多个视点来克服这个问题。遵循这一思想,CoBEVT[94]首先设计了一个多智能体多摄像机感知框架,可以协同生成BEV地图预测。为了融合来自多智能体数据的摄像机特征,它首先基于自我姿态和发送者的姿态对来自其他智能体的BEV特征进行几何扭曲,然后使用transformer和提出的融合轴向注意机制融合来自多个智能体的接收BEV特征的信息。然而,由于没有可用的具有多智能体数据的真实世界数据集,所提出的框架仅在模拟数据集上进行了验证[125],真实世界的泛化能力仍然未知,需要进一步检查。
本节介绍了实施细节的经验。以视觉为中心的感知方法通常涉及多种数据模式,并在类不平衡数据集上进行实验,因此需要各种数据增强方法,保证几何关系,并为注释较少的类别提供训练技巧。此外,平衡绩效和效率也是一个重要问题。接下来,我们将从四个方面讨论这些细节:感知分辨率、网络设计、辅助任务和训练细节。
由于这种类型的方法总是执行从透视到鸟瞰的视图转换,因此这两种视图的感知范围的设置实现了性能和效率的预期权衡。近年来,随着图形卡计算能力的快速发展,透视图图像分辨率和鸟瞰图网格尺寸显著增加。如表9所示,这些感知分辨率的增加可以显著提高性能,但也会影响推理速度。尽管这些基于BEV的方法在nuScenes上取得了令人满意的结果,甚至接近基于激光雷达的方法,但高输入分辨率造成的高计算负担仍然是一个严重的部署问题,值得进一步探索。此外,这里我们主要考虑网格大小对BEV感知分辨率的影响,因为感知范围始终与基于激光雷达的探测器的设置一致[13]、[14]、[15]。然而,这些常见设置在某些实际场景中是不够的,例如高速公路上的高速情况,这是另一个需要进一步研究的潜在问题。
检测性能的另一个关键因素是使用不同的特征提取主干和检测头。如最近的工作[61]、[65]、[67]、[81]所述,这种类型的方法通常缺乏足够的语义监督来理解透视图。因此,大多数方法[62]、[63]、[77]、[81]、[82]使用基于单目的方法预训练的PV骨干进行3D检测[10]、[11]或深度估计[66]。用附加深度数据预训练的IA大主干可以为3D检测性能带来显著的提高,这与最近关于深度在该环境中的关键作用的研究[11]、[57]、[126]一致。至于检测头,除了用于基于激光雷达的检测的传统基于锚的3D检测头、自由锚头和中心点头之外,基于transformer的方法通常使用DETR3D或可变形DETR头来实现完全端到端的设计。
由于在训练过程中可以利用各种数据模式,例如图像、视频和激光雷达点云,因此设计辅助任务以更好地表示学习也成为最近研究的热点问题。除了深度估计[61]、[65]、单目2D和3D检测[11]、[71]和2D车道检测[31]等经典辅助任务外,几项工作还设计了从交叉模态设置中提取知识的方案,例如单目立体学习[127]和激光雷达立体学习[128]。然而,这一新趋势仍然侧重于对小数据集的实验,需要对大规模数据集进行进一步验证和开发,因为大量的训练数据可能会削弱这种训练方法的益处。
最后,我们想列出几个重要细节,以解决基于学习的识别中的常见问题。首先,由于大多数这些方法涉及视图转换和不同的模式,数据增强可以应用于透视图图像和BEV网格。如表9所示,最近的方法通常利用三种类型的数据增强。其中,BEV网格增强对于该范式尤为重要,这也在[62]中提到。此外,对于类不平衡问题,类似于基于激光雷达的方法,一些方法[62]、[82]、[129]利用CBG[130]来增加长尾类别的样本数量。然而,据我们所知,针对这个问题的工作仍然很少。基于2D和激光雷达的感知的更多经验值得未来的工作。
最后,我们想列出几个重要细节,以解决基于学习的识别中的常见问题。首先,由于大多数这些方法涉及视图转换和不同的模式,数据增强可以应用于透视图图像和BEV网格。如表9所示,最近的方法通常利用三种类型的数据增强。其中,BEV网格增强对于该范式尤为重要,这也在[62]中提到。此外,对于类不平衡问题,类似于基于激光雷达的方法,一些方法[62]、[82]、[129]利用CBG[130]来增加长尾类别的样本数量。然而,据我们所知,针对这个问题的工作仍然很少。基于2D和激光雷达的感知的更多经验值得未来的工作。
本文综述了解决透视图和鸟瞰图之间的视图转换的最新研究。我们根据核心思想和下游视觉任务对相关方法进行了明确分类,介绍并讨论了相关方法。为了便于进一步的研究和实现,本文提供了性能和应用场景的详细比较和分析,并提出了以视觉为中心的BEV感知的丰富扩展。