【论文精读】MapTR:用于在线矢量化高精地图构建的结构化建模与学习

【论文精读】MapTR:用于在线矢量化高精地图构建的结构化建模与学习_第1张图片

论文地址: MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

源代码:MapTR 

摘要

       High-definition(HD Map)map为自动驾驶场景提供了丰富且精确的环境信息,是自动驾驶系统规划中不可或缺的基础组件。本文提出了 MapTR,一种用于高效在线矢量化高精地图构建的结构化端到端 Transformer 模型。我们提出了一种统一的排列等价建模方法,即将地图元素建模为一组等价排列的点集,从而准确描述地图元素的形状并稳定学习过程。我们设计了一种层次化的查询嵌入方案,用于灵活编码结构化的地图信息,并通过层次化的二分图匹配进行地图元素学习。MapTR 在 nuScenes 数据集上仅使用摄像头输入,就实现了现有矢量化地图构建方法中最佳的性能和效率。特别是,MapTR-nano 在 RTX 3090 上的实时推理速度达到 25.1 FPS,比现有的基于摄像头的最先进方法快 8 倍,同时平均精度(mAP)高出 5.0。即使与现有的多模态方法相比,MapTR-nano 的 mAP 高出 0.7,MapTR-tiny 的 mAP 高出 13.5,且推理速度比现有方法快 3 倍。丰富的定性结果表明,MapTR 在复杂多样的驾驶场景中能够保持稳定且鲁棒的地图构建质量。MapTR 在自动驾驶中具有重要的应用价值。

1 引言

       High-definition(HD Map)是专为自动驾驶设计的高精度地图,由实例级矢量化地图元素(如人行横道、车道分隔线、道路边界等)组成,包含丰富的道路拓扑和交通规则语义信息,对于自动驾驶车辆的导航至关重要。  
        传统高精地图是通过基于 SLAM(Simultaneous Localization and Mapping,同时定位与建图)的方法离线构建的,这种方法流程复杂且维护成本高昂。近年来,在线高精地图构建逐渐受到关注,它通过车辆搭载的传感器在运行时构建车辆周围的地图,从而摆脱了离线人工操作的限制。 
        早期的研究工作(Chen et al., 2022a; Liu et al., 2021a; Can et al., 2021)利用线形先验知识,基于前视图图像感知开放形状的车道线,但这些方法仅限于单视图感知,无法处理其他具有任意形状的地图元素。随着鸟瞰图(BEV,Bird's Eye View)表示学习的发展,近期的研究工作(Chen et al., 2022b; Zhou & Krähenhübl, 2022; Hu et al., 2021; Li et al., 2022c)通过执行 BEV 语义分割来预测栅格化地图。然而,栅格化地图缺乏矢量化实例级信息(如车道结构),这对于下游任务(例如运动预测和规划)至关重要。为了构建矢量化高精地图,HDMapNet(Li et al., 2022a)通过对像素级分割结果进行分组,但这种方法需要复杂且耗时的后处理。VectorMapNet(Liu et al., 2022a)首次提出了端到端框架,将每个地图元素表示为点序列,并采用级联的粗到细框架,利用自回归解码器顺序预测点,这导致了较长的推理时间。  
        当前的在线矢量化高精地图构建方法受到效率的限制,无法应用于实时场景。最近,DETR(Carion et al., 2020)采用简单高效的编码器-解码器 Transformer 架构,实现了端到端的目标检测。

        自然会提出一个问题:我们能否设计一个类似 DETR 的范式,用于高效的端到端矢量化高精地图构建?我们的 MapTR(Map Transformer)给出了肯定的答案。  
        与目标检测中可以轻松将物体几何抽象为边界框不同,矢量化地图元素具有更动态的形状。为了准确描述地图元素,我们提出了一个新的统一建模方法,将每个地图元素建模为一组等价排列的点集。点集决定了地图元素的位置,而排列群包括了对应于相同几何形状的点集的所有可能组织序列,避免了形状的歧义。  
        基于排列等价建模,我们设计了一个结构化框架,输入为车辆搭载的摄像头图像,输出为矢量化高精地图。我们将在线矢量化高精地图构建简化为一个并行回归问题。我们提出了层次化查询嵌入方案,用于灵活编码实例级和点级信息。所有实例及其所有点通过统一的 Transformer 结构同时预测。训练流程被设计为层次化集合预测任务,我们通过层次化二分图匹配依次分配实例和点,并在点级和边级监督几何形状,使用提出的点到点损失和边方向损失进行监督。  
        凭借所有这些设计,我们提出了 MapTR,一种具有统一建模和架构的高效端到端在线矢量化高精地图构建方法。MapTR 在 nuScenes(Caesar et al., 2020)数据集上实现了现有矢量化地图构建方法中最佳的性能和效率。特别是,MapTR-nano 在 RTX 3090 上的实时推理速度达到 25.1 FPS,比现有的基于摄像头的最先进方法快 8 倍,同时平均精度(mAP)高出 5.0。即使与现有的多模态方法相比,MapTR-nano 的 mAP 高出 0.7,MapTR-tiny 的 mAP 高出 13.5,且推理速度比现有方法快 3 倍。如可视化结果(图 1)所示,MapTR 在复杂多样的驾驶场景中能够保持稳定且鲁棒的地图构建质量。  
我们的贡献可以总结如下:  

  • 我们提出了一种统一的排列等价建模方法,即将地图元素建模为一组等价排列的点集,从而准确描述地图元素的形状并稳定学习过程。  
  • 基于新的建模方法,我们提出了 MapTR,一个用于高效在线矢量化高精地图构建的结构化端到端框架。我们设计了层次化查询嵌入方案,用于灵活编码实例级和点级信息,通过层次化二分图匹配进行地图元素学习,并在点级和边级监督几何形状,使用提出的点到点损失和边方向损失进行监督。  
  • MapTR 是首个在复杂多样的驾驶场景中实现稳定且鲁棒性能的实时 SOTA(State-of-the-Art,最先进)矢量化高精地图构建方法。

2 相关工作

HD Map Construction. 最近,随着2D到BEV(鸟瞰图)方法的发展,高精地图构建被表述为基于车辆周围摄像头捕获的多视角图像数据的分割问题。Chen等人(2022b)、Zhou和Krähenbühl(2022)、Hu等人(2021)、Li等人(2022c)、Philion和Fidler(2020)以及Liu等人(2022b)通过执行BEV语义分割生成栅格化地图。为了构建矢量化高精地图,HDMapNet(Li等人,2022a)通过启发式且耗时的后处理步骤将像素级语义分割结果分组以生成实例。VectorMapNet(Liu等人,2022a)是第一个端到端框架,采用两阶段粗到细的框架,并利用自回归解码器顺序预测点,导致推理时间较长且存在排列的歧义。与VectorMapNet不同,MapTR引入了针对地图元素的新型统一建模方法,解决了歧义问题并稳定了学习过程。此外,MapTR构建了一个结构化且高效的单阶段框架,显著提高了效率。

Lane Detection.  车道线检测可以视为高精地图构建的一个子任务,专注于检测道路场景中的车道线元素。由于大多数车道线检测数据集仅提供单视角注释且专注于开放形状元素,相关方法仅限于单视角。LaneATT(Tabelini等人,2021)利用基于锚点的深度车道线检测模型,在准确性和效率之间取得了良好的平衡。LSTR(Liu等人,2021a)采用Transformer架构直接输出车道线形状模型的参数。GANet(Wang等人,2022)将车道线检测表述为关键点估计和关联问题,并采用自底向上的设计。Feng等人(2022)提出了基于参数化贝塞尔曲线的车道线检测方法。Garnett等人(2019)提出的3D-LaneNet在BEV中执行3D车道线检测。STSU(Can等人,2021)在BEV坐标中将车道线表示为有向图,并采用基于贝塞尔曲线的方法从单目相机图像中预测车道线。Persformer(Chen等人,2022a)提供了更好的BEV特征表示,并优化了锚点设计,同时统一了2D和3D车道线检测。与仅在有限的单视角中检测车道线的方法不同,MapTR能够感知360°水平视场内的各种地图元素,并采用统一的建模和学习框架。

Contour-based Instance Segmentation.   与MapTR相关的另一条研究线是基于轮廓的2D实例分割(Zhu等人,2022;Xie等人,2020;Xu等人,2019;Liu等人,2021c)。这些方法将2D实例分割重新表述为对象轮廓预测任务,并估

你可能感兴趣的:(自动驾驶,人工智能,深度学习,transformer)