HDMapNet翻译

摘要

从感官输入中估计局部语义是自动驾驶中高清地图构建的核心组成部分。然而,传统的管道需要大量的人力和资源来注释和维护地图中的语义,这限制了其可扩展性。在本文中,我们介绍了局部语义地图学习的问题,该问题基于车载传感器观察动态构建矢量化语义。

同时,我们介绍了一种局部语义地图学习方法,称为 HDMapNet。从激光雷达周围的摄像机和/或点云HDMapNet编码图像的特征,并预测在鸟矢量地图元素“ S-眼图。我们在 nuScenes 数据集上对 HDMapNet 进行了基准测试,并表明在所有设置中,它的性能都优于基线方法。值得注意的是,我们基于融合的 HDMapNet 在所有指标上都优于现有方法 50% 以上。此外,我们开发了语义级和实例级指标来评估地图学习性能。最后,我们展示了我们的方法能够预测局部一致的地图。通过介绍方法和指标,我们邀请社区研究这个新颖的地图学习问题。将发布代码和评估套件以促进未来的开发。

引言

高清地图(HD地图)是自动驾驶必不可少的模块。构建此类高清地图的传统管道涉及预先捕获点云、使用 SLAM 构建全局一致的地图以及在地图中注释语义。这种范式虽然可以制作精确的高清地图并被许多自动驾驶公司采用,但需要大量的人力。

作为替代方案,我们研究了可扩展且价格合理的自动驾驶解决方案,例如最大限度地减少人工标注和维护高清地图的工作。为此,我们引入了一种新颖的局部语义图学习框架,该框架利用板载传感器和计算来估计矢量化局部语义图。值得注意的是,我们的框架并不旨在取代全局高清地图重建,而是提供一种简单的方法来预测局部语义地图以进行实时运动预测和规划。

我们提出了一种名为 HDMapNet 的局部地图学习方法,该方法从周围摄像机的图像和/或点云(如 LiDAR)生成矢量化地图元素。我们研究如何有效地变换角度的图像特征,以鸟“ S-眼深度丢失时视图功能。我们提出了一种新颖的视图变换器,它由神经特征变换和几何投影组成。此外,我们研究了点云和相机图像在这项任务中是否相互补充。我们发现不同的地图元素在单一模式中的可识别性并不相同。为了两全其美,我们最好的模型将点云表示与图像表示相结合。该模型在所有类别中均显着优于其单模态对应模型。为了证明我们方法的实用价值,我们使用图 6 中的模型生成了局部一致的地图;该地图可立即应用于实时运动规划。

最后,我们提出了评估地图学习性能的综合方法。这些指标包括语义级别和实例级别的评估,因为地图元素通常表示为高清地图中的对象实例。

在公共 NuScenes 数据集上,HDMapNet 在语义分割方面比现有方法提高了 12.1 IoU,在实例检测方面提高了 13.1 mAP。

总而言之,我们的贡献包括以下内容:•我们提出了一个新的框架来从感官观察中学习局部语义图,并结合一种名为 HDMapNet 的方法。

•我们想出了一个新的特征投影模块从透视图鸟“ S-鸟瞰。该模块隐式地对 3D 环境进行建模,并显式地考虑相机的外在环境。

•我们开发了全面的评估协议和指标,以促进未来的研究。

相关工作

语义地图构建大多数现有的高清语义地图都是在环境的 LiDAR 点云上手动或半自动注释的,这些地图是从具有高端 GPS 和 IMU 的调查车辆收集的 LiDAR 扫描中合并的。SLAM 算法是将 LiDAR 扫描融合为高度准确且一致的点云的最常用算法。首先,成对对齐算法如 ICP [1]、NDT [2] 及其变体 [3] 用于使用语义 [4] 或几何信息 [5] 匹配两个附近时间戳的 LiDAR 数据。其次,估计自我车辆的准确姿势被公式化为非线性最小二乘问题 [6] 或因子图 [7],这对于构建全局一致的地图至关重要。杨等人。[8]提出了一种基于成对对齐因子约束下的位姿图优化的城市尺度地图重建方法。为了降低语义地图手动注释的成本,Jian 等人。[9] 提出了几种机器学习技术来从融合的 LiDAR 点云和相机中提取静态元素。然而,高清语义地图需要高精度和及时更新,维护起来仍然费力且成本高昂。

在本文中,我们认为我们提出的局部语义地图学习任务是一种潜在的更具可扩展性的自动驾驶解决方案。

透视视图车道检测传统的基于透视图的车道检测管道涉及局部图像特征提取(例如颜色、方向过滤器 [10]、[11]、[12])、线拟合(例如霍夫变换 [13])、图像到世界投影等。随着基于深度学习的图像分割和检测技术[14]、[15]、[16]、[17]的进步,研究人员探索了更多数据驱动的方法。为道路分割 [18]、[19]、车道检测 [20]、[21]、可行驶区域分析 [22] 等开发了深度模型。最近,模型被构建为提供 3D 输出而不是 2D。白等人。[23] 结合了 LiDAR 信号,以便图像像素可以投影到地面上。加内特等。[24] 和郭等人。[25] 使用合成车道数据集对摄像机高度和间距的预测进行监督训练,以便输出车道位于 3D 地平面中。除了检测车道外,我们的工作还通过环绕摄像头或 LiDAR 在车辆周围输出一致的局部语义图。

跨视图学习最近,已经做出一些努力来研究交叉视图学习,以促进机器人的周围感知能力。泛[26]使用的MLP学习透视视图功能的地图和鸟之间的关系’ S-鸟瞰特征地图。罗迪克和奇波拉[27]施加1D卷积上的图像fetures沿水平轴以预测鸟’ S-眼图。Philion和菲德勒[28]预测的单眼相机的深度和项目形象特征分成鸟“使用软关注S-鸟瞰。我们的工作侧重于局部语义地图构建的关键任务,即我们使用交叉视图感知方法以矢量化形式生成地图元素。此外,我们的模型可以很容易地与 LiDAR 输入融合,以进一步提高其准确性。

方法

我们提出了局部语义图学习,这是一种产生局部语义图的新颖框架。它接受传感器输入(如相机图像和 LiDAR 点云),并输出矢量化地图元素,如车道分隔线、车道边界和人行横道。我们使用 I 和 P 分别表示图像和点云。可选地,该框架可以扩展为包括其他传感器信号,如雷达。我们将 M 定义为要预测的地图元素。

A、HDMapNet
我们的局部语义地图学习模型名为 HDMapNet,直接使用神经网络从单帧 I 和 P 预测地图元素 M。概述如图 2 所示,四个神经网络参数化我们的模型:图像分支中的透视图像编码器φ I 和神经视图变换器φ V、基于柱的点云编码器φ P 和地图元素解码器φ M. 如果模型仅将周围图像、仅 LiDAR 或两者都作为输入,我们将 HDMapNet 系列表示为 HDMapNet(Surr)、HDMapNet(LiDAR)、HDMapNet(Fusion)。

1)图像编码器:我们的图像编码器有两个组件,即透视图图像编码器和神经视图变换器。

透视图图像编码器我们的图像分支从 Nm 周围的摄像机获取透视图输入,覆盖场景的全景。每个图像 Ii 被一个共享的神经网络φ I嵌入以获得透视图特征图 F pv Ii ⊆ R Hpv × Wpv × K 其中 Hpv、Wpv 和 K 分别是高度、宽度和特征维度。

神经视图转换器如图3所示,我们首先从立体视图变换的图像特征,以照相机坐标系,然后到鸟’ S-眼图。透视图和相机坐标系统之间的任意两个像素的关系由多层感知器φ Vi建模:

公式1

其中φ hw Vi 对相机坐标系统中位置 (h, w) 处的特征向量与透视图特征图上的每个像素之间的关系进行建模。我们将 Hc 和 Wc 表示为 F c I 的自上而下的空间维度。鸟’ S-眼视图(自我坐标系)特征F BEV㈡ ⊆ řHbev × Wbev × K由转化使用几何突起与照相机外部参数,其中Hbev和Wbev是在高度和宽度的特征F C II获得鸟“ S-鸟瞰。最终的图像特征 F bev I 是 Nm 相机特征的平均值。

2) 点云编码器:我们的点云编码器φ P 是 PointPillar [29] 的变体,具有动态体素化 [30],它将 3d 空间划分为多个柱子,并从柱状点云的柱状特征中学习特征图. 输入是点云中的 N 个激光雷达点。对于每个点 p,它具有三维坐标和额外的 K 维特征,表示为 fp ⊆ R K+3 。

当投影来自指向鸟特征’ S-鸟瞰,多个点可以潜在地落入相同支柱。我们将 Pj 定义为与支柱 j 对应的点集。为了从支柱中的点聚合特征,需要使用 PointNet [31](表示为 PN),其中

公式2

然后,通过卷积神经网络φ柱对柱状特征进行进一步编码。我们表示在鸟的特征图“ S-鸟瞰为F BEV P上。

3)鸟瞰图解码器:该地图是包括实例级和通道分配器和车道边界的方向的信息的复杂的图形网。车道线需要矢量化,而不是像素级表示,以便自动驾驶车辆可以跟随它们。因此,我们的 BEV 解码器φ M 不仅输出语义分割,还预测实例嵌入和车道方向。后处理过程应用于从嵌入中聚类实例并对其进行矢量化。

整体架构 BEV解码器是一个全卷积网络 (FCN) [32],具有 3 个分支,即语义分割分支、实例嵌入分支和方向预测分支。BEV 解码器的输入是图像特征图 F bev I 和/或点云特征图 F bev P ,如果两者都存在,我们将它们连接起来。

实例嵌入 我们的情况下嵌入模块,旨在集群中的每个鸟“ S-鸟瞰嵌入。为了便于表示,我们遵循 [33] 中的确切定义:C 是真实数据中的簇数,Nc 是簇 c 中的元素数,μc 是簇 c 的平均嵌入,k · k 是L1范数,[x]+ = max(0, x)表示元素最大值。δ v 和δ d 分别是方差和距离损失的边际。聚类损失 L 由下式计算:

公式3 、4 、5

方向预测我们的方向模块旨在从每个车道节点 C 预测车道的方向。方向被离散为均匀分布在单位圆上的 Nd 类。由当前节点的Cnow方向d进行分类,泳道CNEXT的下一个节点可以作为CNEXT = Cnow +获得Δ步骤· d,其中Δ步骤是预定义的步长大小。因为我们不’知道车道的方向,我们无法确定每个节点的向前和向后的方向。相反,我们将它们都视为正面标签。具体而言,各车道节点的方向标记是钕向量与标记为1 2个指数和其他标记为0。注意,大多数像素的自上而下映射不要“吨趴在车道,这意味着他们不”吨有方向。这些像素的方向向量是零向量,我们在训练期间从不对这些像素进行反向传播。我们使用 softmax 作为分类的激活函数。

矢量化在推理过程中,我们首先使用基于密度的带有噪声的应用程序空间聚类 (DBSCAN) 对实例嵌入进行聚类。然后使用非最大抑制(NMS)来减少冗余。最后,通过在预测方向的帮助下贪婪地连接像素来获得向量表示。

B、评估

在本节中,我们提出了局部语义图学习的评估协议,包括语义度量和实例度量。

1)语义度量:模型预测的语义可以用欧拉方式和拉格朗日方式进行评估。欧拉度量在密集网格上计算并测量像素值差异。相比之下,拉格朗日度量随形状移动并测量形状的空间距离。

欧拉度量 我们使用并集交叉(IoU)作为欧拉度量,其由下式给出,

公式6

其中 D1, D2 ⊆ RH × W × D 是形状的密集表示(在网格上光栅化的曲线);H和W是网格的高度和宽度,D是类别数;| · | 表示集合的大小。

拉格朗日度量 我们对结构化输出感兴趣,即曲线由连接点组成。为了评估预测曲线和真实曲线之间的空间距离,我们使用曲线上采样的点集之间的倒角距离 (CD):

公式7 、8

其中 CDdir 是定向倒角距离,CD 是双向倒角距离;S1 和 S2 是曲线上的两组点。

**2)实例指标:**我们进一步评估我们模型的实例检测能力。我们使用类似于对象检测 [34] 中的平均精度 (AP),由下式给出

公式9

其中 APr 是召回率 = r 时的精度。我们收集所有预测并根据语义置信度将它们按降序排列。然后,我们根据 CD 阈值对每个预测进行分类。例如,如果 CD 低于预定义的阈值,则认为是真阳性,否则为假阳性。最后,我们获得所有 precisionrecall 对并相应地计算 AP。

实验

A. 实施细节
任务和指标 我们在 NuScenes 数据集 [35] 上评估我们的方法。我们专注于两个子任务:语义图语义分割和实例检测。由于 nuScenes 数据集中的地图元素类型有限,我们考虑了三种静态地图元素:车道边界、车道分隔线和行人过路处。

建筑学 对于透视图图像编码器,我们采用在 ImageNet [37] 上预训练的 EfficientNet-B0 [36],如 [28]。然后,我们使用的多层感知器(MLP)转换的透视图设有鸟’ S-鸟瞰在相机功能坐标系。MLP 是按通道共享的,不会改变特征维度。

对于点云,我们使用具有动态体素化 [30] 的 PointPillars [38] 的变体。我们使用具有 64 维层的 PointNet [31] 来聚合支柱中的点。具有三个块的 ResNet [39] 用作 BEV 解码器。

培训详情 我们对语义分割使用交叉熵损失,对实例嵌入使用判别损失(方程 5),其中我们设置α = β = 1、δ v = 0.5 和δ d = 3.0。我们使用 Adam [40] 进行模型训练,学习率为 1e − 3。

B. 基线方法
逆透视映射 (IPM) 最直接的基线是对分割预测到鸟映射’经由IPM S-鸟瞰[41],[42]。

IPM与鸟瞰图解码器(IPM(B) 我们的第二个基线是 IPM 的扩展。我们不是在透视图中进行预测,而是直接在鸟瞰图中进行语义分割。

IPM与透视图特征的编码器和鸟’ S-眼视图解码器(IPM(CB)) 接下来的延伸,是在透视图中进行功能学习,同时使在鸟预测“ S-鸟瞰。

提升-Splat-Shoot Lift-Splat-Shoot [28] 估计透视图图像中的深度分布。然后,它将 2D 图像转换为具有特征的 3D 点云,并将它们投影到 ego 车辆框架中。

查看解析网络 (VPN) VPN [26]提出了一种简单的视图变换模块以从立体视图变换特征映射到鸟’仲-鸟瞰:它使用一个视图关系模块到在透视图中的特征图的任何两个像素之间的关系进行建模; 然后,视图融合模块与平均池层熔断器像素落入同一鸟的特征“ S-眼视图的位置。

C. 结果
我们将我们的 HDMapNet 与§ IV-B中的基线进行了比较。

表 I 显示了比较结果。首先,我们的 HDMapNet(Surr) 是仅使用周围相机的方法,其性能优于所有基线。这表明我们新颖的基于学习的视图转换确实有效,无需对复杂地平面 (IPM) 或估计深度 (Lift-Splat-Shoot) 做出不切实际的假设。其次,我们的 HDMapNet(LiDAR) 在边界上优于 HDMapNet(Surr),但在分隔线和行人过路处较差。这表明在一种模式中不同的类别无法同等识别。第三,我们的相机图像和 LiDAR 点云融合模型实现了最佳性能。

它相对于基线和我们的仅相机方法提高了 50%。

另一个有趣的现象是各种模型在 CD 方面的表现不同。例如,VPN 在所有类别中的 CDP 最低,而它在 CDL 上的表现不及同类产品,总体 CD 最差。相反,我们的 HDMapNet(Surr) 平衡了 CDP 和 CDL,在所有基于相机的方法中实现了最佳 CD。这一发现表明 CD 是对 IoU 的补充,后者显示了模型的精度和召回率方面。这有助于我们从另一个角度理解不同模型的行为。

实例地图检测 在图 2(实例检测分支)中,我们展示了使用主成分分析 (PCA) 的嵌入可视化。不同的车道即使彼此靠近或有交叉点也会被分配不同的颜色。这证实了我们的模型学习实例级信息并可以准确预测实例标签。在图 2(方向分类分支)中,我们展示了我们的方向分支预测的方向掩码。

方向一致且平滑 我们在图 4 中展示了后处理后产生的矢量化曲线。在表二中,我们展示了实例图检测的定量结果。HDMapNet(Surr) 已经优于基线,而 HDMapNet(Fusion) 明显优于所有同类,例如,它比 IPM 提高了 55.4%。

传感器融合 在本节中,我们将进一步分析传感器融合对构建局部高清地图的影响。

如表 I 所示,对于分隔线和行人过路处,HDMapNet(Surr) 优于 HDMapNet(LiDAR),而对于车道边界,HDMapNet(LiDAR) 效果更好。我们假设这是因为陆地边界附近存在海拔变化,因此很容易在 LiDAR 点云中检测到。另一方面,道路分隔线和人行横道的颜色对比是有用的信息,使两个类别在图像中更容易识别;图 4 中的可视化也证实了这一点。当结合 LiDAR 和相机时,实现了最强的性能;组合模型在很大程度上优于使用单个传感器的两种模型。这表明这两个传感器包含彼此互补的信息。

恶劣的天气条件 在这里,我们评估了我们模型在极端天气条件下的稳健性。如图 5 所示,我们的模型即使在光照条件差或雨遮挡视线的情况下也能生成完整的车道。

我们推测,当道路不完全可见时,该模型可以基于部分观察来预测车道的形状。虽然在极端天气条件下性能有所下降,但整体性能还是合理的。(表III)时间融合。在这里,我们对时间融合策略进行了实验。以前帧的粘贴功能,我们首先进行短期时间融合映射到当前“根据自我姿势秒。特征图通过最大池化融合,然后输入解码器。如表 IV 所示,融合多个帧可以提高语义的 IoU。

我们通过融合分割概率进一步试验长期时间积累。如图 6 所示,我们的方法在融合多个帧的同时生成具有更大视野的一致语义图。

结论

HDMapNet 直接从相机图像和/或 LiDAR 点云预测局部语义图。与需要大量人力的全局地图构建和注释管道相比,局部语义地图学习框架可能是一种更具可扩展性的方法。

尽管我们的局部语义地图学习的基线方法不会产生准确的地图元素,但它为系统开发人员提供了另一种在可扩展性和准确性之间进行权衡的可能选择

你可能感兴趣的:(笔记,自动驾驶,计算机视觉,人工智能)