Argoverse 预测翻译

摘要

我们展示了 Argoverse,这是一个旨在支持自动驾驶车辆感知任务的数据集,包括 3D 跟踪和运动预测。 Argoverse 包括由匹兹堡和迈阿密的自动驾驶车队收集的传感器数据以及 3D 跟踪注释、300k 提取的有趣车辆轨迹和丰富的语义地图。 传感器数据包括来自 7 个具有重叠视野的摄像机的 360° 图像、前向立体图像、来自远程 LiDAR 的 3D 点云和 6 自由度姿态。 我们 290 公里的映射车道包含丰富的几何和语义元数据,这些元数据目前在任何公共数据集中都不可用。 所有数据均根据 Argoverse.org 的知识共享许可发布。 在基线实验中,我们使用车道方向、可行驶区域和地面高度等地图信息来提高 3D 对象跟踪的准确性。 我们使用 3D 对象跟踪来“挖掘”超过 30 万条有趣的车辆轨迹,以创建轨迹预测基准。 从经典方法 (k-NN) 到 LSTM 的复杂性运动预测实验表明,使用带有车道级信息的详细“矢量地图”可显着减少预测误差。 我们的跟踪和预测实验仅代表了对丰富地图在机器人感知中的潜力的肤浅探索。 我们希望 Argoverse 能让研究界更深入地探索这些问题。

3. Argoverse 数据集

我们的传感器数据、地图和注释是这项工作的主要贡献。 我们还开发了一个 API 来帮助将地图数据与传感器信息连接起来,例如 地面点移除、最近中心线查询和车道图连接; 有关更多详细信息,请参阅补充材料。 我们的数据、注释和 API 在 Argoverse.org 的知识共享许可下可用。
我们从美国宾夕法尼亚州匹兹堡和美国佛罗里达州迈阿密的自动驾驶车队收集原始数据。 这些城市具有独特的气候、建筑、基础设施和行为模式。 捕获的数据跨越不同的季节、天气条件和一天中的时间。 用于我们数据集的数据遍历了近 300 公里的映射道路车道,并且来自我们车队运营区域的一个子集。
传感器。 我们的汽车配备了两个安装在车顶的 VLP-32 LiDAR 传感器,垂直视野重叠 40°,范围为 200m,大约是 nuScenes 和 KITTI 中使用的传感器的两倍。 平均而言,我们的李DAR 传感器在每次扫描时生成一个点云,其密度是 nuScenes [5] 数据集中 LiDAR 扫描密度的三倍(我们的 ~ 107, 000 个点与 nuScenes 的 ~ 35, 000 个点)。 车辆有 7 个高分辨率环形摄像机 (1920 × 1200),以 30 Hz 的频率记录,重叠视野提供 360°覆盖。 此外还有 2 个前置立体摄像头 (2056×2464),采样频率为 5 Hz。 人脸和车牌在相机数据中按程序进行模糊处理,以保护隐私。 最后,每个时间戳的 6 自由度定位来自基于 GPS 和基于传感器的定位的组合。 车辆定位和地图使用补充材料中更详细描述的城市特定坐标系。 特定驾驶会话的传感器测量值存储在“日志”中,我们为每个日志的 LiDAR 传感器和所有 9 个摄像头提供内部和外部校准数据。 图 2 以 3D 形式显示了我们的传感器数据。 与[33]类似,我们将车辆坐标系的原点放在后轴的中心。 所有传感器都安装在车顶上,一个 LiDAR 传感器由 7 个“环形”摄像头(顺时针方向:面向前中心、右前、右侧、右后、左后、左侧和左前)和 2 个立体摄像头包围。 图 3 显示了我们传感器的几何排列。

3.1. Maps Argoverse

包含三个不同的地图 - (1) 车道中心线及其属性的矢量图,(2) 地面高度的光栅化地图,以及 (3) 可行驶区域和感兴趣区域 (ROI) 的光栅化地图。
车道几何的矢量图。 我们的矢量图由语义道路数据组成,这些数据表示为局部图,而不是栅格化为离散样本。 我们发布的矢量地图是对车队运营中使用的地图的简化。 在我们的矢量图中,我们提供车道中心线,分为车道段。 我们观察到车辆轨迹通常遵循车道的中心,因此这是跟踪和预测的有用先验。
车道段是汽车以单列方式在一个方向上行驶的一段道路。 多个车道段可能占用相同的物理空间(例如在交叉路口)。 允许车辆向任一方向流动的转弯车道将由占据相同物理空间的两条不同车道表示。
对于每条车道中心线,我们提供了许多语义属性。 这些车道属性描述了车道是否位于交叉路口内或具有相关的交通控制措施(不相互包含的布尔值)。 其他语义属性包括车道的转弯方向(向左、向右或无)以及车道的前驱(前面的车道段)和后继(后面的车道段)的唯一标识符,其中可以有多个(用于合并和 分别分开)。
中心线以“折线”形式提供,即一系列直线段。 每个直线段由 2 个顶点定义:(x, y, z) 起点和 (x, y, z) 终点。 因此,弯曲车道用一组直线近似。
我们观察到,在迈阿密,可用于路线规划的车道段平均宽度为 3.84m ± 0.89。在匹兹堡,平均宽度为 3.97m ± 1.04 宽。
不适合自动驾驶的其他类型的车道段,例如 自行车道在迈阿密可窄至 0.97m,在匹兹堡可窄至 1.06m。
光栅化的可驾驶区域地图。 我们的地图包括 1 米网格分辨率的二进制可驾驶区域标签。 可行驶区域是车辆可以行驶的区域(尽管不一定合法)。 除了由车道线段表示的正常可行驶区域之外,可行驶区域还可以包括路肩。 我们的轨道注释(第 3.2 节)延伸至可行驶区域外 5 米。 我们称这个较大的区域为我们的感兴趣区域 (ROI)。
栅格化地面高度图。 最后,我们的地图包括 1 米分辨率的实值地面高度。
地面高度的知识可用于去除静态地面上的 LiDAR 回波,从而使动态物体的 3D 检测更容易。 图 4 演示了使用我们的地面高度图来移除道路上的 LiDAR 点。

3.3. 用于运动预测的挖掘轨迹

我们也有兴趣研究运动预测的任务,其中我们预测未来某个时间被跟踪物体的位置。 运动预测对于安全的自动驾驶汽车运动规划至关重要。 虽然我们人工标注的 3D 轨迹是用于运动预测的合适训练和测试数据,但许多车辆的运动相对无趣——在给定的帧中,大多数汽车要么停着,要么以几乎恒定的速度行驶。 这样的轨迹几乎不能代表真正的预测挑战。 我们想要一个具有更多样化场景的基准,例如 管理十字路口、为合并车辆减速、转弯后加速、为路上的行人停车等。为了对这些有趣的场景进行足够的采样,我们跟踪迈阿密和匹兹堡 1006 小时行驶的物体,并找到具有有趣行为的车辆 在其中的 320 小时内。 特别是,我们寻找以下车辆:(1) 在交叉路口 (2) 左转或右转 (3) 换到相邻车道或 (4) 交通拥挤。 我们总共收集了 333,441 个五秒序列,并将它们用于预测基准。 每个序列包含以 10hz 采样的每个跟踪对象的 2D 鸟瞰图质心。 图 6 显示了地理这些序列的图形分布。 在第 5 节中,我们不评估行人和静止车辆的运动预测,但仍保留他们在“社会”预测模型中的上下文轨迹。 333,441 个序列被分成 211,691 个训练、41,146 个验证和 80,604 个测试序列。 每个序列都有一个具有挑战性的轨迹,这是我们预测基准的重点。 train、val 和 test 序列取自我们城市的不相交部分,即每个城市的大约八分之一和四分之一分别留作验证和测试数据。 该数据集远大于可以从公开可用的自动驾驶数据集中挖掘的数据,我们的优势在于使用我们的地图可以更轻松地跟踪对象。
虽然这种规模的数据很有吸引力,因为它允许我们看到罕见的行为并训练复杂的模型,但它太大而无法详尽地验证挖掘轨迹的准确性,因此数据中存在一些固有的噪声和错误。
图 6:挖掘轨迹的分布。 颜色表示迈阿密(左)和匹兹堡(右)地图上开采轨迹的数量。 发现有趣的车辆行为的启发式方法会导致在十字路口和繁忙的道路(如自由和宾夕法尼亚大道)(右下插图中的东南道路)上的集中度更高。

5. 预测

在本节中,我们将描述轨迹预测基线的管道。
1. 预处理:如 3.3 节所述,我们首先挖掘“有趣”序列,然后从这些序列中过滤掉静止的汽车。 每个序列包含超过 5 秒的跟踪对象的质心。
预测坐标系和归一化。
我们用于轨迹预测的坐标系是自上而下的鸟瞰图 (BEV)。 预测感兴趣的参考坐标系有三个: (1) 原始轨迹数据在城市坐标系中存储和评估(参见补充材料的第 1.1 节)。 (2) 对于使用车道中心线作为参考路径的模型,我们定义了一个二维曲线坐标系,其轴与车道中心线相切并垂直。 (3) 对于没有参考路径(没有地图)的模型,我们对齐所有内容,使得轨迹的观察部分从原点开始,并在正 x 轴的某处结束。 如果 (x t i , yt i ) 表示轨迹 Vi 在时间步长 t 的坐标,那么这确保 y Tobs i = 0,其中 Tobs 是轨迹的最后观察时间步长(第 5.1 节)。 我们发现这种归一化比在绝对地图坐标或绝对方向上留下轨迹更好。
**2. 特征工程:**我们定义额外的特征来捕捉社会和/或空间背景。 对于社会环境,我们使用与前面、后面的物体的最小距离以及邻居的数量。 这种启发式方法旨在捕捉车辆之间的社交互动。 对于空间上下文,我们计算车道线段坐标系中的所有内容。 我们计算与每个轨迹相对应的车道中心线,然后将 (x t i , yt i ) 坐标映射到沿中心线的距离 (a t i ) 和偏离中心线 (o t i ) 的距离。 在随后的部分中,我们分别用 s t i 和 mt i 表示时间步长 t 的轨迹 Vi 的社会特征和地图特征。
**3. 预测算法:**我们使用不同的特征组合实现加权最近邻和 LSTM 编码器-解码器模型。 结果在第 5.3 节中分析。
5.1. 问题描述
预测任务的框架如下: 给定车辆轨迹 Vi 的过去输入坐标为 Xi = (x t i , yt i ) 时间步长 t = {1, . . . , Tobs}, 预测未来坐标 Yi = (x t i , yt i ) 时间步长 {t = Tobs+1, . . . ,Tpred}。 对于汽车,5 秒足以捕获所需的轨迹部分,例如 穿过一个十字路口。 此外,典型的驾驶操作不太可能持续超过 5 秒。 在本文中,我们将预测任务定义为观察过去的 20 帧(2 秒),然后预测未来的 10-30 帧(1-3 秒)。 每个轨迹可以利用相同序列中其他车辆的轨迹来捕捉社会背景和空间背景的地图信息。
5.2. 多模态评估
预测未来很困难。 通常,对于给定的观察,有几种可能的未来行动。 就自动驾驶汽车而言,重要的是预测许多可能的结果,而不仅仅是最可能的结果。
虽然之前的一些工作以确定性的、单峰的方式评估预测,但我们认为更好的方法是遵循 DESIRE [19] 和 Social GAN [11] 的评估方法,并鼓励算法输出多个预测。
我们的矢量图是一个语义图。 使用矢量图进行预测的第一步是在语义图上定位自己。 我们定义了两个后续阶段:(1)假设阶段和(2)生成阶段。 语义图使生成阶段变得微不足道,因为我们可以通过语义图上的广度优先搜索快速生成假设轨迹。 然而,由于问题的多模态性质,假设阶段仍然具有挑战性,例如 很难知道车辆在交叉路口将遵循哪个车道段。
在 DESIRE 中评估的各种指标中,有超过 K 个样本指标的预言机误差,其中 K = 50。我们采用相同的方法并使用 topK 平均位移误差 (ADE) 和最终位移误差 (FDE) 作为我们的指标。 我们报告的基于地图的基线可以访问语义矢量地图。 因此,他们可以基于道路网络沿特定观察轨迹的分支生成 K 个不同的假设。 平均而言,我们的启发式生成 K = 5.9 个假设。 我们为不到 2% 的场景生成了超过 25 个假设。 我们的地图为我们提供了一种生成紧凑而多样的预测集的简单方法。 其他基线没有这样的选项,并且仅限于单个预测。 我们还提供了基于地图的基线的预言机版本,其中模型通过访问 (x t i , yt i ) for t = {Tobs+1, . . . ,Tpred},以及观察到的轨迹。 请注意,基于预言机的假设仍然可以生成不完美的轨迹,例如 如果汽车没有遵循任何车道。

你可能感兴趣的:(笔记)