vectonet相关工作

摘要

由于道路组件的复杂表示和相互作用,包括移动代理(例如行人和车辆)和道路上下文信息(例如车道, 红绿灯)。 本文介绍了 VectorNet,这是一种分层图神经网络,它首先利用由向量表示的各个道路组件的空间局部性,然后对所有组件之间的高阶交互进行建模。 与将移动代理的轨迹和道路上下文信息呈现为鸟瞰图像并使用卷积神经网络 (ConvNets) 对其进行编码的最新方法相比,我们的方法对向量表示进行操作。 通过对矢量化高清 (HD) 地图和代理轨迹进行操作,我们避免了有损渲染和计算密集型 ConvNet 编码步骤。 为了进一步提高 VectorNet 在学习上下文特征方面的能力,我们提出了一项新的辅助任务,以根据上下文恢复随机屏蔽的地图实体和代理轨迹。 我们在内部行为预测基准和最近发布的 Argoverse 预测数据集上评估 VectorNet。 我们的方法在两个基准测试中都实现了与竞争渲染方法相当或更好的性能,同时节省了超过 70% 的模型参数,同时 FLOP 减少了一个数量级。 它还优于 Argoverse 数据集的最新技术。

引言

本文重点研究复杂多智能体系统中的行为预测,例如自动驾驶汽车。 核心兴趣是找到一个统一的表示,该表示集成了由感知系统获得的代理动态,例如对象检测和跟踪,以及场景上下文,通常以高清晰度 (HD) 地图的形式作为先验知识提供。 我们的目标是构建一个系统来学习预测车辆的意图,这些意图被参数化为轨迹。
传统的行为预测方法是基于规则的,其中基于路线图的约束生成多个行为假设。 最近,提出了许多基于学习的方法 [5, 6, 10, 15]; 它们提供了对不同行为假设进行概率解释的好处,但需要构建一个表示来对地图和轨迹信息进行编码。
有趣的是,虽然高清地图是高度结构化的,组织为具有位置(例如车道)和属性(例如绿色交通灯)的实体,但这些方法中的大多数选择将高清地图渲染为颜色编码属性(图 1,左) ,这需要手动规范; 并使用接受域有限的 ConvNet 对场景上下文信息进行编码。 这就提出了一个问题:我们可以直接从结构化的高清地图中学习有意义的上下文表示吗?
我们建议学习多的统一表示代理动态和结构化场景上下文直接来自其矢量化形式(图 1,右)。 道路要素的地理范围可以是地理坐标中的点、多边形或曲线。 例如,车道边界包含多个构建样条曲线的控制点; 人行横道是由几个点定义的多边形; 停止标志由单个点表示。 所有这些地理实体都可以近似为由多个控制点及其属性定义的折线。 类似地,移动代理的动力学也可以通过基于其运动轨迹的折线来近似。 然后,所有这些折线都可以表示为向量集。
我们使用图神经网络 (GNN) 来合并这些向量集。 我们将每个向量视为图中的一个节点,并将节点特征设置为每个向量的开始位置和结束位置,以及其他属性,例如折线组 ID 和语义标签。 来自 HD 地图的上下文信息以及其他移动代理的轨迹通过 GNN 传播到目标代理节点。 然后我们可以采用与目标代理对应的输出节点特征来解码其未来的轨迹。
具体来说,为了使用 GNN 学习竞争性表示,我们观察到根据节点的空间和语义接近度来约束图的连接性很重要。 因此,我们提出了一种分层图架构,其中属于具有相同语义标签的相同折线的向量连接并嵌入到折线特征中,然后所有折线彼此完全连接以交换信息。 我们使用多层感知器实现局部图,以及具有自注意力的全局图 [30]。 我们的方法概述如图 2 所示。
最后,受到自我最近成功的激励从序列语言 [11] 和视觉数据 [27] 的监督学习中,除了行为预测目标之外,我们还提出了一个辅助图完成目标。
更具体地说,我们随机屏蔽属于场景上下文或代理轨迹的输入节点特征,并要求模型重建被屏蔽的特征。
直觉是鼓励图网络更好地捕捉代理动态和场景上下文之间的交互。 总之,我们的贡献是: • 我们首先展示了如何直接将矢量化场景上下文和代理动态信息结合起来进行行为预测。
• 我们提出了分层图网络VectorNet 和节点完成辅助任务。
• 我们在我们的内部行为预测数据集和 Argoverse 数据集上评估了提议的方法,并表明我们的方法在竞争性渲染基线上实现了同等或更好的性能,模型大小节省了 70%,FLOP 减少了一个数量级。 我们的方法还在 Argoverse 上实现了最先进的性能。

相关工作

自动驾驶行为预测。 移动代理的行为预测对于自动驾驶应用变得越来越重要 [7, 9, 19],并且高保真地图已被广泛用于提供上下文信息。 例如,IntentNet [5] 提出联合检测车辆并根据 LiDAR 点和渲染的高清地图预测其轨迹。 洪等人。 [15] 假设提供了车辆检测,并通过编码与 ConvNet 的实体交互来关注行为预测。
同样,MultiPath [6] 也使用 ConvNets 作为编码器,但采用预定义的轨迹锚来回归多个可能的未来轨迹。 PRECOG [23] 试图通过基于流的生成模型来捕捉未来的随机性。 与 [6, 15, 23] 类似,我们还假设代理检测由现有的感知算法提供。
然而,与这些方法都使用 ConvNets 来编码渲染的道路地图不同,我们建议直接编码矢量化场景上下文和代理动态。
预测多代理交互。 除了自动驾驶领域之外,人们更感兴趣的是预测交互代理的意图,例如行人 [2、13、24]、人类活动 [28] 或体育运动员 [12、26、32、33]。 特别是,Social LSTM [2] 将单个代理的轨迹建模为单独的 LSTM 网络,并根据代理的空间接近度聚合 LSTM 隐藏状态以模拟它们的交互。
Social GAN [13] 简化了交互模块并提出了一个对抗性判别器来预测不同的未来。
孙等人。 [26] 将图网络 [4] 与变分 RNN [8] 结合起来,对不同的交互进行建模。 社交互动也可以从数据中推断出来:Kipf 等人。 [18] 将这种相互作用视为潜在变量; 图注意力网络 [16, 31] 应用自注意力机制对预定义图中的边进行加权。 我们的方法更进一步,提出了一个统一的分层图网络来联合建模多个代理的交互,以及它们与路线图中实体的交互。
实体集的表示学习。 传统上,机器感知算法一直专注于高维连续信号,例如图像、视频或音频。 一个例外是 3D 感知,其中输入通常采用无序点集的形式,由深度传感器给出。 例如,齐等人。 提出 PointNet 模型 [20] 和 PointNet++ [21] 以在学习的点嵌入上应用置换不变操作(例如最大池化)。 与点集不同,高精地图和智能体轨迹上的实体形成闭合形状或有向,它们也可能与属性信息相关联。 因此,我们建议通过向量化输入来保留这些信息,并将属性编码为图中的节点特征。
自监督上下文建模。 最近,NLP 领域的许多工作都以自监督的方式提出了建模语言上下文 [11, 22]。 当转移到下游任务时,他们学习的表示实现了显着的性能提升。 受这些方法的启发,我们为图表示提出了一种辅助损失,它学习从其邻居中预测缺失的节点特征。 目标是激励模型更好地捕捉节点之间的交互。

你可能感兴趣的:(笔记)