论文精读VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation

  • 1 基础背景
  • 2 Motivation
  • 3 解决方法
  • 4 具体效果
    • 4.1 评价指标
    • 4.2 结果
    • 5 反思
  • 6 学习

1 基础背景

论文链接:https://arxiv.org/abs/2005.04259
团队:Waymo

2 Motivation

之前的方案中,主要通过BEV获取车路信息,然后用CNN将提取特征,出现了如下问题:
渲染信息丢失(lossy rendering)
计算量过大(computationally intensive);
感受野(receptive fields)有限,干扰很多,学习不好
那么能否直接从结构化的高精地图信息里获取表征(representation)?

3 解决方法

将车辆动态信息和结构化的高精地图信息向量化(vectorized form),通过向量化的信息进行轨迹预测;
提出层级图网络(hierarchical graph network)VectorNet,建模多道路主体之间的交互;
进行节点补全工作(故意遮蔽输入节点,让模型去重建这些特征,以此让模型能够更精准地捕捉交互信息),这样的做法让模型更加强大。mask掉一些特征是为了重构特征,更好获取交互信息。

4 具体效果

4.1 评价指标

ADE 平均位移误差
DE 位移误差

4.2 结果

效果与CNN同等甚至更好;
从模型大小角度,节省70%;
从FLOPs角度,降低了模型所需算力的数量级。

5 反思

1.向量化的时候,选取的特征可以选择更多有用的信息,目前选择的较少(首位信息,类型信息等)。
2.不一定要用全连接,比如车道线和红绿灯没什么关系,拓扑结构可以优化;
2.predction的时候不一定要MLP for simplicity,可以考虑LSTM,因为轨迹点之间都是有关系的,论文里自己也写了可以用其他advanced decoders。

6 学习

特定术语或表达 解释 备注
特征工程 把数据变成可以利用的特征的过程 数据挖掘的难度在于特征工程
log-likelihood log似然
Huber loss 一种loss计算方法 当预测偏差小于δ时,采用平方误差,当预测偏差大于δ,采用线性误差。相比于最小二乘的线性回归,Huber Loss降低了对异常点的惩罚程度,是一种常用的robust regression的损失函数。
消融实验(Ablation study) 对比实验,改变输入或者模型参数等,观察模型性能变化,以验证作用。
CNN中感受野的关键特征 卷积核的大小和特征裁剪策略 卷积核越大,效果越好,但是算力需求增大;特征裁剪越大(a larger crop size),同前效果越好,但是算力需求增大。
图片精度与模型效果 图片精度越大,一般来说模型效果越好。但是并不绝对,因为它会反向导致有效感受野减小。
backbone 主干网络 backbone是用来提取特征的。
注意力机制 找到感兴趣的前景,找到关系更紧密的邻居
embedding 图像变成向量
argoverse数据集 可以用在多种用途的数据集 网站:www.argoverse.org/data.html 论文:Argoverse:3D Tracking and Forecasting with rich maps

你可能感兴趣的:(自动驾驶,大模型)