【论文阅读】Planning-oriented Autonomous Driving

当前的自动驾驶系统是按照顺序的模块组织的,这可能造成误差积累问题,有必要对规划的框架优化,使得感知和预测模块都有助于规划。作者们提出了一个框架UniAD,由四个基于transformer解码器的模块组成感知和预测部分,最后跟一个规划器。Transformer的query用于连通各个模块,来建模驾驶场景中实体的交互。具体如下:
BEVFormer:输入是多个相机拍摄的图像序列,将其通过BEVFormer的离线BEV编码器,经过特征提取得到BEV特征,这里的BEV编码器并非唯一,也可以由其他BEV选项,比如长时间特征融合模型和多模态模型。
TrackFormer:track query是一个可学习的编码,是从BEV特征得到的agent信息来检测和跟踪目标。作者还设计了一个ego-vehicle query。
MapFormer:map query是道路元素的语义抽象,对地图进行了全景分割。
MotionFormer:有了上面的track query和map query,这个模块捕捉agent和map的交互信息,并且输出每个agent未来的预测轨迹(联合预测)。作者设计的ego-vehicle query,显式建模自车和其他agent的交互。
OccFormer:以BEV特征作为query,以每个agent的信息作为key和value,预测多步场景中agent未来的占用区域。
最后,Planner利用ego-vehicle query得出规划结果,并使自车远离OccFormer预测的占用区域,以避免碰撞。
遇到一个物体,先检测detection query,然后下面的帧中用TrackFormer(N层)跟踪它,track query。随着场景演变,track query与先前帧的信息交互,聚合时间信息,直到跟踪的agent消失在视野里。最后输出agent的有效信息,给下游的预测任务。借助Panoptic SegFormer进行2D全景分割,模型有N层,取最后一层的输出给到MotionFormer。
MotionFormer接收上面两个的输出,预测多模态的轨迹,它由N层组成,每层捕捉三类交互:agent-agent,agent-map,agent-egovehicle。三种交互通过多头跨注意力机制和可变形注意力机制,然后得到的向量Q拼接在一起,给到MLP里,最后得到一个变换后的Qctx。MotionFormer每一层的输入query被称为motion query,由两部分组成,一个是前文说到的上下文query Qctx,一个是位置query Qpos。后者又四部分组成,一是场景级别的anchor,二是agent级别的anchor,三是agent的当前位置,四是预测目标点。位置编码用的是正弦编码,后跟MLP,
非线性优化:先前的工作使用完美感知的结果,这篇文章考虑了感知模块的不确定性,使用非线性平滑器来调节目标轨迹,这里考虑到了运动学参数。
OccFormer:由To个序列块组成,To是预测时域,一般To比T更小,这里的T应该是历史时域。
【未完待更】

你可能感兴趣的:(论文阅读,transformer,人工智能,深度学习)