论文列表来源:https://zhuanlan.zhihu.com/p/382419598
NOTES:在自动驾驶研发过程中,大量的测试不可避免;然而,昂贵的实车测试使得许多的研究人员纷纷关注于仿真测试。传统的仿真测试的基本思路是依据真实数据和人工规则来生成,但是工作量巨大而难以成规模,依赖于机器学习方法的场景生成称为研究热门。场景生成的要点仍是基于真实数据的挖掘,提取出交通参与者的特征,然后采用机器学习方法(概率模型、NN模型等)来自动生成交通要素,其中重要的环节还在于使用有效的评估手段来判定生成内容的有效性和合理性
ego-vehicle:自主车辆
SDV:Self-driving Vehicle,自动驾驶车辆
HD Map:High definition Map,高精地图/高清地图
Traffic sumulation:交通仿真,微观交通流、密度、速度,采用跟车模型,SUMO、CORSIM、VISSIM、MITSIM,仿真模型简单,难以满足要求
仿真交通场景构建可以用来提高和验证自动驾驶车辆的安全和性能(依赖HD Map)
模拟Lidar:扫描真实场景+动态物体添加+合成生成模拟点云
procedural models by inserting rules:“pedestrians should stay on
the sidewalk”(行人走人行道) or “vehicles should drive along lane centerlines”(车辆沿着中心线行驶), …
procedural models(程序式模型)采用规则来生成交通场景,需要大量人为参数的手动调整,而生成的场景与现实仍然存在content gap
基于机器学习的参数自动调整来生成交通场景:Factor graph
scene distributions(2015)、Bayesian networks(2019)、 neural network(2019)、Unsupervised learning(2020)…
仍然离不开先验知识,难以模拟复杂和多样化的现实交通场景
neural autoregressive model:神经自回归模型,采用因式分解将复杂的联合分布转化为多个简单的条件分布的乘积
SceneGen—a traffic scene generation model that eschews the need for hand-crafted rules and heuristics (避免手工规则和启发式算法)
deep generative modeling:深度生成模型,估计各种数据分布
根据SDV当前状态和周围区域的HD Map
SceneGen与传感器模拟进行耦合,生成现实标签数据
输入是车辆状态和HD Map,根据概率模型生成周围交通参与者,包括8个维度信息:类型c(车辆、行人、自行车),二维loc的x和y,边界大小box的w和l,方向角θ,速度vx和vy
生成模型是依次串联生成,后生成的actors依赖于前面生成的actors
模型结构使用RNN(Recurrent neural network),ConvLSTM architecture是LSTM的扩展,两层ConvLSTM和5层的CNN
sampling,采样避免交通场景退化,同时拒绝出现collide的actors
training, 最大化生成概率模型
实验:选用Argoverse和ATG4D数据集
ATG4D: ATG4D [54] is a large-scale dataset collected by a fleet of SDVs in cities across North America. It consists of 5500 25-seconds logs which we split into a training set of 5000 and an evaluation set of 500. Each log is subsampled at 10Hz to yield 250 traffic scenes, and each scene is annotated with bounding boxes for vehicles, pedestrians, and bicyclists. Each log also provides HD maps that encode lane boundaries, drivable areas, and crosswalks as polygons, and lane centerlines as polylines. Each lane segment is annotated with attributes such as its type (car vs. bike), turn direction, boundary colors, and traffic light state.
Argoverse: Argoverse consists of two datasets collected by a fleet of SDVs in Pittsburgh and Miami. We use the Argoverse 3D Tracking dataset which contains track annotations for 65 training logs and 24 validation logs. Each log is subsampled at 10Hz to yield 13,122 training scenes and 5015 validation scenes. As in ATG4D, Argoverse provides
HD maps annotated with drivable areas and lane segment centerlines and their attributes; e.g., turn direction. However, Argoverse does not provide crosswalk polygons, lane types, lane boundary colors, and traffic lights.
baseline包括 probabilistic scene grammars and graphs,MetaSim
Metrics: the negative loglikelihood(NLL)、maximum mean discrepancy (MMD)
真实场景比较:Real Scenes is simulated LiDAR from ground truth placements
额外信息:交通场景是80m×80m,mixture components的数量是10,Adam optimizer,学习率是1e−4,batch size是16,重复采样10次保证样本具有最大概率
相关工作:场景布局估计、3D目标检测、车辆行为预测、车道检测等
HD Map的重建需要预估道路布局和车辆占用情况
HD map重建十分关键,基于Lidar的方法费钱费时,基于视频的方法需要道路分割时视图转换容易失真和内容缺失
BEV:Bird’s-eye view,鸟瞰图,根据透视原理,用高视点透视法从高处某一点俯视地面起伏绘制成的立体图。简单地说,就是在空中俯视某一地区所看到的图像,比平面图更有真实感。
传统做法是进行透视变换、坐标转换
深度学习方法可以采样深度CNN来推断不可见的区域
输入是单目前视图,需要进行分割和映射
GAN-based 框架估计道路布局和车辆占用
cross-view transformation在生成网络中发挥作用,包括Cycled View Projection (CVP)模块来关联表示域之间的视图特征,Cross-View Transformer (CVT)处理映射后的特征
辨识SDV系统的失效场景十分关键
依靠穷尽搜索所有可能性场景来辨识的方法是需要大量计算,不太现实
场景变量包含车道拓扑、参与者配置、轨迹、速度、背景等组成要素
传统做法是依赖人工的半自动化场景生成,包含1到2个与SDV交互的actor,往往不涉及并道和左转
依赖人工费时费钱,难以规模化
传统方法根据真实actors来考虑运动规划,而实际上很多对抗场景涉及的actors的位置和轨迹是难以确定和预估的
采用基于图像方法来实现end-to-end自动系统,其生成的对抗场景往往是小规模且简化的,无法精细控制轨迹
Self-Driving System: ALVINN、scalable learning methods、interpretable neural motion planners
Safety-Critical Scenario Generation:场景参数优化、搜索算法来辨识参数、评估方法来设置参数
Physically Realizable Adversarial Examples: image space、color distortion、
基于真实交通场景数据集来优化actor轨迹
基于扰动来调整轨迹
采用高可靠性的LiDAR模拟器调整传感器数据
优化轨迹并评估对抗场景有效性
黑箱模型
超过4000对抗场景
操作过程是:1. 在真实场景中扰动actors轨迹;2. 生成LiDAR点云数据反映位置;3. 规划SDV运动路径;4. 基于对抗目标评估输出路径,并调整场景扰动
HD Map是关于物理道路的高精度表述的电子地图,通常达到厘米级,包括丰富的交通规则标识信息,例如单行路、停车标示等
HD Map对于自动驾驶系统的运动估计和规划十分重要
HD Map通常需要严格的映射流程,包括:首先,由装有地图传感器组件(LiDAR、Radar、camera)的车队采集场景,其次,传感器数据经过处理和拼接得到地图图像,最后,由专家对地图上的交通标识信息进行标注
data-driven的方法来生成HD map的动机:一是现实世界采集很昂贵,二是现有的地图的数量太少影响规模化仿真
传统方法是procedural modeling methods,包括L-system,需要人工生成规则
最近,深度学习方法应用于地图重建和编码,包括VectorNet和LaneGCN
GRNN:图循环神经网络
GraphGAN:图生成对抗网络
VGAE:变分图自编码器
GRAN:图循环attention网络
基于数据驱动的方法生成HD map是一种全新的重要的、又具有挑战性的问题
针对当下自回归生成模型进行系统性探索,并提出HDMapGen,这是一种层次图生成模型
采用公共的Argoverse数据集和内部数据集,覆盖Miami、Pittsburg、San Francisco等城市,结果证明模型生成的地图高保真、多样性、可扩展性、有效
HDMapGen包含两个级别的层次图生成模型,global graph 生成过程输出拓扑结构,包含邻接矩阵和由点坐标表示的几何特征,local graph则输出两个连接点之间的路段信息
未来轨迹预测是自动驾驶车辆安全运行的核心挑战,需要能够实现与其他agents(行人、车辆、自行车)的交互
多传感器数据为车辆运动规划提供了帮助
过去的做法是通过简单地融合从不同传感器提取的数据表示,使得计算量大,且存在数据不兼容的失效风险
相关工作包括:Pedestrian Trajectory Prediction、Vehicle Trajectory Prediction in Top-down View、Vehicle Trajectory Prediction in Frontal View、Multi-Modal Learning
方法框架包括:
(1)训练阶段,将从单个传感器数据编码的多个特征表示嵌入到单个共享的潜在空间中,然后联合优化目标函数
(2)测试阶段,只选用单一数据作为输入,输出是采用潜在空间表示的未来轨迹
该工作首次采用多源数据输入到单一框架来做轨迹预测
核心工作包括:
(1)利用Kullback-Leibler散度从数学上推导了共享交叉模嵌入的目标,即利用多输入源联合逼近实分布
(2)基于推导实现了共享跨模态嵌入,以受益于使用多个输入模态,同时保持与使用单个模态相同的计算时间
(3)正则化器设计用于未来预测,以减轻VAE的后塌陷,并预测更多不同的运动模式
first-person view monocular
methods:车载单目相机
static or a bird-eye view camera setup:静态或鸟瞰图设置,对于动态场景不适用
过去做法:LSTM,比较复杂
Monocular Depth:单眼深度
Trajectory Prediction from Static Camera:静态相机的轨迹预测,Social LSTM或GANs
Trajectory Prediction from On-board Camera:车载相机的轨迹预测,CNN、RNN
step 1
区分两种运动:真实的行人运动和自主车辆的运动
车辆运动会使得车载相机照片整体运动,而行人运动只会影响一小部分区域
采用自我监督训练范式,训练出自主车辆运动预测网络
step2
采用简单的线性模型来处理行人视角的标准化问题
by 西交大
由于行人间复杂交互,行人轨迹预测十分具有挑战,包括行人运动互相干扰、熟人结伴行为、不同人的社交动作
related work:
weighting-by-distance method、attention-based method
采用dense 交互模型来表示复杂交互行为,假设每个行人都会对所有行人产生影响
Pedestrian Trajectory Prediction:Social-LSTM、Social-GAN
Graph Convolution Networks.
Self-Attention Mechanism
结合了稀疏定向交互和运动趋势预测
采用Sparse Graph Convolution
Network (SGCN)模型
由稀疏定向空间图和稀疏定向时间图联合
采用self-attention机制来学习非对称密集和定向交互
生成模型广泛用于捕捉轨迹预测问题的不确定性但存在模式崩溃问题,降低其对于自动驾驶汽车的安全性
多选择学习目标,类似于WTA,但网络初始化不稳定
Multi-Choice Learning
Forecasting Methods
Representation
Trajectory Prediction
采用DAC方法为WTA目标提供好的初始化,捕捉数据分布
提出轨迹预测框架,采用车道中心线作为anchor,提供带有强烈语义耦合的context-aware输出
在Nuscenes urban
driving benchmark验证结果
高精地图有用丰富的语义和几何信息,这对于自动驾驶系统十分重要,但是规模化的高精地图构建十分困难,原因在于耗资巨大,且本地化系统的厘米级精度要求很高
如果没有高精地图也能保证有效驾驶,那么自动驾驶系统的抗失效能力也会提升
大量的无地图方法都是关注于模仿熟练驾驶人的驾驶行为,而缺乏可以帮助SDV的关于驾驶环境中agents的中间可解释表示,然而可解释性是保障驾驶安全的重要因素
另外有些研究只根据在线地图来进行驾驶决策,往往无法适应于实时道路条件和路况
related work:
online mapping:卫星图片或以往行驶过该路段的车辆采集的数据,最近所研究的还有在线预测地图元素
这些方式不能对不确定信息进行准确判断
perception and prediction:对驾驶场景中的agents的当前和未来状态进行预测,但受限于传感器的精度影响
motion planning:采用deep learning,基于传感器数据进行路线 规划,很多方法离不开高精地图数据
研究Mapless self-driving(无高精地图下的自动驾驶)策略
提出端到端的方法解决无地图驾驶,方法是可解释性的,不会由信息丢失,并关注于过程不确定性
采用概率空间层来建模静态和动态环境因素
静态环境可以从在线地图获得,明确那些区域可以行驶,以及得到交通规则
动态因素是包括agents的占用和速度
基于这些信息表示进行运动规划,确认路线
点云数据进行8叉树分割处理,输入到骨干网,用于场景表示,与online map结果表示静态信息,并感知和预测动态信息,静态信息和high level goal结合进行路径规划,规划结果与动态信息、检索轨迹结合进行最终判定
纯图像和纯LiDAR的方法在end-to-end dring中取得了令人印象深刻的结果,但这些工作都是关注于优先的动态agents,并做理想化假设
CARLA给出adversarial scenarios,存在车辆闯红灯、无控制的四路交叉口、行人紧急穿越马路,纯图像方法效果不好,因为缺乏场景的3D信息;纯LiDAR虽然有3D信息,但是不能检测交通灯
related work:
2D和3D目标检测、运动预测、深度估计,都是关注于捕捉3D场景的几何和语义信息
在图像空间和不同的LiDAR映射空间实现几何特征映射,如BEV(鸟瞰视图)和RV(范围视图)
Multi-Modal Autonomous Driving
Sensor Fusion Methods for Object Detection and Motion
Forecasting
Attention for Autonomous Driving
采用transformer的attention机制来整合3D场景的全局感知信息,得到不同模态的特征提取层
使用单目图像和LiDAR输入,进行互补,关注于不同模态的整合表示
TransFuser,用到自回归预测框架
论文贡献:
(1)模仿学习策略,基于现有的传感器融合方法,可以处理对抗场景
(2)提出多模态融合的TransFormer(TransFuser)来整合3D场景的全局信息,得到不同模态的特征提取层
(3)在CARLA的对抗场景进行测试
当前自动驾驶系统极度依赖采集得到的大量数据,然后使用机器学习算法进行模仿
Imitation Learning for Autonomous Driving
Intermediate Representations for Autonomous Driving
Observational and Third-Person Imitation Learning
(1)LbW,新范式,可以促进自动驾驶的发展,从而帮助现实世界的布置
(2)两阶段行为,通过推断周围车辆的状态和动作,而不是直接得到观察数据
(3)通过CARLA验证
相机仿真是无人车系统中一个非常重要的任务:
用来测试感知模块,比如构建一些在真实世界很难遇到或者很危险的场景。
用来生成训练数据,减少人工标注的需求。
仿真系统的主要挑战在于:
仿真的结果必须足够真实,不能和真实世界差距过大(Realism Gap), 否则难以用于production 。
方法需可扩展(scalable),不需要较多的人工操作就能自动扩展到成千上万的场景。
关于图像仿真的相关工作可以分成两大类,二者有很大的互补性:
图形学(Graphics)的方法: 代表是CARLA Simulator, 优点在于可以3D控制,技术比较成熟。缺点在于它需要较多的人工操作,比如设计各种asset,而且生成的效果不够真实。
神经网络的方法:代表是Nvidia的如Pix2pix/SPADE等。这种方法属于数据驱动(data-driven), 只要数据足够多,就能够生成足够多样的结果,不需要太多的人工。但是这种方法难以进行3D控制,所以没法直接用于仿真系统。
GeoSim结合了图形学和神经网络,取长补短。GeoSim的任务设定是:给定一个视频/图片,往里面插入新的汽车。这虽然不如360度自由视角仿真那么灵活,但是已能为自动驾驶的仿真系统提供足够大的帮助,因为自动驾驶仿真系统中最关心的就是可移动物体(dynamic objects/agents)。
GeoSim的方法分为两部分:
物体重建:首先利用无人车采集的数据重建出大量的3D Asset。
仿真:在仿真的时候,将重建的3D Asset插入到输入的视频中。
3D重建的目的是利用无人车采集的数据(多目相机图片, 激光雷达点云),重建出3D 物体。相比于利用仿真/人造数据集的方法,使用真实数据进行3D重建(3D reconstruction in-the-wild)的主要难点在于:
缺少3D的GroundTruth/label
真实世界的数据比较复杂,sparse, partial-observation, noisy
场景生成+渲染,遮挡与阴影+合成
参考自:知乎文章[CVPR2021 Best Paper Candidate] GeoSim: Camera Simulation