作者 | 黄浴,奇点首席科学家兼总裁
来源 | 转载自知乎专栏自动驾驶与视觉感知
导读:近日,吴恩达的 Drive.ai 被苹果收购的消息给了自动驾驶领域一记警钟,但这个领域的进展和成果犹在。本文将介绍一些端到端的自动驾驶研发系统,让读者可以从系统层面对自动驾驶有更加深刻的认识。
虽然不赞成,但有必要列出来这种研究和demo工作。
Nvidia是比较早做端到端控制车辆工作的公司,其方法训练CNN模型完成从单个前向摄像头的图像像素到车辆控制的映射。 其系统自动学习一些处理步骤的内部表示,比如只用转向角作为训练信号去检测道路特征。
下图是其CNN模型训练的流程图,采用BP算法。而下下图是模型推理的框图,这时候只用一个中间的摄像头。
下图给出其数据收集系统的框架,包括3个摄像头(左,右,中)输入,输出控制方向盘。
PilotNet如图CNN模型架构细节,有2700万个连结,25万个参数。
驾驶仿真器
可以看出,这个模型不学习速度调整模型,如自适应巡航控制(ACC)那样。当年,该系统曾在旧金山的著名观景九曲花街做过演示,的确不需要控制速度,但是障碍物造成刹车也会造成人为接管。
Comma.ai作为向特斯拉和Mobileye的视觉方法挑战的黑客,的确在端到端的自动驾驶开发是最早的探索者。
其思想就是克隆驾驶员的驾驶行为,并模拟今后道路的操作规划。采用的深度学习模型是基于GAN (generative adversarial networks)框架下的VAE(variational autoencoders)。利用一个行动(action)条件RNN模型通过15帧的视频数据来学习一个过渡模型(transition model)。下图给出了这个模拟器模型的架构,其中基于RNN的过渡模型和GAN结合在一起。
曾经在网上销售其系统:
该方法没有考虑感知模块的单独训练,安全性较差,比如缺乏障碍物检测,车道线检测,红绿灯检测等等。
目的是学习一种通用的车辆运动模型,而这个端到端的训练架构学会从单目相机数据预测今后车辆运动的分布。如图应用一个FCN-LSTM 结构做到这种运动轨迹预测。
这种通用模型,输入像素,还有车辆的历史状态和当今状态,预测未来运动的似然函数,其定义为一组车辆动作或者运动粒度(离散和连续)。图将这种方法和其他两个做比较: “中介感知(Mediated Perception)“ 方法依赖于语义类别标签;“运动反射(Motion Reflex)” 方法完全基于像素直接学习表示; 而 FCN-LSTM ,称为“特权训练(Privileged Training)“ 方法,仍然从像素学习,但允许基于语义分割的附加训练。
基于逆向强化学习的人类自主驾驶开放框架
提出条件模拟学习(Condition imitation learning),有以下特点:
训练时候,输入的不仅是感知和控制,还有专家的意图。
测试时候,直接输入命令,解决了感知电机(perceptuomotor)的多义性(ambiguity),同时可以直接被乘客或者拓扑规划器控制,就像驾驶员的一步一步操作。
无需规划,只需考虑驾驶的表达问题。
复杂环境下的视觉导航成为可能。
下面是实现条件模拟学习的两个NN架构:
第一个:命令输入。命令和图像等测试数据一起作为输入,可以用指向任务的向量取代命令构成任务条件的模拟学习。
第二个:分支。命令作为一个开关在专用的子模块之间的切换。
物理系统:
虚拟和实际环境:
自动驾驶的失败预测
这个方法是通过真实驾驶数据开发一个基于摄像头的驾驶模型,模型预测和真实操作之间的误差就称为错误度。 这样就定义了“场景可驾驶度(Scene Drivability),其量化的分数即安全和危险(Safe and Hazardous),图给出整个架构图。
图是失败预测模型训练和测试的流程图。预测失败其实是对驾驶模型的考
验,能及时发现不安全的因素。
结果如下
这是一个机器学习方法,通过集成激光雷达点云,GPS-IMU数据和Google地图导航信息而产生驾驶通路。还有一个FCN模型一起学习从真实世界的驾驶序列得到感知和驾驶通路。产生与车辆控制相接近并可理解的输出,有助于填补低层的景物分解和端到端“行为反射”方法之间的间距。图给出其输入-输出的张量信号,如速度,角速度,意图,反射图等等。
下面图每列中,顶图是过去/今后(红/蓝)通路预测,底图是驾驶意图近域(左)和驾驶意图方向(右)。A列是驾驶意图(右转)和直路无出口的分歧,B–D列是存在多个可能方向 。
Note:driving intention proximity (left),driving
intention direction (right).
上图是FCN模型参数。
LiDAR视频驾驶数据集:有效学习驾驶政策
如图是其系统框图,其中深度学习模型是DNN加LSTM,激光雷达点云通过PointNet提取特征送入深度学习模型。
如图给出传感器数据在进入NN模型之前的预处理流水线框图,需要时间同步,空间对齐。
下面图是深度学习模型DNN和DNN+LSTM的架构图
使用环视摄像机和路线规划器进行驾驶模型的端到端学习
实验中,与采用单前向摄像头训练的模型还有人工操作比较(蓝/黄/红),如图所示:其中(1)-(3)对应三种不同的模型训练结果,即(1)只用TomTom路径规划器训练,(2)只用环视视觉系统训练, (3)用环视视觉和TomTom路径规划器一起训练。
深度学习的模型架构,包括路径规划器和环视系统5个输入通道,输出到方向
盘和加速踏板。
下面结果是左右拐弯时候的三种方法比较:人,前向摄像头和环视视觉加TomTom导航仪。
目前,该还没有加入目标检测和跟踪的模块(当然还有红绿灯识别,车道线检测之类的附加模块),但附加的这些模型能够改进整个系统的性能。
佐治亚理工学院端到端学习自动驾驶
下面是DNN 控制策略:
TRI自动驾驶端到端控制
提出新的VAE架构,如下图,做端到端控制: 编码器卷积层之后的图像特征,进入一个监督学习方向盘控制的潜在变量(latent variables )的可变空间。最后潜在向量进入解码器自监督学习重建原始图像。
特斯拉的2.0软件思想,2018年8月提出。
自动雨刷:
(*本文为 AI科技大本营转载文章,转载请微信联系原作者)
◆
精彩推荐
◆
推荐阅读