由Uber高级技术小组与多伦多大学合作完成的End-To-End Interpretable Neural Motion Planner是一篇关于端到端的可解释的神经运动规划器文献,发在CVPR_2019上。论文通过将检测、感知、预测和计划整合到单个神经网络中,该神经网络生成单个模块的输出以及用于计划的成本函数。这些输出可以被检查,从而提高最终驾驶决策的可解释性。
从前文得到的一些关键信息,帮助理解全文:
目前通用技术有两种:mid2mid,end2end;
将 s = s= s={ s 0 , s 1 , . . . , s T − 1 s^0,s^1,...,s^{T-1} s0,s1,...,sT−1} 看作是跨越未来时间步骤 T 上的轨迹, s t s^t st 表示时间步骤 t 式在鸟瞰图(BEV)上的位置。那么最小化轨迹就可以表示成
s ∗ = a r g m i n s ∑ t c t ( s t ) s^*=arg\underset{s}{min} \underset{t}{\sum}c^t(s^t) s∗=argsmint∑ct(st)
c t c^t ct表示在时间t时的学习成本量索引,最小化轨迹通过采样近似得到。
通过卷积网络骨干计算成本量,从原始LiDAR数据和高精地图中提取特征,输入到卷积网络的两个分支中计算和成本量一样输出3D检测和行为预测。
原始点云作为输入,通过顶部的雷达捕获。用连续10个时间步骤来作为预测的观察数据。利用这些扫描图来修正自我运动,将过去10帧的点云带入以SDV为中心的坐标系中。
为了使输入数据适合标准卷积,遵循 Intentnet:Learning to predict intention from raw sensor data 并将空间栅格化为3D占用网格,其中每个体素都有一个二进制值,指示它是否包含一个LiDAR点。 这导致了尺寸为 H ∗ W ∗ ( Z T ′ ) H*W*(ZT') H∗W∗(ZT′) 的三维张量,其中Z、H、W分别表示高度和x-y空间维数。本文沿着Z维串联了时间步骤,从而避免了内存和计算密集型的3D卷积。
加入包含语义信息的HD地图,与Intentnet:Learning to predict intention from raw sensor data类似,对地图进行栅格化,形成M通道张量,其中每个通道代表不同的地图元素。
主干是从 Pixor: Realtime 3d object detection from point clouds 的检测网络改编而来的,由五个块组成。 每个块都有{2,2,3,6,5}Conv2D层,过滤数为{32,64,128。 256,256},过滤器大小3x3和步长为1。每3层后接一个MaxPool。
在前4个块之后生成多尺度特征映射调整到输入大小的1/4,并将它们连接在一起,以增加有效的接收场[。 这些多尺度特征然后被输入到第五块。 整个骨干下采样率为4。
感知头有两个组成的卷积层,一个用于分类,一个用于回归。 为了减少回归目标的方差,在每个特征映射位置使用多个预处理锚盒 a i , j a a_{i,j}^{a} ai,ja,其中下标i,j表示特征映射上的位置,k索引在锚上。 总共有12个锚在每个位置,有不同的大小,纵横比和方向。
分类分支为每个锚输出一个分数 P i , j k P_{i,j}^{k} Pi,jk,指示车辆在每个锚的位置的概率。回归分支还在不同的时间步骤为每个锚 a i , j a a_{i,j}^{a} ai,ja输出回归目标。 这包括定位偏移 l x t l_{x}^{t} lxt, l y t l_{y}^{t} lyt,大小 s w t s_{w}^{t} swt, l h t l_{h}^{t} lht和航向角 a s i n t a_{sin}^{t} asint, a c o s t a_{cos}^{t} acost。 上标t代表时间框架,从0(现在)到T-1到未来。 回归是在每个时间步长进行的,从而产生每个车辆的运动预测。
由几个卷积层和反卷积层组成。 为了在鸟瞰(BEV)输入相同的分辨率下产生成本体积c,在骨干网络输出上应用了两个反卷积层,滤波器数字为{128,64},滤波器大小3x3和步长为2。每个反卷积层后面有一个卷积层,滤波器数{128,64},滤波器大小3x3和步长1。 然后应用最后的卷积层与滤波器数T,作为规划视界。 每个过滤器为未来的时间步骤t生成一个成本卷 c t c^t ct。
在实验中,还在网络之后剪辑成本体积值在-1000到1000之间。 应用这样的边界可以防止成本值任意移动,并使调优超参数更容易。
通过给定输入LiDAR扫描和HD图,可以通过前馈卷积运算计算相应的成本体积c。 最后的轨迹可以通过最小化方程来计算。 但请注意,此优化是NP-hard。 因此,依靠抽样来获得低成本的轨迹。 为了实现这一目标,需要采样了各种各样的轨迹,这些轨迹可以由SDV执行,并根据学习的成本量以最小的成本生产作为最终输出。 在本节中描述了在推理过程中如何有效地采样物理上可能的轨迹。 由于轨迹的成本是通过从成本体积进行索引来计算的,所以规划器足够快,可以进行实时推理。
轨迹可以通过空间路径(二维平面上的曲线)和速度剖面(沿着这条路径走多快)的组合来定义。 将轨迹采样为(x,y)∈ R 2 R^2 R2空间中的一组点并不是一个好的方案,因为车辆不能在笛卡尔空间中执行所有可能的一组点。为了考虑这些现实世界的约束,强制车辆应该遵循一个动力学模型。
本文采用自行车模型。 该模型意味着车辆路径的曲率κ与转向角φ(前轮与车辆之间的角度)近似成正比: κ = 2 t a n ( φ ) / L ≈ 2 φ / L κ=2tan(φ)/L≈2φ/L κ=2tan(φ)/L≈2φ/L,其中L是SDV前后轴之间的距离。 这是一个很好的近似,因为φ通常是小的。
然后利用一条布状曲线,也称为欧拉螺旋或康努螺旋,来表示SDV的二维路径。 这条曲线上的一个点的曲率κ与其距离成正比ξ仅与基准点的曲线成正比,即 κ ( ξ ) = π ξ κ(ξ)=πξ κ(ξ)=πξ。 考虑到自行车模型,这种线性曲率特性对应于恒角速度的前轮角度。 布类的规范形式可以定义为
s ( ξ ) = s 0 + a [ C ( ξ a ) T 0 + S ( ξ a ) N 0 ] s(ξ)=s_0+a[C(\frac{ξ}{a})T_0+S(\frac{ξ}{a})N_0] s(ξ)=s0+a[C(aξ)T0+S(aξ)N0]
S ( ξ ) = ∫ 0 ξ s i n ( π u 2 2 ) d u S(ξ)=\int_{0}^{ξ}sin(\frac{πu^2}{2})du S(ξ)=∫0ξsin(2πu2)du
C ( ξ ) = ∫ 0 ξ c o s ( π u 2 2 ) d u C(ξ)=\int_{0}^{ξ}cos(\frac{πu^2}{2})du C(ξ)=∫0ξcos(2πu2)du
这里, s ( ξ ) s(ξ) s(ξ)定义了二维平面上的布样曲线,indexed by 距离 ξ ξ ξ 参考 点 s 0 s_0 s0,a是标度因子, T 0 T_0 T0和 N 0 N_0 N0是该曲线在 s 0 s_0 s0点的切线和法向量。 S ( ξ ) S(ξ) S(ξ)和 C ( ξ ) C(ξ) C(ξ)被称为菲涅耳积分,可以有效地计算。 为了充分定义轨迹,还需要一个纵向速度 ξ ˙ \dot{ξ} ξ˙(速度剖面),它指定SDV沿着路径 s ( ξ ) : ξ ˙ ( t ) = ξ ¨ t + ξ ˙ 0 s(ξ):\dot{ξ}(t)=\ddot{ξ}t+\dot{ξ}_0 s(ξ):ξ˙(t)=ξ¨t+ξ˙0 的运动,其中 ξ ˙ 0 \dot{ξ}_0 ξ˙0是SDV的初始速度, ξ ¨ \ddot{ξ} ξ¨是恒定的前向加速度。
利用布类曲线,采样路径对应于 s ( ξ ) s(ξ) s(ξ)中的缩放因子a。 考虑到城市行驶速度限制为15m/s,本文在6到80m的范围内均匀地采样a。 一旦a被采样,曲线的形状是固定的。 然后利用初始SDV的转向角(曲率)在曲线上找到相应的位置。
类布曲线不能很好地处理圆和直线轨迹,因此需要分别对它们进行采样。 使用直线、圆和布样曲线的概率分别为0.5、0.25、0.25。
此外只使用一个布类段来指定SDV的路径。 还对恒定加速度 ξ ¨ \ddot{ξ} ξ¨从 − 5 m / s 2 -5m/s^2 −5m/s2到 5 m / s 2 5m/s^2 5m/s2进行了采样,这指定了SDV的速度剖面。 结合采样曲线和速度剖面,可以将轨迹投影到离散的时间步长,并获得相应的路径点,以评估学习成本。
P.S. 对一个二进制随机变量进行了采样,表明它是一个典型的布类或垂直翻转的镜像。 它们分别对应于左转或右转。
最终目标是在遵循交通规则的同时规划一个安全的轨迹。 我们希望模型了解障碍在哪里,以及它们将来在哪里,以避免碰撞。 因此,我们使用多任务有监督训练,保持检测和运动预测与汽车的人工轨迹一致,但是没有监督成本量。 因此采用 max-margin loss来推动网络学会区分好轨迹和坏轨迹。 则总体损失函数为:
L = L p e r c e p t i o n + β L p l a n n i n g L=L_{perception}+\beta{}L_{planning} L=Lperception+βLplanning
这种多任务损失不仅指导网络提取有用的特征,而且使网络输出可解释的结果。 这对于自动驾驶至关重要,因为它有助于理解故障案例并改进系统。 在下面将更详细地描述每一个损失。
perception loss 包括classification loss,用于区分车辆与背景,以及regression loss,用于生成精确的对象包围框。 对于每个预定义的锚框,网络输出一个分类分数以及几个回归目标。 这个分类评分 P i , j k P_{i,j}^{k} Pi,jk表示在这个锚处存在车辆的概率。 对于定义为的分类,使用交叉熵损失表示
L c l a = ∑ i , j , k ( q i , j k l o g p i , j k + ( 1 − q i , j k ) l o g ( 1 − p i , j k ) ) L_{cla}=\sum_{i,j,k}(q_{i,j}^{k}logp_{i,j}^{k}+(1-q_{i,j}^{k})log(1-p_{i,j}^{k})) Lcla=i,j,k∑(qi,jklogpi,jk+(1−qi,jk)log(1−pi,jk))
其中 q i , j k q_{i,j}^{k} qi,jk是此锚的类标签(即 q i , j k q_{i,j}^{k} qi,jk=1用于车辆,0用于背景)。 回归输出包括每个时间帧t的位置、形状和航向角的信息,即
其中上标a表示锚,l表示标签。 在所有这些输出上使用加权平滑L1 loss。 整体感知损失为
L p e r c e p t i o n = ∑ ( L c l a + α ∑ t = 0 T L r e g t ) L_{perception}=\sum(L_{cla}+\alpha\sum_{t=0}^{T}L_{reg}^{t}) Lperception=∑(Lcla+αt=0∑TLregt)
回归损失是在所有车辆相关锚上求和的,从当前帧到预测视界T。因此,它训练模型预测车辆在每个帧的位置。
为了找到每个锚的训练标签,将其与相邻的ground truth包围框相关联。 对于每个锚,我们发现所有的ground truth box的intersection over union(IoU)高于0.4。
将其中最高的一个关联到这个锚,并相应地计算类标签和回归目标。 将任何未分配的ground-truth box与它们最近的邻居联系起来。 剩下的锚作为背景处理,在回归损失中不考虑。
一个ground-truth box可能与多个锚关联,但一个锚最多可以与一个ground-truth box关联。 在训练过程中,应用hard negative mining来克服正负样本之间的不平衡。
学习一个合理的成本是具有挑战性的,因为没有ground-truth。 为了克服这一困难,将max-margin loss最小化,其中使用ground-truth轨迹作为正例,并随机采样轨迹作为负例。也就是将ground-truth轨迹看作有最小的成本量。
采样N个负例轨迹,0.8的概率负例将不遵循SDV的初始化状态。这将为模型的初始化提供更容易的负例。 总max-margin loss定义为
L p l a n i n g = ∑ { ( x t , y t ) } ( m a x 1 ⩽ i ⩽ N ( ∑ t = 1 T [ c ^ t − c i t + d i t + γ i t ] + ) ) L_{planing} = \sum_{\{(x^t,y^t)\}}(\underset{1\leqslant i\leqslant N}{max}(\sum_{t=1}^{T}[\hat{c}^t-c_{i}^{t}+d_{i}^{t}+\gamma_{i}^{t}]_{+})) Lplaning={(xt,yt)}∑(1⩽i⩽Nmax(t=1∑T[c^t−cit+dit+γit]+))
最里面的求和是根据每次时间步骤ground-truth和负例采样间的距离和。 [ ] + []_+ []+代表的是ReLU函数。 这被设计成在求和中而不是在外部,因为它可以防止成本在一次步骤中控制整个损失。 d i t d_{i}^{t} dit是负轨迹与ground-truth轨迹的第二范式距离 ∣ ∣ ( x t , y t ) − ( x i t , y i t ) ∣ ∣ 2 ||(x_t,y_t)-(x_{i}^{t},y_{i}^{t})||_2 ∣∣(xt,yt)−(xit,yit)∣∣2, 它被用来奖励远离ground-truth轨迹的负例轨迹具有更高的成本。
γ i t \gamma_{i}^{t} γit是交通规则违反成本,它是一个常数,当且仅当负轨迹t在时间t时违反交通规则, 这被用来确定负面样本“坏”的程度,因此,它将更严重地惩罚那些违反轨迹的规则,从而避免危险的行为。
在计算地面真相轨迹与每个负样本之间的差异后,只通过最大运算对最坏情况进行优化。 这奖励模型学习一个成本量,它区分好轨迹和坏轨迹。
没什么好说的,没开源,收集的真实数据集。
首先展示了对各种度量碰撞、与人类轨迹相似和交通规则违反的度量的规划的定量分析。 接下来,通过对检测和运动预测的定量分析,以及对所学成本体积的可视化,展示了方法的可解释性。 最后,提供了一个消融研究,以显示不同的损失功能和不同的时间历史长度的影响。
L2 距离真实轨迹:这评估了计划轨迹与实际执行轨迹的距离。 未来潜在碰撞率:这是用来看看计划的轨迹是否会在未来与其他车辆重叠。 对于给定的时间步长t,计算碰撞发生到时间t的百分比,因此较低的数目是首选的。 车道违规:此度量计算计划轨迹跨越实心黄线的百分比。 请注意,较低是更好的。
Ego-motion:Ego-motion提供了一个强有力的线索,说明SDV将如何在未来移动。 这个基线只以SDV的过去位置作为输入,并使用4层MLP来预测未来的位置。
模仿学习(IL):我们遵循模仿学习框架[3,8,24],并利用一个深度网络从原始的LiDAR数据和栅格化地图中提取特征。 为了进行公平的比较,使用相同的主干描述和相同的输入参数化。 此外,使用来自ego-motion预测基线的相同MLP从ego-motion中提取特征。 然后将这两个特征连接起来并输入到3层MLP中,以计算最终的预测。
自适应巡航控制(ACC):这个基线实现了跟随领先车辆的简单行为。 车辆跟随车道中心线,同时自适应地调整其速度,以保持与前方车辆的安全距离。 无铅车时,遵循安全限速。 交通控制(红绿灯,停车标志)被观察为静止障碍物,类似于停止的引路车。
Planw/ Manual Cost (Manual): 该基线使用相同的轨迹参数化和采样过程。 然而,它使用人工设计的成本使用感知和运动预测输出。 这个基线旨在显示学习的成本量的有效性,因为它使用相同的抽样程序,但只是一个不同的成本量。
本文提出了一种神经运动规划器,它学习在遵守交通规则的同时安全驾驶。 我们设计了一个整体模型,该模型采用LiDAR数据和HD地图,并以3D检测及其未来轨迹的形式产生可解释的中间表示,以及一个成本图定义了自动驾驶汽车在规划范围内可以采取的每个位置的优点。 采样一组物理上可能的轨迹,并选择一个最小的学习成本。
我们已经证明了我们的方法在北美几个城市非常复杂的现实世界场景中的有效性,并展示了我们如何学会准确驾驶。(在理论上,并没有实际实验在实车上)
End-to-end Interpretable Neural Motion Planner(Uber)