摘要:快速随机探索树(RRT)及其变体由于能够快速有效地探索状态空间而非常流行。然而,它们对初始解很敏感,收敛到最优解的速度很慢,这意味着它们需要消耗大量内存和时间来找到最优路径。在许多应用中,如功率/燃料有限的自动驾驶汽车,快速找到一条短路径至关重要。为了克服这些局限性,我们提出了一种基于卷积神经网络(CNN)的最优路径规划算法,即神经RRT*(NRRT*)。NRRT*利用CNN模型产生的非均匀采样分布。利用大量成功的路径规划案例对模型进行训练。在本文中,我们使用A*算法生成由地图信息和最优路径组成的训练数据集。对于给定的任务,提出的CNN模型可以预测地图上最优路径的概率分布,用于指导采样过程。选择计划路径的时间成本和内存使用率作为衡量标准,以证明NRRT*的有效性和效率。仿真结果表明,与最先进的路径规划算法相比,NRRT*算法可以获得令人信服的性能。
索引项-卷积神经网络(CNN),最优路径规划,基于采样的路径规划。
机器人路径规划是在多个静止或移动的障碍物之间为某些特定任务规划一条无碰撞路径[1]。许多成熟的算法已经被提出来解决路径规划问题。人工势场(APF)方法[2]利用整个配置空间上的势函数来指导机器人的运动。然而,它往往以局部最小值结束。包括A*[3]和D*[4]在内的基于网格的算法可以保证找到最佳路径(如果存在)。这里,生成的最优路径称为“分辨率最优”,因为不同分辨率下的地图离散将导致不同的最优路径。但它们的时间开销和内存使用量随着映射大小和状态空间的维数呈指数增长。基于抽样的算法,如概率路线图(PRM)[5]和快速随机探索树(RRT)[6],已成为高效解决高维多约束路径规划问题的热门算法。需要注意的是,基于采样的算法只提供了较弱形式的完整性(也称为概率完整性),生成的路径通常是非最优的。决定基于抽样的规划者性能的一个重要因素是抽样分布,因为所有基于抽样的规划者都会迭代构造树,以连接从给定抽样分布中提取的样本。通常,规划者从均匀分布中概率或确定性地抽取随机状态样本。这种抽样策略可以保证概率完备性和渐近最优性[7]。然而,由于环境类型、间隙要求、机器人动力学和其他约束,机器人通常在状态空间的小子集中工作,不需要在状态空间的其他部分绘制状态样本。例如,在障碍物稀少的环境中,将样本偏向目标区域是合理的,因为最终路径将相对笔直。因此,样本在这些有希望的区域中的位置与基于采样的路径规划器的性能密切相关。
在[8]中,Brunner等人提出了A*-RRT*算法,其中A*算法生成的初始路径用于指导RRT*规划器的采样过程。由于A*算法始终提供最佳路径,因此可以显著加快收敛速度。然而,随着搜索过程中使用的映射大小或步长的增加,A*算法在寻找最佳路径时会消耗更多的时间和内存,如图1所示。它影响算法的性能,尤其是在复杂的动态环境中。测试地图如图2(a)所示,地图离散化的分辨率为1。在本文中,这意味着两个状态之间的最小距离为1像素。
为了克服上述局限性,进一步利用A*和RRT*算法,本文通过学习A*算法,提出了一种新的最优路径规划算法。我们通过学习a*算法生成的大量最优路径来训练卷积神经网络(CNN)模型。给定一个新的路径规划问题,我们训练的模型可以快速地提供路径的预测概率分布最佳路径,用于指导RRT*planner的采样过程。在A*算法中,生成的路径与障碍物之间的间隙很小,因此,由于传感器测量或机器人动力学的不确定性,机器人跟踪存在危险[9]。这意味着,如果在路径规划问题中设置不同的间隙值,我们将得到不同的最优路径。此外,当A*算法的搜索过程中步长不同时,对于相同的环境,最终的最优路径也不同。因此,我们在训练过程中考虑了这两个因素,我们的CNN模型捕捉到了差异,因此它可以在不同参数设置的相同环境下输出不同的最优路径概率分布,如图2所示。然后,利用预测的采样分布指导采样过程。神经RRT*(NRRT*)的其他组成部分与RRT*[7]算法类似。
最近,许多研究人员提出了不同的启发式算法来加速RRT算法收敛到最优路径。常用的方法是将离散搜索与基于采样的路径规划器相结合。Bekris和Kavraki[10]利用知情细分树作为启发,指导RRT树的生长。作为两相运动规划器,a*-RRT*算法使用几何上可行的路径来偏置RRT*的采样过程。Rickert等人[11]提出了探索/利用树(EET)算法,以利用工作空间信息来偏向树的生长,但概率完备性无法保证。通过使用任何角度路径偏置,Palmieri等人[12]提出了Thete*-RRT*算法,该算法可以比RRT*和a*-RRT*算法更快地找到更短的路径。然而,当映射大小或状态空间的维数增加时,上述方法变得效率低下。
RRTs算法中还使用了其他好的启发式算法。例如,Qureshi和Ayaz[13]使用势函数作为抽样启发。在[14]中,Wang等人实现了一个二维高斯混合模型,以找到高质量的初始解,并调整RRT算法的采样行为。Yershova等人[15]提出了动态域RRT,它忽略了距离当前树太远的样本。在[16]中,障碍物边界信息用于指导采样过程。Gammell等人[17]提出了知情RRT*(IRRT*),以使用可接受的椭球启发式加速收敛到最优路径。Urmson和Simmons[18]计算一个启发式质量,用于评估通过节点的路径的质量。采样过程将侧重于包含高质量节点的区域。通过限制采样区域,规划者可以避免在这些可能不存在可行路径的区域进行不必要的探索,从而提高性能。在[19]中,使用了广义V-oronoi图和多个势函数来实现有效的路径规划。虽然之前的工作在某些环境中对机器人有效,但事实并非如此一般适用。有时,如果启发式算法不适合相关环境,它会显著增加规划时间。
近年来,强化学习和深度学习方法被广泛应用于抽样规划师中。Baldwin和Newman[20]使用语义信息来学习抽样分布。Zucker等人使用强化学习方法优化离散化工作空间中的采样过程。另一种强化学习技术称为价值迭代网络(VIN),可以有效地在二维迷宫和三维景观中找到接近最优的轨迹。然而,VIN存在训练不稳定性和随机种子敏感性等缺点。Ichter等人[21]提出了一种条件变分自动编码器(CV AE),用于学习机器人运动规划的显式采样分布。在[22]中,Qureshi和Yip提议使用压缩式自动编码器来实现深度知情的神经采样。它们考虑了工作空间编码、初始状态和目标状态,以生成端到端的可行路径。Zhang等人[23]提出了一种基于策略搜索的方法,作为通过拒绝抽样策略学习隐式抽样分布的自适应方法。Li等人[24]利用神经网络预测RRT算法中的成本函数。
与之前的工作不同,我们的方法没有提出人类设计的启发式,也不需要对状态空间进行任何离散化。此外,它还可以学习具有不同属性的最优路径的概率分布,并且可以很容易地与其他基于采样的算法相结合,以进一步提高算法性能。
本文的贡献是:1)提出了一个CNN模型来预测不同参数设置环境下最优路径的概率分布;2)提出了一种新的最优路径规划算法NRRT*;3)证明了NRRT*的概率完备性和渐近最优性。事实上,预测的概率分布有助于路径规划者在当前环境中实现非均匀采样。该方法可以推广到从其他具有不同约束的路径规划器中学习最优路径的概率分布,也可以方便地应用到其他基于采样的算法中。
本文的其余部分组织如下。我们首先在第二节阐述了路径规划问题,然后在第三节解释了所提出的NRRT*算法的细节。第四节报告了仿真结果。最后,我们在第五节得出结论并讨论了未来的工作。
在本节中,我们首先阐述路径规划算法,然后概述RRT*算法。
基本路径规划问题可以定义如下。让X∈ Rn是状态空间。障碍空间与环境自由空间分别表示为xob和Xfree。让xinit作为初始状态,xgoal作为目标状态。通常,目标区域G(xgoal)={x∈ X||十、− 使用xgoal | |
允许成为所有可行路径的集合。通过映射每个可行路径σ,使用成本函数c(σ)→ Xfree为正实数R时,最优路径规划问题定义为
在本文中,两种状态之间的成本函数定义如下:
其中| |·| |是x1和x2之间的欧几里得距离,−→v1是x1处的机器人线速度,a n d−−→x1-x2是从x1到x2的向量。α1和α2分别是平衡欧氏距离和角度差影响的两个参数。所以代价函数c考虑了两个状态之间的欧几里德距离和角度差。对于任意路径σ,较小的c(σ)值意味着机器人从起始位置移动到目标位置所需的时间较少。
通常,基于采样的路径规划器,如RRT和PRM,使用均匀的采样分布从状态空间连续抽取样本xrand,以构造可行路径σ∗ 根据成本函数c(σ)。T h R T算法主要针对单查询应用,而PRM算法主要针对多查询应用。尽管多查询方法在高度结构化的环境中很有价值,但大多数在线规划问题不需要多个查询,因为环境是动态变化的。此外,在某些应用中,计算PRM算法的路线图在计算上很有挑战性。然而,增量基于采样的算法(如RRT)已成为许多应用中流行且有效的方法。
RRT算法由一棵树初始化,树的初始状态为一个顶点,没有边。在每次迭代中,来自均匀采样分布的采样状态xrand尝试连接树中最近的顶点xnearest。如果此连接成功,xrand将通过转向功能调整为xnew。然后,分别将xnew添加到顶点集和(xnearest,xnew)添加到边集。算法将停止,直到树包含目标区域中的状态或迭代次数达到阈值。
与RRT相比,如算法1所示,RRT*有两个额外的过程,在Extend(T,xnew)函数中选择prent和重新布线过程。在ChooseParent过程中,当RRT*尝试将xnew连接到xnearest时,将搜索特定半径内xnew周围的顶点,以确定成本方面的最佳父节点。将xnew连接到树后,RRT*将重新连接相邻顶点,以检查通过xnew的一条路径的成本是否低于当前路径。RRT*的详细信息见[7]。因此,当迭代次数趋于无穷大时,可以保证渐近最优性。但是,要获得最佳解决方案,需要耗费大量时间和内存。在现实世界中,尤其是对于移动机器人或飞行机器人,需要高效地计算高质量的路径。
在本节中,我们首先在第III-A节和第III-B节中描述拟议的CNN模型公式。然后在第III-C节和第III-D节中介绍NRRT*并分析其概率完备性和渐近最优性。
在本节中,我们将介绍我们的模型公式。我们使用二维图像来表示二维状态空间,它被表示为I。二维图像中的每个像素都有一个赋值。0表示空闲空间为空,1表示被障碍物占用。2个标签表示起始位置,3个标签表示目标位置。此外,我们还考虑机器人属性,如C表示的间隙和机器人步长表示为S。
输入I与这些机器人属性C和S一起输入我们的神经网络。我们的神经规划模型输出相应的图像,表示为O。每个像素接收概率ˆp∈ [0,1]表示它将被用于构造最佳路径的可能性。这意味着,如果一个状态的ˆp值很大,最优路径可能会经过这个状态。
我们提出的模型如图3所示。它有一个编码和解码阶段与阿托斯卷积[25]。这种类型的深度卷积网络已广泛应用于计算机视觉和机器学习等人工智能相关领域,并取得了巨大成功。
在编码阶段,将二维剩余卷积网络[26]、[27]应用到输入I中,以分层方式提取输入映射的特征。
以尺寸为(W,H,3)的图像Iuv为例。每个二维卷积层都有自己的小内核Ki j。卷积运算定义如下:
其中I和J是卷积核K的大小。
卷积运算应用于整个图像,卷积运算的输出称为特征映射。特征映射被送入更高的卷积层,以提取另一个特征映射。低层特征映射Fl和高层特征映射Fh分别是低卷积层和高卷积层的卷积结果。低级特征映射编码局部信息,而高级特征映射表示映射的高级描述。
我们采用ResNet50[26]作为网络编码器的主干。我们从低层特征和高层特征中提取特征映射C1和C4。要素图C1的维数为(W/8,H/8,256),要素图C4的维数为(W/32,H/32,2048)。
萎缩卷积是卷积的一般形式,定义如下:
其中r是扩张率。Atrus卷积允许我们显式地控制由深度CNN计算的特征映射的分辨率,并调整内核的视场以捕获多尺度信息。Atrus spatial pyramid pooling(ASPP)[28]模块应用于高层特征,以提取网络中的多尺度信息。最终的特征图Fh的尺寸为(W/32,H/32,256)。
在另一个输入分支上,这些输入机器人属性S和C被输入到完全连接的神经网络中。这些属性的实际输入是浮点数。提取相应的低层和高层特征图,并将其表示为fal和fah。fal的维数为(1,1,32),而fah的维数为(1,1,64)。
地图的特征和这些机器人属性的特征连接在一起,因为我们希望我们的神经网络模型能够根据这些机器人属性调整最佳路径。请注意,同一级别的要素贴图是连接在一起的。F ah沿图像宽度和高度轴重复(W/32)和(H/32)。相应的特征映射为(W/32,H/32,64),并沿三维元素方向连接。低层特征连接遵循相同的原则。级联操作后的低级和高级特征映射分别表示为Fcl和F ch。F cl的维数为(W/8,H/8,256+32),Fch的维数为(W/32,H/32,256+64)。Fch线性调整大小,尺寸为(W/8,h/8,256+64),并与F cl元素连接。最终的编码特征表示为Fe,其尺寸为(W/8,H/8,608)。
在解码阶段,将特征映射F送入解码卷积网络,得到最终输出O。最终输出的维数为(W, H, 1),与输入i具有相同的分辨率。(u, v)处的每个像素都包含一个概率p,表示该像素位于最优路径内的概率。
在我们提出的神经网络中,采用全卷积网络方式[29]处理输入I和输出O。全卷积网络可以处理不同分辨率的输入I。
我们将损失函数定义为预测概率的交叉熵和每像素的地面真值二值标记。交叉熵损失在地图上所有可能的位置之间求和
其中λ是衡量重建损失的参数。O表示预测概率图,G表示地面真实概率图。第IV-A节描述了地面真值G的生成过程。
在NRRT*中,首先使用经过训练的神经网络模型初始化采样过程。该模型为当前地图输出了一个非常清晰的最优路径概率分布。如果我们直接使用这种概率分布,在采样过程中选择状态数量的概率将接近零。那么算法的完备性就很难保证了。为了保持NRRT*以任意高保真度表示环境的能力,从而保持理论完整性保证,我们还从统一采样器中取样。因此,NRRT*中有两个采样器,一个来自神经网络模型的非均匀采样器和一个均匀采样器。我们将均匀样品的分数表示为α,i。EαN样品由均匀取样器和(1)生成− α) N来自非均匀取样器。事实上,如第四节所示,有时预测的概率分布是不连续的。如果我们将α设置为0(即,来自非均匀取样器的所有样本),路径规划器将永远无法找到解决方案。此外,如果我们设置α=1(即来自统一采样器的所有样本),该算法的性能与传统的路径规划器相同。通过大量模拟,我们发现α=0.5在确保环境的全面覆盖和利用学习到的样本区域之间提供了最佳平衡。一般来说,非均匀取样器可以用少量样本快速找到可行的路径。然而,如果需要均匀的采样器,则需要更多的均匀的采样器来有效地填充这些区域。
NRRT*的详细信息如算法2所示。首先,我们初始化一棵树T=(V,E),它由一个顶点集V组成⊂ Xfree与边集E⊆ V×V。然后,根据当前地图和参数设置,NeuralModel(地图,S,C)输出预测的采样分布O。我们发现预测的采样分布O中的状态值是极化的,即,位于预测的最佳路径上的状态值接近1,而其他状态的值接近0。因此,在非均匀采样过程中,当小于0.5I的状态值被拒绝时,实现了一种简单的拒绝采样方法。在整个抽样过程中,随机数Rand()∈ (0,1)用于确定使用哪种采样方法。如果Rand()大于0.5,则使用非均匀取样器。否则,将使用均匀取样器。以下程序类似于RRT的管道*[7]。如果最新样本属于目标区域,即xnew∈ G(xgoal),算法将返回一个由连接xinit和G(xgoal)的可行路径σ组成的t r e t。或者迭代次数达到阈值时,算法将返回FAILURE。
需要注意的是,NRRT*和RRT*之间的区别在于采样技术,它可以很容易地用于其他基于采样的算法中。
在NRRT*中,非均匀采样器以概率1从有希望的区域采样状态− 而均匀采样器从整个状态空间中以概率α采样状态。这意味着当迭代次数趋于无穷大时,状态空间中的每个状态都将被采样。因此,概率完备性自然得到了保证。
在本节中,我们通过几个数值模拟来展示NRRT*的性能和通用性。在第IV-A节中,我们将介绍网络培训的细节。下面,我们将NRRT*与两种最先进的算法,RRT*和IRRT*在不同间隙和不同步长下进行比较。由于地图大小不影响最优路径的分布,因此不提供不同地图大小下的仿真。
采用TensorFlow在NVIDIA Quadro P5000上进行了神经网络实验。对于培训,我们使用Adam优化器[30],其建议的默认参数为β1=0.9 a n dβ2=0.999,批量大小为20对训练。学习率从?=0.0001,在整个实验中是一致的。值得注意的是,无论地图大小、间隙或步长如何,所提出的神经网络只需50 ms即可输出最优路径的预测概率分布。与使用a*算法寻找先验启发式路径相比,它节省了大量时间成本,如图1所示。
为了得到一个合理且通用的数据集,我们首先生成5576个不同的二维随机映射。每张地图的大小为201×201像素。如表一所示,对于每个具有相应参数设置的地图(c1表示间隙为1,s1表示步长为1),我们随机设置了12种不同的开始和目标状态。因此,在训练数据集中有1070592张图像。我们使用A*算法[3]来寻找最佳路径。
最佳路径的宽度为一个像素。为了使学习更容易,我们在每一侧将最优路径加宽一个像素,这意味着最优路径的最终宽度是三个像素。
在本节中,我们测试了三种算法在不同间隙下的路径规划问题上的性能。使用四种间隙(1、2、4、6)。神经网络的步长输入总是2。较大的净空意味着计划路径远离障碍物,而较小的净空意味着计划路径接近障碍物。对于RRT*和IRRT*,间隙是一个预定义的参数。然而,在NRRT*中,神经网络模型根据不同的间隙设置输出相应的采样分布,为非均匀取样器提供数据。
图4(a)-(h)显示了在不同间隙设置下,两种不同地图[图4(a)-(d)适用于地图1,图4(e)-(h)适用于地图2]的预测采样分布图示。红色和绿色矩形分别表示开始和目标状态。品红色表示对应区域具有更高的电势以包含最佳路径,蓝色表示更低的电势。可以看出,最优路径取决于预测的概率分布。因此,使用神经网络的预测作为非均匀取样器,NRRT*可以快速找到初始解并收敛到最优解。然而,值得注意的是,一些预测结果并不完美。例如,在图4(b)和(f)中,最优解不存在的一些区域被视为预测结果的一部分。在图4(c)、(f)和(g)中,预测的采样区域不是连续的。通过一系列的模拟,我们发现这些不完美的预测对性能几乎没有影响算法的一部分。原因是RRTs算法具有探索整个状态空间的能力。例如,在图4(c)中,从开始状态开始,树增长到预测概率分布左侧部分的末端。当从预测概率分布的正确部分对状态进行采样时,树可以逐渐向右生长。当树到达预测概率分布的正确部分时,它可以快速向目标状态生长。这也是我们在路径规划过程中同时使用均匀取样器和非均匀取样器的原因,如第III-C节所述。
此外,我们可以看到,对于不同的间隙设置,预测变化很大,特别是从图4(b)、(c)、(f)和(g)中可以看出。原因是,在不同的间隙设置下,最佳路径实际上会发生变化。当所需的净空变大时,可行路径将远离障碍物,最优路径也随之改变。因此,对不同间隙设置的预测表明,所提出的神经网络能够处理路径规划过程中的间隙要求。
两种不同的图(图1和图2)用于测试RRT*、IRRT*和NRRT*的性能。不同间隙设置下的模拟结果如图5所示。“时间”表示路径规划过程中CPU时间成本和GPU时间成本的总和,因为GPU用于执行CNN。“节点”表示找到最优解时的节点数。节点数表示路径规划过程中的内存使用情况,因为不同的算法在其他地方使用几乎相同的内存使用情况。图5(a)、(b)和(c)、(d)显示了三种算法的性能分别在地图1和地图2中寻找最优路径。首先,NRRT*使用最少的时间成本和节点来找到最佳路径。这意味着与RRT*和IRRT*相比,NRRT*可以节省大量计算资源。表II中提供了统计结果,以显示与RRT*和IRRT*相比的性能改进。其次,NRRT*的时间成本和节点的标准偏差都小得多,这表明NRRT*具有更好的稳定性。第三,随着净空的变化,RRT*和IRRT*需要不同的时间成本和节点来找到最佳路径。但NRRT*中使用的时间成本和节点没有太大变化,这表明NRRT*具有良好的鲁棒性。仿真结果表明,预测的采样分布显著提高了算法性能。事实上,非均匀采样技术对最佳路径有很大的偏差,NRRT*生成的初始路径非常接近最佳路径。表三显示了初始值的长度由三种算法生成的路径。我们可以看到,在不同的间隙设置下,NRRT*总能找到一条良好的初始路径。值得注意的是,在图2中,当间隙设置为4时,算法性能不是很好,因为在预测的最优路径概率分布中有许多不连续的部分。在这种情况下,如果第III-C节中提到的α值增加,性能会更好。因此,衡量预测结果的质量并选择合适的参数仍然是一个有待解决的问题。
简而言之,与RRT*和IRRT*相比,NRRT*实现了更好的性能。原因是NRRT*使用非均匀取样器将样本偏置到预测的采样区域。由神经网络生成的这个区域包含概率较大的最优路径,因此这种有偏采样过程自然会获得更好的结果。
在本节中,我们测试了三种算法在不同步长下对路径规划问题的性能。 使用四种步长(1、2、4、6)。神经网络的间隙输入始终为1。步长是指A*算法中的搜索范围;例如,步长2意味着A*planner将在每个方向上搜索两个网格。A*算法中不同的步长设置会导致不同的最优路径。由于训练数据集中使用的最佳路径来自A*算法,因此NRRT*对步长也很敏感。
图6(a)-(h)显示了在不同步长设置下两个图(图3和图4)的预测采样分布的图示。红色和绿色矩形分别表示开始和目标状态。品红色表示对应区域具有更高的电势以包含最佳路径,蓝色表示更低的电势。再次,我们发现预测区域包含最优路径。注意,图6(a)中的预测与图6(b)-(d)中的预测明显不同。这是因为步长1下的最优路径不同于步长2、4、6下的最优路径,这导致了不同的预测结果。这也是a*算法的一个局限性。如果步长设置为一个较小的值,则与其他路径相比,最终路径不是最优的大步长设置下的最终路径。以下模拟结果也将支持这一观点。但是,如果步长设置为较大的值,则a*算法的时间开销将呈指数增长。但NRRT*总是能快速预测不同步长设置下的采样分布。
不同步长设置下的仿真结果如图7所示。NRRT*-1表示NRRT*使用步长为1的神经网络生成的预测采样分布。对于图6(a)-(d),NRRT*-2、NRRT*-4和NRRT*-6使用更少的时间成本和节点来找到最佳路径,因为生成的初始路径已经非常接近最佳路径。然而,NRRT*-1的预测采样分布不包含最优路径,且非均匀取样器不能对找到最优路径做出很大贡献。这也是使用a*算法寻找启发式路径的一系列算法的最大局限性。较大的步长意味着预处理会消耗大量时间,而较小的步长不能保证获得良好的启发式路径。然而,在NRRT*中,我们可以设置更大的步长,以保证在不增加额外时间成本的情况下获得良好的启发式路径。我们还可以发现IRRT*比RRT*和NRRT*-1在地图3中寻找最优路径的性能更好。这是因为IRRT*使用可接受的椭球启发式来优化初始路径。详情见[17]。对于图6(e)-(h),图7(c)和(d)所示的模拟结果表明,与RRT*和IRRT*相比,NRRT*可以在“陷阱”环境中快速找到最佳路径。
总之,NRRT*在不同的步长设置下再次获得令人信服的性能。
在本文中,我们基于CNN模型和RRT*算法,通过从A*算法中学习大量成功的规划案例,提出了NRRT*来实现路径规划过程中的非均匀采样。为了满足路径规划中的不同约束条件,所设计的CNN模型中同时考虑了间隙和步长。仿真结果表明,与传统算法相比,该算法具有更好的性能。事实上,该算法是一种新的采样技术,可以很容易地应用于其他基于采样的算法,以提高结果。
未来的工作还有很多可能的途径。首先,可以考虑环境的语义信息,以便更好地理解任务规范并与人类交互,这也称为语义感知路径规划[31]。其次,一个具有挑战性的扩展是如何使用原始点云数据直接编码环境。这对于实现实时最优路径规划,同时在实践中满足基诺动力学约束[24]至关重要。此外,一个有趣的话题是利用神经网络模型实现符合社会要求的路径规划[32]。