论文研读——机器人导航深度局部轨迹重规划与控制

论文研读——Deep Local Trajectory Replanning and Control for Robot Navigation

此篇文章为论文的学习笔记,只供学习使用,不作商业用途,侵权删除。并且本人学术功底有限,如有思路不正确的地方欢迎批评指正!

摘要

文中提出了一个结合分层规划机器学习思想的导航系统。该系统使用传统的全局规划器来计算到达目标的最优路径,并使用深度局部轨迹规划器和速度控制器来计算运动命令。系统的后一个组件通过注意机制调整机器人的行为,使其向目标移动,避免障碍,并尊重附近行人的空间。所提出的深度模型的结构和注意机制的使用都使系统的执行具有可解释性。我们的模拟实验表明,提出的架构优于基线,试图将全局计划信息和传感器数据直接映射到速度命令。与手工设计的传统导航系统相比,该方法具有更好的一致性。

1、介绍

机器人在已知环境下的自主导航主要包括两个问题:

  1. 为机器人找到到达目标位置的安全路径,
  2. 在适应环境条件[1]的情况下沿着路径进行导航。

虽然全局规划器可以有效地找到最优的运动路径,但将这些路径转换为机器人指令——这是传统的反应性控制器的工作——可能是具有挑战性的。反应式控制器不仅需要考虑动力学约束,还需要考虑计划的执行和对环境的适应,例如:反应控制经典方法的核心是手工设计的目标函数,该函数必须平衡导航标准以输出运动命令。虽然这些方法在简单的情况下是成功的,但在动态的人类环境中可能很难调优。一个原因是相关的标准,比如社会规范,很难用数学来定义。即使存在模型,在模型参数和最终的导航行为之间也可能出现复杂的交互。有些导航标准有时甚至是矛盾的,例如,在拥挤的环境中达到一个目标而不侵犯个人空间。在这项工作中,本文结合了机器学习和分级规划的思想来改进被动机器人控制。大多数参数是通过模仿学习基于实例导航数据进行优化,假设在机器人操作过程中可以获得定位信息,重点研究将高级规划和学习相结合用于低级运动控制的机制。尽管如此,我们使用学习不仅用于控制机器人速度,还用于预测局部运动计划,该计划指导机器人输出的速度方法。
论文中的工作有以下几个主要贡献。首先,我们介绍了一种结合规划和学习的自主导航系统。该系统的学习组件预测一个局部计划和运动命令。其次,提出了一种多模态数据融合的注意机制。最后,我们在一个仿真平台上进行了控制实验,对所提出的系统进行了评估。

2、相关工作

介绍了基于路径规划、强化学习、模仿学习的导航方法。
作者用到了深度学习参数化运动策略。这种方法允许我们放弃传感器数据的手工设计功能。但是,与大多数这些工作不同的是,我们的目标不是用端到端方式训练的单个函数来解决整个导航问题。相反,我们将规划与深度学习结合起来,用于自主导航。受到IntentionNet的启发,我们使用全局规划器来解决机器人在已知环境中到达预期目的地的大致方向,并使用深度学习进行运动控制。但与之不同的是,(1)我们的方法明确考虑了机器人附近的人的存在,(2)处理原始激光雷达测量而不是RGB图像,(3)通过轨迹表示全局计划,(4)在导航系统的学习组件上加强了额外的结构。我们考虑这些问题的理由如下。首先,直接向我们的导航系统提供人们的运动信息,促进了人类环境中的交互。其次,与使用原始图像相比,为我们的系统提供原始激光雷达测量降低了输入空间的复杂性,并通过模拟方便了系统开发。激光雷达还可以帮助避障,因为它可以直接测量深度,而且通常比相机有更宽的视野。第三,通过轨迹表示全局规划,而不是在地图上绘制它们,甚至进一步降低了输入空间的维数。第四,在导航系统的学习部分增加结构,提供了增加监督和便于解释的机会。我们的方法的目的不是在机器人导航[29]时构建环境地图,而是假设为高层的全局规划提供了地图。

3、方法

文中使用了一种分层的运动方法。我们的特定层次由三个层次组成:全局规划局部规划速度控制。如图1所示,全局规划器将带有静态障碍物(如墙壁)的环境的2D地图、机器人当前位置和目标在地图中的坐标作为输入。基于这些输入,全局规划器在地图中计算出机器人到达期望目标位置的路径。
论文研读——机器人导航深度局部轨迹重规划与控制_第1张图片
局部规划者则关注更短的时间范围:在观察到的环境条件下,机器人以可接受的方式遵循全局规划,应该立即采取哪些导航步骤。这些条件包括动态元素,如人,以及在机器人附近感应到的静态障碍物。最后,速度控制器根据导航计划向机器人发出运动指令。
明确或手动定义适合社交的导航行为是困难的。人的行为是可塑的,社会规范常常在不同的社会环境中发生变化。因此,我们通过模仿学习来模仿适当的行为。作者在这项工作中的主要假设是,可以通过专家演示来了解什么构成了机器人的良好导航模式。
文中将导航方法的局部规划器和速度控制器实现为神经网络,并基于专家运动数据优化它们的参数。虽然也可以将全局规划作为一个可微函数来实现,并以完整的端到端方式对整个系统进行优化,但在这项工作中,文中选择将机器学习与传统规划相结合。这种组合旨在利用两种方法的优点,同时保持系统的实现的实用性。
文中使用规划是因为它在静态环境中计算无障碍路线快速而可靠,文中使用深度网络是因为它们在对原始传感器数据进行推理和对复杂现象(如社会行为)建模方面有很大的能力。注意,我们的分层导航方法的学习组件比之前类似的工作有更多的结构。我们使用可区分的本地规划师为我们系统的学习部分提供额外的监督,并促进其执行。

3.1全局规划:寻找通往目标的路径

作为导航开始的第一步,我们的系统计算一个无碰撞路径,从机器人在初始位置x0到环境静态地图中期望的目标位置g。该路径可由Dijkstra的最短路径算法计算,并保存为导航时的参考。

3.2局部规划:预测导航子目标

让本地规划器的输入为下采样的全局规划G,即激光雷达距离测量值R,这些输入的特征是通过以下方式计算的:全局规划特征雷达特征里程计特征人体轨迹特征融合输入特征

3.3速度控制:预测低级命令

速度控制器提供三个输入:L、激光雷达特征fr和局部规划期间计算的全局规划特征fg。虽然在局部计划的预测适合当前环境条件的情况下,这可能已经足够了,但也可能会出现有问题的情况,例如,由于预测错误使机器人接近碰撞,或由于局部极小值使机器人卡住。在这些情况下,距离信息和全局规划可以帮助机器人避开近距离的障碍物,并朝着目标导航。

3.4学习本地规划器和速度控制器

本地规划者和速度控制器的联合网络可以看作是一种策略,它根据专家的策略将状态映射为动作。状态是由本地规划者的输入组成的,这些动作是由我们的导航系统输出的低级速度命令。

4、实验设置

实验平台:我们使用模拟的JackRabbot 2机器人进行数据收集和评估。机器人是一个差动驱动移动机械手与一个前向2D SICK激光雷达和Occam360度立体相机,以及其他传感器。JackRabbot的软件栈使用机器人操作系统(ROS)
仿真环境:我们使用gazebo模拟器进行实验。为了在模拟机器人上测试导航算法,我们使用了机器人的真实姿态,而不是定位算法,行人相对于机器人的真实运动,而不是它的视觉管道,以及一个模拟的前向激光雷达。这些变化使我们能够系统地研究机器人的行为,而不会因为感知错误而产生潜在的混乱。
数据收集:我们收集了1446个专家运动轨迹的数据集,每个轨迹对应于一个不同的场景,用于机器人的Gazebo。在E1-E4中,机器人通过手柄控制器进行600个场景的遥控操作。其余764条专家运动轨迹是从一组ROS导航堆栈运行中选择的,该导航堆栈在E4中启用了社会成本,因为远程操作非常耗时以及深度学习得益于海量数据。我们尝试了各种方法将远程操作和自动生成数据结合起来,例如迁移学习,但发现将所有这些方法一次性用于训练,总体上可以获得最佳表现。
基线:我们用三个基线比较我们的系统,Nav堆栈;ROS的具有社会成本的分层导航堆栈[68];Dijkstra的全局规划算法以及Elastic Band的局部控制器。
客观的指标:对于给定的一组测试场景,我们考虑以下指标。
——运行时间。所有场景的总运行时间。
——距离。考虑所有情况下机器人所走过的总距离。
——线性速度。考虑到所有情况,机器人报告的平均线速度。
——达到目标(RG)。机器人达到目标场景的百分比。
——故障(F):机器人发生灾难性故障并翻倒的场景的百分比,例如,在碰撞后。
——碰撞或近碰撞©.机器人的激光雷达探测到距离0.3米以下障碍物的事件次数。计数考虑了所有的情况;它不是平均的。
——行人碰撞事故(PC)。机器人与行人相撞事件数(距离小于0.5 m),该数考虑了所有场景。
——侵犯个人空间(PS)。机器人侵犯个人空间且距离人小于1.2 m的事件数。计数考虑所有的情况。
主观指标:我们进行了一项调查,以收集定性的感知导航性能。参与者根据李克特量表的3个5分制对导航行为进行评分:攻击性导航、自然导航和高效导航。
其他细节:当机器人与目标的距离小于0.5 m时,我们认为机器人达到目标。对于所有的场景,我们将机器人到达目的地的时间限制为1.5分钟。最后,机器人的绝对线速度和角速度有一个安全的最大限制,即0.6 m/s和1.2 rad/s。

5、结论

我们提出了一种新的导航系统,将传统规划与现代深度学习技术相结合。系统的学习组件被构造为局部规划器和速度控制器。这种结构使我们的模型具有可解释性。首先,通过可视化局部规划,人们可以了解机器人将如何移动,并对环境的动态元素做出反应。其次,通过检查我们模型的注意系数,可以看到机器人在导航过程中考虑的信息类型。总的来说,我们对提出的模型的评价表明,它是有效的导航在复杂的动态环境。与传统的具有社会成本的双层导航系统相比,该模型的性能更具有一致性。此外,与其他直接将传感器数据和全局计划映射到速度指令的深度控制器相比,我们方法的学习组件更成功地实现了目标。最后,我们的研究结果强化了模仿学习可以从例子导航数据中促进对社会适当行为的建模的观点。

你可能感兴趣的:(多智能体深度强化学习,深度学习,自动驾驶,人工智能)