《Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics a Survey》阅读笔记

链接:https://arxiv.org/pdf/2009.13303.pdf

引用:Zhao W, Queralta J P, Westerlund T. Sim-to-real transfer in deep reinforcement learning for robotics: a survey[C]//2020 IEEE Symposium Series on Computational Intelligence (SSCI). IEEE, 2020: 737-744.

索引次数:25次

关键词:DRL; Robotics; sim2real; Transfer Learning; Meta Learning; Domain Random- ization; Knowledge Distillation; Imitation Learning;


1. 引言

​ 目标:如何利用模拟环境中的训练在现实世界的环境中转移知识和相应的策略

《Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics a Survey》阅读笔记_第1张图片

​ **挑战1:**构建缩小现实差距的方法(域随机化、引入扰动等)

​ **挑战2:**现实世界中存在模拟环境中未出现的情况,需要调整其策略以涵盖更广泛任务的潜在需要(元学习、持续学习等)

​ 本文不涉及具体的模拟器或在真实世界中直接学习的技术,而是重点描述将模拟器中学习到的知识在真实机器人平台中的部署的方法(sim2real

2. 背景

​ 这一节介绍了DRL、知识蒸馏、迁移学习、域自适应之间的联系。

《Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics a Survey》阅读笔记_第2张图片

A. 深度强化学习

强化学习的目标是通过选择最优的策略来最大化期望的回报。在现代计算能力的加速下,DRL已经在各种应用程序上取得了显著的成功,特别是在模拟环境上。因此,如何将这种成功从模拟转化到现实越来越受到人们的关注,这也是本文的研究动机

B. Sim2Real迁移

虽然大多数DRL算法提供端到端策略,即以原始传感器数据作为输入并产生直接驱动命令作为输出的控制机制,但机器人的这两个维度是可以分离的(即感知和控制分离)。为了在控制方面缩小仿真和现实之间的差距,需要模拟器更加精确,并考虑到智能体动力学中的可变性。然而,在感知部分,这个问题可以考虑得更广泛,因为它还涉及到更普遍的ML问题,即面对现实世界中没有出现在仿真中的情况。

本文,我们主要聚焦端到端模型,既有针对系统建模和动态随机化的研究,也有从感知角度引入随机化的研究。

C. 迁移学习和域自适应

域自适应是迁移学习的一个子集。它指定了当我们有足够的源域标记数据和与目标任务相同的单个任务,但没有目标域数据或目标域数据很少时的情况。

在sim2real技术中,研究人员倾向于使用模拟器来训练RL模型,然后将其部署到现实环境中,在现实环境中,我们应该利用域适应技术来很好地转换基于仿真的模型。

D.知识蒸馏

大型网络在DRL中具有高维输入数据(如复杂的视觉任务)。策略蒸馏是提取知识来训练一个新的网络,使其能够保持类似的专家水平,同时更轻量和更高效。在这些设置中,这两个网络通常被称为教师和学生。用教师网络生成的数据在监督下对学生进行训练。

E. 元强化学习

元学习旨在从多个训练任务中学习对潜在测试任务的适应能力。一个好的元学习模型应该在各种学习任务中进行训练,并在任务分布(包括测试时可能看不到的任务)中优化以获得最佳性能。MetaRL部署LSTM策略,从过去的训练中获取知识。

F.鲁棒RL和模仿学习

鲁棒RL作为一种新的RL范式很早就被提出了,它明确地考虑了输入干扰和建模错误。它考虑了一个坏的,甚至是敌对的模型,并试图将奖励最大化作为一个优化问题。

模仿学习提出采用专家演示代替人工构造固定的奖励函数来训练模型。模仿学习的方法大致可以分为两个关键领域:行为克隆,其中智能体学习从观察到动作的映射;逆强化学习,一个智能体试图估计一个给定演示的奖励函数。由于模仿学习的目的是给RL 智能体一个鲁棒的奖励,有时可以利用模仿学习来获得鲁棒的RL策略或模拟到真实的迁移。

3. Sim2Real迁移方法

在此部分,我们总结了最具代表性的模拟到真实转移的方法。最广泛使用的迁移方法是域随机化,其他相关的包括策略蒸馏、系统识别或元RL。

A. 零样本迁移

将知识从模拟转换到现实的最直接的方法是建立一个真实的模拟器,或者有足够的模拟经验,这样模型就可以直接应用到现实环境中。这种策略通常被称为零样本或直接转移。系统识别和域随机化是可以视为零样本迁移的技术。

B. 系统辨识

系统识别就是为物理系统建立一个精确的数学模型,使仿真器更加真实,需要仔细的标定。尽管如此,获得足够逼真的模拟器的挑战仍然存在。例如,很难构建高质量的渲染图像来模拟真实的视觉。此外,同一机器人的许多物理参数可能会因温度、湿度、位置或其磨损而发生较大的变化,这给系统识别带来了更大的困难。

C. 域随机化方法

域随机化并不建模真实世界的精确参数,我们可以高度随机化模拟,以覆盖真实世界数据的真实分布,尽管模型和真实世界之间存在偏差。根据模拟器随机化的组成部分,我们将领域随机化方法分为视觉随机化动力学随机化两种。

  • 视觉随机化:在机器人视觉任务中,包括目标定位[53]、目标检测[54]、姿态估计[55]和语义分割[56],来自模拟器的训练数据总是具有与现实环境不同的纹理、光照和摄像机位置。因此,视觉域随机化的目的是为训练时的视觉参数提供足够的模拟变异性,以便在测试时模型能够推广到真实世界的数据。

  • 动力学随机化:动力学随机化可以帮助获得鲁棒策略,特别是在需要控制策略的情况下。为了学习灵巧的机械手操作策略,[57]在模拟器中随机化各种物理参数,如物体尺寸、物体和机器人连杆质量、表面摩擦系数、机器人关节阻尼系数和执行器力增益。他们成功的模拟到真实的迁移实验显示了域随机化的强大效果。

D.域自适应方法

域自适应方法使用来自源域的数据来提高学习模型在不同目标域中的性能,而目标域中的数据总是不可用的。由于通常源域和目标域之间存在不同的特征空间,为了更好地从源数据转移知识,我们应该尝试将这两个特征空间统一起来。

《Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics a Survey》阅读笔记_第3张图片

近年来,领域自适应的研究在图像分类和语义分割等基于视觉的任务中得到了广泛的应用。然而,在本文中,我们主要关注与强化学习相关的任务和应用于机器人的任务。在这些场景中,使用域适应的纯视觉相关任务优先于后续的构建强化学习智能体或其他控制任务。也有一些使用域自适应的图像到策略的工作,以泛化由合成数据学习的策略或加快现实世界机器人的学习。有些还使用域自适应来直接在智能体之间传递策略。

从文献中,我们总结了三种常见的域适应方法:

  • discrepancy-based:基于差异的方法通过计算预定义的统计量来测量源和目标域之间的特征距离,以对齐它们的特征空间
  • adversarial-based:基于对抗性的方法建立一个域分类器来区分特征是来自源域还是目标域。经过训练,该提取器可以同时在源域和目标域产生不变特征
  • reconstruction- based:基于重构的方法旨在找到域之间的不变特征或共享特征。他们通过构建一个辅助重构任务并利用共享特征恢复原始输入来实现这一目标。这样,共享特性应该是不变的,并且独立于域

这三种方法提供了不同的角度来统一来自不同领域的特征,可以用于视觉任务和基于强化学习的控制任务。

E.加入扰动的学习

领域随机化和动态随机化方法的重点是在模拟环境中引入扰动,以降低模拟与现实不匹配的影响。

同样的概念思想在其他工作中得到了扩展,其中引入了扰动以获得更健壮的智能体。例如,在[72]中,作者考虑了噪声奖励。虽然与模拟到真实的转换没有直接关系,但噪声奖励可以更好地模拟真实世界中的训练。此外,在我们最近的一些研究[8],[73]中,我们考虑了环境干扰对并行学习的不同智能体的影响。在使用公共策略部署或培训多个实际智能体时,这是需要考虑的一个方面。

F.仿真环境

模拟到真实传输的一个关键方面是模拟的选择。模拟越真实,实际预期的结果就越好。文献中使用最广泛的模拟器是Gazebo、Unity3D和PyBullet或MuJoCo。Gazebo具有与机器人操作系统(ROS)中间件广泛集成的优势,因此可以与存在于真实机器人中的部分机器人堆栈一起使用。另一方面,PyBullet和MuJoCo提供了与DL和RL库和gym环境的更广泛的集成。总的来说,Gazebo适合更复杂的场景,而PyBullet和MuJoCo提供更快的训练。

4. 应用场景

DRL在机器人技术中最常见的应用是导航和灵巧操作。由于大多数机械臂操作空间有限,相对于复杂的机器人系统,灵活操作的仿真环境相对容易生成。例如,Open AI Gym是最广泛使用的强化学习框架之一,它为灵巧操作提供了多种环境。

A.灵巧的机器人操作

主要是机械臂、机械手操作。

B. 机器人导航

在过去的几年里,通过强化学习来学习导航一直是一个越来越引起研究兴趣的话题,但是对sim2real的方法研究很少。在导航任务方面缺乏标准的模拟环境。由于不同的导航任务需要不同的环境和传感器套件,需要自定义模拟器环境。

为了实现对现实世界的成功转移,文献中采用了不同的方法,特别值得关注的是以下方法:课程学习[37],增量环境复杂性[39],以及针对多任务的持续学习和策略提炼[12]。

C.其他应用

触觉感知、多智能体操作等

5.主要挑战和未来方向

尽管在我们回顾的论文中提出了进展,基于现有方法的模拟现实仍然具有挑战性。

  1. 对于域随机化,研究人员倾向于实证研究,手动检查添加哪一种随机化,但很难正式解释它如何和为什么工作,从而为设计和有效模拟随机化分布带来了困难。
  2. 对于域自适应,现有的算法大多是基于同质深度域自适应,即假设源域和目标域之间的特征空间相同。然而,这种假设在许多应用中可能并不正确

未来方向:

  1. 整合现有的不同方法,以实现更有效的迁移(如域随机化和域自适应);
  2. 渐进式复杂性学习,持续学习,以及对复杂或多步骤任务的奖励塑造

6.结论

强化学习算法通常依靠模拟数据来满足对大量标记经验的需求。然而,模拟环境和真实场景之间的不匹配,需要进一步关注模拟到真实的方法,以转移在模拟中获得的知识。据我们所知,这是第一个关注机器人领域的DRL模拟到真实环境的不同方法的综述。

域随机化被认为是最广泛采用的方法,以增加模拟的真实感和更好地准备现实世界。然而,我们已经讨论了替代的研究方向,显示出可喜的结果。例如,策略精馏使多任务学习和更高效和更轻量的网络成为可能,而元学习方法允许任务的更大的可变性。

多智能体相关文献参考

【1】Wenshuai Zhao, Jorge Pe˜na Queralta, Li Qingqing, and Tomi Wester- lund. Towards closing the sim-to-real gap in collaborative multi-robot deep reinforcement learning. In 5th ICRAE, 2020.

【2】Cassandra McCord, Jorge Pe˜na Queralta, Tuan Nguyen Gia, and Tomi Westerlund. Distributed progressive formation control for multi-agent systems: 2d and 3d deployment of uavs in ros/gazebo with rotors. In ECMR, 2019.

【3】Jorge Pe˜na Queralta, Jussi Taipalmaa, Bilge Can Pullinen, Victor Kathan Sarker, Tuan Nguyen Gia, Hannu Tenhunen, Moncef Gabbouj, Jenni Raitoharju, and Tomi Westerlund. Collaborative multi-robot systems for search and rescue: Coordination and perception. arXiv preprint arXiv:2008.12610, 2020.

【4】Ofir Nachum, Michael Ahn, Hugo Ponte, Shixiang Gu, and Vikash Kumar. Multi-agent manipulation via locomotion using hierarchical sim2real. arXiv:1908.05224, 2019.

你可能感兴趣的:(强化学习,迁移学习,仿真器)