Learning to Centralize Dual-Arm Assembly

Learning to Centralize Dual-Arm Assembly

  • 概述
  • 控制方法
  • Policy Learning
  • Sim-to-real

概述

文章研究了双机械臂的装配任务。作者的目标是实现task-free的双机械臂操纵。文章将任务转化为一个modal-free的强化学习问题,然后采用了一种集中式策略分散式控制的方法。框架分为两层,第一层是通过学习获得的高级策略,第二层是两个机械臂的独立控制器。作者认为这属于分层强化学习(Hierarchical reinforcement learning),不过第二层的策略不是学习来的,而是基于成熟的控制方法设计的。两个机械臂通过高级的控制策略联合在一起。控制策略只用来生成high-level轨迹,然后使用控制技术track这些轨迹。第二层的离散控制器可以替换为任意的单臂控制策略。这种模块化的结构允许进行zero-shot转化。

控制方法

双机械臂操作可分为集中式控制和分散式控制,其中集中式效率和精度更高。但是集中式控制通常需要进行精确而复杂的动力学建模,并且具有很强的任务相关性。

对于分散式控制,通常有两种范式。第一种是使用多智能体强化学习,设置两个独立的解耦 RL 智能体进行训练,第二种是使用单一策略分别控制每个机械臂。对于第一范式,多智能体强化学习不能为两个智能体任务带来巨大的性能提升,但会使建模复杂化。相比之下,第二范式并没有比单臂任务显着增加建模的工作量。

综上所述,文章最后采用了分散式控制的第二种范式。通过学习产生一个单一的策略,然后使用两个独立控制器分别控制一个机械臂。

Policy Learning

在这项工作中,建模工作被降到最低值。文章采用的高层次耦合而低层次离散的结构,使得不用对机械臂之间的互动进行建模。同时由于不对特定任务或知识进行建模,该框架没有对特定任务的依赖。另外,文章采取了稀疏的奖励。只有在完成任务时,智能体才能得到反馈。这进一步减少了策略中对特定任务的偏差。但是稀疏奖励同时也造成了学习的采样效率(sample efficiency)低下。

作者使用了Soft Actor-Critic(SAC)算法,因为该算法具有当时最先进的性能和样本效率,但也有可能被其他算法取代,如Deep Deterministic Policy Gradients(DDPG)或Twin Delayed Deep Deterministic Policy Gradients(TD3)。近端策略优化(PPO)也是很好的选择。

Sim-to-real

强化学习采用稀疏奖励,在仿真中进行学习。然后使用Zero-shot transfer将结果转移到真实机器人上。首先在Pybullet中创建实时的仿真环境,然后分析性能,最后sim-real转移(real world中使用相同的high-level控制策略,但是low-level控制器的参数进行微调)。

你可能感兴趣的:(论文笔记,机器学习)