最近,随着模拟基准(如dm_control或OpenAI-Gym)的可用性不断提高以及灵活可扩展的强化学习技术(DDPG,QT-Opt或Soft Actor)的发展,解决机器人控制问题的基于学习的方法取得了显着发展。
尽管通过模拟学习是有效的,但是由于诸如物理现象的不正确建模和系统延迟之类的因素,这些模拟环境在部署到现实世界的机器人时经常遇到困难。这激发了在现实世界中直接在真实物理硬件上直接开发机器人控制解决方案的需求。
当前对物理硬件的大多数机器人技术研究都是在成本高,工业质量的机器人(PR2,Kuka臂,ShadowHand,Baxter等)上进行的,这些机器人旨在在受控环境中进行精确,受监控的操作。
很多小型实验室想进行探索强化学习(RL),但研发经费有限的情况下,像这样一直PR2,售价居然高达40万美元,加上关税基本上得300多万人民币,面对这样高昂的设备费用,只能望而却步。
此外,这些机器人是围绕着传统控制方法设计的,这些控制方法侧重于精度,可重复性和易于表征。这与基于学习的方法形成鲜明对比,该方法对于不完善的感测和促动具有鲁棒性,并且要求
(a)高度的弹性以允许在现实世界中的反复试验学习,
(b)低成本且易于实现维护以通过复制实现可伸缩性,
(c)可靠的重置机制以减轻严格的人工监控要求。
那么,好消息来了,谷歌最新发布相关开源机器人让RL变得简单和便宜。
在即将于CoRL 2019上发表的“ ROBEL:
低成本机器人学习的机器人基准”中,谷歌引入了具有成本效益的机器人的开源平台和精心设计的基准,旨在促进实际物理硬件的研发。
与光学领域的光学平台类似,ROBEL可以作为快速实验平台,支持各种实验需求以及新的强化学习和控制方法的开发。
ROBEL由D'Claw和D'Kitty组成,D'Claw是帮助学习灵巧操作任务的三指机器人,而D'Kitty是能够学习敏捷的腿部运动任务的四腿机器人。
如下图:
三指机器人价格在3500美元左右。
这个四足机器人大概在4200美元左右。
左:自由度12 D'Kitty; 中:9个自由度D'Claw; 右图:功能齐全的D'Claw设置D'Lantern。
为了使机器人相对便宜且易于构建,我们将ROBEL的设计基于现成的组件和常用的原型制作工具(3D打印或激光切割)。设计易于组装,仅需几个小时即可构建。此处提供详细的零件清单(带有CAD详细信息),组装说明和入门软件说明。
机器人硬件平台全部是开源,机器人平台是低成本的,模块化的,易于维护的,并且足够强大,可以从头开始支持硬件上的强化学习。
ROBEL基准
谷歌为D'Claw和D'Kitty设计了适合每个平台的一组任务,可用于对现实世界中的机器人学习进行基准测试。
ROBEL的任务定义既包括密集任务目标,也包括稀疏任务目标,并在任务定义中引入了硬件安全性度量,例如,指示关节是否超出“安全”操作范围或作用力阈值。
ROBEL还为所有任务提供模拟器,以促进算法开发和快速原型设计。
D'Claw任务以三种常见的操纵行为为中心
姿势
转弯
拧紧
左:姿势—符合环境的形状中心:旋转—将对象旋转到指定角度。右:螺钉—连续旋转象。
我们来看看他们动态图:
三指手形机器人D'Claw,非常适合灵巧的操作
四足机器人
它的三种基准测试动作:
谷歌针对这些基准任务中的每一个,评估了几种深度强化学习方法的课程(基于策略的,禁用策略的,演示加速的,监督的)。
Robel还为所有这些基准测试任务提供模拟器,帮助研究人员开发算法和快速原型。
可复现,很鲁棒
评估结果和最终策略作为基线包含在软件包中,以进行比较。
完整的任务详细信息和基准性能可在技术报告中找到。
重现性和鲁棒性ROBEL平台具有强大的功能,可以直接进行硬件培训,迄今已积累了超过14,000个小时的实际经验。
一年来,这些平台已经非常成熟。由于设计的模块化,维修非常简单,几乎不需要领域专业知识,从而使整个系统易于维护。为了建立平台的可复制性和基准的可重复性,两个不同的研究实验室分别对ROBEL进行了研究。
本研究仅使用软件分发和文档。使用ROBEL的设计文件和组装说明,两个站点都可以复制两个硬件平台。基准任务都在两个站点上构建的机器人上进行了培训。
在下图中,我们看到在两个不同地点建造的两个D'Claw机器人不仅展现出相似的训练进度,而且收敛到相同的最终性能,从而确立了ROBEL基准的可重复性。
SAC对在不同实验室位置开发的两个真实D'Claw机器人执行任务的训练性能。
两条训练曲线几乎重合。换言之,在不同地点制造的两个机器人不仅表现出相似的训练进度,而且最终收敛到相同的性能水平。
总结
总之,ROBEL平台是低成本,强大,可靠的,旨在满足新兴的基于学习的范式的需求,这些范式需要可伸缩性和弹性。
相关论文源码下载地址:关注“图像算法”微信公众号