python gail.py
Traceback (most recent call last):
File "gail.py", line 16, in
from chainer import functions as F
ImportError: cannot import name 'functions' from 'chainer' (unknown location)
环境真的好难配啊,莫非一定要用 docker
2019年论文:
NeurIPS 2019 Competition: The MineRL Competition on Sample Efficient Reinforcement Learning using Human Priors
竞赛的主要目标是促进算法的发展,这些算法可以有效地利用人类演示来大幅减少解决复杂、层次和稀疏环境所需要的样本数目。为此,我们介绍:(1)《我的世界》获得了钻石任务,这是一个需要长期规划、分级控制和高效探索方法的有序决策环境;和(2)MineRL-v0数据集,一个大规模的收集了超过6000万的状态-动作对人类演示,可以被重新模拟成具身agent轨迹,并对游戏状态和视觉效果进行任意修改。
参赛者将竞争开发系统,以解决ObtainDiamond任务与有限数量的样本从环境模拟器,马尔默[11]。比赛被结构成两个回合,其中竞争者提供了不同游戏纹理和着色器的数据集和环境的几个配对版本。在每一轮比赛的最后,参赛者将向AICrowd平台提交他们的学习算法的压缩版本,然后他们将在预先指定的硬件平台上从头开始在一个固定的数据环境对上进行为期4天的训练。每一次提交都将根据经过训练的代理的最终表现自动进行排名。
最近,人工智能(AI)的许多最著名的成功,如Al- phaStar、AlphaGo、OpenAI 5及其衍生系统,利用深度强化学习,在顺序决策任务中达到人类或超人的水平。正如Amodei和Hernandez[1]所建立的,这些对最先进状态的改进到目前为止需要指数增长的计算能力来实现这样的性能。这在一定程度上是由于每个环境样本所需的计算量增加;然而,最显著的变化是训练所需的环境样本的数量。例如,DQN[13]、A3C[14]、Rainbow DQN[9]已经应用于雅达利2600游戏[2]中,需要44 - 2亿帧(200 - 900小时)的帧数才能达到人的性能。在更复杂的领域:OpenAI 5利用了11000年以上的dota2[18]游戏时间,AlphaGoZero使用了490万款[23]自创游戏时间,AlphaStar使用了200年的星际争霸II[5]游戏时间。由于日益增长的计算需求,AI社区有资源来改进这些系统和重现最先进的结果的越来越少。此外,许多强化学习技术在现实世界中的应用,如自动驾驶汽车,受到所需样本原始数量的阻碍。在这些真实世界的领域中,策略的推出可能代价高昂,而且模拟器还不够精确,不能产生对真实世界条件健壮的策略。
在上述方法中,减少环境样本复杂性的一个众所周知的方法是利用人类对预期行为的先验和示范。
利用轨迹例子的技术,如模仿学习和贝叶斯强化学习,已经成功地应用于较老的基准测试和来自环境的样本代价昂贵的现实问题。在许多具有单一任务的简单游戏中,如Atari 2600、OpenAI Gym和TORCS环境中,通过预训练和混合RL技术,模仿学习可以极大地减少所需的环境样本数量[10,4,19,8]。此外,在一些真实世界的任务中,如机器人操作[7,6]和自动驾驶的[3],在这些任务中,从环境中采集大量样本代价昂贵,基于模拟的方法往往是使用少量样本生成解决方案的唯一手段。尽管这些技术取得了成功,但对于许多现实领域的应用而言,它们的采样效率仍然不够高。
虽然计算资源本身存在成本障碍,但大规模、开放访问的数据集可以被广泛使用。为此,我们将围绕利用新引入的MineRL数据集的技术展开竞争。最大化猛击-域无关的技术,使星航工程科从事sample-limited深强化学习中的应用,现实世界的领域,比如机器人,我们精心开发了一个新的数据管道和抵抗环境评价方案与AICrowd防止过度设计的提交任务的竞争。
《我的世界》是基于强化和模仿学习方法开发的一个引人注目的领域,因为它提出了独特的挑战:《我的世界》是一款3D、第一人称、开放世界的游戏,以资源的收集和道具和道具的创造为中心。值得注意的是,程序生成的世界是由允许修改的离散块组成的;在游戏过程中,玩家通过收集资源(比如从树上砍下木头)和建造建筑(比如庇护所和储藏室)来改变他们的环境。由于《我的世界》是一个具体的领域,而代理的环境是多样的和动态的,它呈现了许多与现实机器人一样的挑战——主要的。因此,为这个竞赛创建的解决方案是将这些相同的方法应用于现实世界问题的一步。
图1:Minecraft物品层次结构的子集(总计371个独特物品)。每个节点都是一个独特的Minecraft物品、方块或非玩家角色,两个节点之间的有向边表示一个节点是另一个节点的先决条件。每个物品都是自己独特的挑战,所以一个玩家要花几百个小时才能完成整个关卡。
《我的世界》是一个具有吸引力的竞争领域的另一个原因是它作为一款电子游戏的受欢迎程度;在所有发行的游戏中,它的总销量位居第二。鉴于它的受欢迎程度,潜在的参与者更可能熟悉它,而不是其他基于电子游戏的领域。同样,比赛也会因为与这样一个著名的游戏的关系而更加有趣。
此外,还有对《我的世界》的研究兴趣。马尔默的发展[11],"我的模拟器,环境得到了很大的研究-特雷:许多研究人员(22日,24日,16)杠杆Minecraft大规模hierarchality和表达能力作为模拟器在language-grounded迈出一大步,可判断的多任务option-extraction,层次终生学习,和活跃的感觉。然而,许多现有的研究利用了《我的世界》中的玩具任务,通常局限于2D移动,离散位置,或人为限制的地图,不能代表人类玩家通常面临的内在复杂性。这些限制反映了该领域的困难,应对充分体现人类状态和行动空间的挑战,以及最佳人类政策所表现出的复杂性。我们的比赛和大规模的人演示的MineRL-v0数据集的发布,将在两方面促进这一领域的研究:
(1)我们的初步结果表明,通过模仿学习,基本的强化学习方法最终可以直接处理Minecraft完整的、不受限制的状态和行动空间;
(2)由于主要竞争任务ObtainDiamond所表现出的困难和关键的研究挑战,我们相信竞争将会把Minecraft领域的工作带到样本-高效强化学习研究的前列。
新奇的事物
强化学习。
到目前为止,所有现有的强化学习竞赛都集中在政策或元政策的发展上,这些政策或元政策在非常复杂的领域表现良好,或在任务分布上泛化[12,15,20]。然而,这些竞赛的重点是在特定领域表现出色,而不是开发适用于广泛领域的鲁棒算法。通常,获奖的作品是大量计算资源或高度特定的手工设计的结果。相比之下,我们的比赛是第一次直接考虑不同算法的训练过程的效率。
我们评估提交,仅根据他们的能力,在一个严格的公司和环境样本预算内表现良好。此外,我们提出这样一个能够竞争由于人类演示数据集的性质和环境,:我们的数据集是由直接记录和人类专家玩游戏状态,所以我们以后能够让多个环境和数据呈现不同的照明、几何、纹理、gamestate动力学,从而产生发展,验证和抵抗/环境对评估数据集。因此,竞争对手自然被禁止手工设计或热启动他们的学习算法,并仅凭资源优势取胜。
模仿学习。
据我们所知,没有任何竞赛明确地将重点放在模仿学习和强化学习的使用上。这在很大程度上是由于缺乏大规模的、公开的人类或专家演示数据集。我们的竞赛是第一个明确地涉及并鼓励使用模仿学习来解决给定任务的竞赛,在这种能力下,我们在一个具体领域中发布了有史以来最大的hu- man演示数据集。大量的轨迹和丰富的演示性能注释使许多标准模仿学习技术得以应用,并鼓励进一步开发使用分层标签、不同的代理性能级别和辅助状态信息的新技术。
"我。由于Minecraft作为一个领域的表现力,一些比赛已经使用了它。第一个是白垩土̈o协作AI Challenge1,成对,agentsworked以分散的方式来解决协作任务。随后,C. Salge等人[21]组织了《我的世界》(Minecraft)中的生成设计:殖民生成竞赛,参与者被要求实施在任何给定的未知景观中构建完整城市的方法。这两个竞赛突出了这个框架作为不同AI任务基准的通用性。
2019年,Perez-Liebana等人[20]组织了多智能体强化学习
̈̈
在马尔默(MARLO)竞争中。这种竞争使几组代理商竞争
在三场不同的比赛中互相对抗。每个游戏都是可参数化的,以防止代理过度拟合特定的视觉效果和布局。竞争的目的是在合作或竞争的多元环境中建立一个会学习的代理
̈
agent任务,在其他agent在场的情况下玩游戏。玛洛竞争
成功地吸引了来自现有研究机构和普通公众的大量参赛作品,表明了现有研究社区内外对《我的世界》领域的广泛可及性和兴奋程度。
与以前的比赛相比,我们的比赛只处理一个主要任务,而提供大量的层次子任务和演示(见1.3节)。主任务及其子任务并不简单;然而,代理的进展可以很容易地测量,这允许在提交的方法之间进行清晰的比较。此外,本次比赛的目标是促进高效学习的研究,直接关注提交算法的样本效率和计算效率。
1.3数据
对于这次比赛,我们介绍了两个主要的组成部分:在Minecraft中一系列连续的决策制作环境和一个相应的公共大规模的人类演示数据集。
1.3.1环境
我们定义了一个主要的竞争环境,即envi- ronment, ObtainDiamond,和六个其他的辅助环境,它们包含了人类《我的世界》游戏的重要部分。我们选择这些环境领域来强调强化学习中许多最困难的挑战,如稀疏再定向、长期奖励视野和有效的层次规划。
图2:7个环境中的6个不同阶段的图像。
主要的环境。竞争的主要任务是解决现有的环境问题。在这种环境中,代理从一个不带任何物品的随机起始位置开始,其任务是获取钻石。代理会因为获得一颗钻石而获得高额奖励,同时也会因为获得先决物品而获得较小的辅助奖励。剧集结束的原因是(a)代理死亡,(b)成功获得钻石,或©达到最大步数18000帧(15分钟)。
获取钻石的环境是一个困难的环境,原因有很多。钻石只存在于世界的一小部分,在《我的世界》中比其他矿石稀有2-10倍。此外,获得钻石需要许多先决条件物品。由于这些原因,代理人几乎不可能通过天真的随机探索获得钻石。
辅机的环境。
我们提供了六个辅助环境(在四个家庭),我们相信将有助于解决ObtainDiamond(见第1.3.4节):
导航:在此环境中,代理必须移动到目标位置。这代表了在《我的世界》中许多任务中使用的基本元素。除了标准观测之外,代理还可以使用“罗盘”观测,它指向一个设定的位置,距离起始位置64米。代理被给予一个稀疏的重定向(在达到目标时+100,此时情节终止)。我们还支持一种密集的、奖励型的导航方式,在这种方式中,每隔一次滴答,代理就会得到相应于代理与目标之间距离变化的奖励。
Treechop:在这种环境下,代理必须收集木材,这是《我的世界》中的关键资源,也是钻石的先决条件。代理开始在一个森林生物群系(附近的许多树),用铁斧头砍树。每获得一单元木材,代理将获得+1奖励,一旦代理获得64单元或达到台阶限制,情节终止。
3.获取<项目>:我们包含了三个额外的获取环境,类似于ObtainDiamond,但不同的目标项目获得。它们是:
(a)熟肉:牛、鸡、羊、猪的熟肉,这是《我的世界》中生存所必需的。在这种环境中,agent被给予特定种类的肉来获取。
(b)床:由染料、羊毛和木头制成,也是《我的世界》生存的关键物品。在这种环境下,剂是给特定颜色的床来制作的。
©铁鹤嘴锄:是钻石的直接先决条件。解决这个问题比获得钻石要容易得多:在《我的世界》中,铁元素的使用频率是钻石的20倍,而人类通常在10分钟内就能解决这个问题。
1.3.2数据集
MineRL-v0数据集由上面提到的七个环境中超过6000万个记录的人类演示的状态-动作(奖励)元组组成。每条轨迹都对《我的世界》每一个游戏滴答点进行了连续采样(每秒20个游戏滴答点)。RGB视频帧的每个状态是由玩家的角度——视图和一组全面的游戏状态的特性,蜱虫:球员——ventory项目收集事件,距离目标,玩家属性(健康、水平、成就),和最新的细节GUI玩家开放。记录在每个滴答点的交流包括:所有的键盘按键,改变在视图俯仰和偏航(鼠标移动),玩家GUI交互,和凝聚交流,如物品制作。
图3:MineRL数据采集平台示意图。我们的系统从包级数据中生成了大量的字符串,因此我们可以用不同的参数轻松地重新路由我们的数据。