直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解

直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解_第1张图片

近日,新加坡Sea AI Lab提出了一个全新的环境模拟并行执行库EnvPool,使用C++的线程池以及异步执行的机制优化了大规模RL环境的并行,能够兼容已有的gym与dm_env API以及几乎所有强化学习算法。在Nvidia DGX-A100的256核CPU上,达到了一百万帧每秒Atari环境的速度。EnvPool的目标是为RL提供强劲的数据管线,让RL和监督学习一样容易扩展。

直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解_第2张图片

项目地址:https://github.com/sail-sg/envpool

智源社区特邀请了EnvPool一作翁家翌做题为《EnvPool-高性能环境并行模拟器》的报告。

直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解_第3张图片

主讲人翁家翌,卡内基·梅隆大学(CMU)计算机学院硕士二年级在读。目前的研究兴趣主要是对机器学习与强化学习系统(MLSys)进行加速。在加入 CMU 之前,翁家翌在清华大学计算机科学与技术系取得了本科学位。翁家翌还是目前广受欢迎的基于 PyTorch 的强化学习算法库天授(tianshou)的作者,从开源至今已经有近四千的 GitHub star。

主题:EnvPool-高性能环境并行模拟器

时间:2021年12月1日(周三)20:00~21:00

形式:线上

扫码报名:

直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解_第4张图片

入会方式:

腾讯会议-ID:375 830 400

直播地址一:

https://event.baai.ac.cn/activities/203

直播地址二:

http://live.bilibili.com/21484823

报告简介:

强化学习的训练过程往往在资源利用率上差强人意,其主要瓶颈在于数据产生的速度无法跟上GPU/TPU的处理能力。GPU在监督学习,即数据供应非常快的情景下迭代模型,已经有非常成熟的方案。相比之下,强化学习的数据生产,即环境的模拟,则一直关注度很少。环境的模拟速度是整个RL训练系统的上限,因为它是整个流水线的上游,决定了接下来了推理与训练阶段的整体效率。

目前最流行的环境并行执行的方案,即类似gym.vector_env使用Python的多进程模式(subprocess)同时执行多个环境来进行加速,实际使用的效率非常低。且RL环境特别是类似Atari的环境,常有多层Python环境装饰器,更加增加了环境模拟的额外开销。

直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解_第5张图片

由颜水成团队所在的Sea AI Lab近日提出了名为EnvPool的强化学习并行模拟器,在NVIDIA DGX A100的256核的CPU上达到了每秒一百万帧Atari环境的速度,是 gym.vector_env的13倍;在12核CPU配置的个人电脑上,也能达到 gym.vector_env约3倍的加速,大大节省所需要的CPU资源。

直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解_第6张图片


了解更多信息请加入「强化学习」交流群

直播 | 256核CPU实现每秒一百万帧的Atari!强化学习并行模拟器EnvPool详解_第7张图片

你可能感兴趣的:(c++,人工智能,深度学习,强化学习,python)