No.30
智源社区
强化学习组
强
化
学
习
研究
观点
资源
活动
关于周刊
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第30期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明、刘青、小胖
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如分布式强化学习、可解释性强化学习、基于深度强化学习的量化金融应用、多智能体强化学习相关的理论及其最新应用等。
本次推荐了13篇强化学习领域的相关论文,主要涉及于基于多机器人强化学习无地图导航Dueling网络中的集中状态值、自然语言中的内在可解释强化学习、量化金融中数据驱动的深度强化学习的近似真实市场环境、基于强化学习的无人机基站综合接入回程自主导航与配置、基于强化学习算法的持续学习预测智能体评估VR中的人与系统交互、多维奖励函数的分布强化学习、分层强化学习中Landmark引导的子目标生成、学习用协调策略优化模拟自驱动粒子系统、深度强化学习的多样性增强内在动机、学习使用深度强化学习导航结晶模型、多智能体强化学习的横向迁移学习、广义注意加权强化学习、使用强化学习教机器人行走等。
标题:Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation(基于多机器人强化学习无地图导航Dueling网络中的集中状态值)了解详情
简介:本文研究了流行的集中训练和分散执行(CTDE)模式下的多机器人mapless导航问题。当每个机器人考虑自己的路径而不与其他机器人明确共享观察结果时,其可能导致深度强化学习(DRL)中的非平稳问题。典型的CTDE算法将联合行动价值函数分解为单个行动价值函数,以利于合作并实现分散执行。这种因式分解涉及限制个体中新行为出现的约束(例如单调性),因为每个智能体都是从联合动作值开始训练的。而本文为CTDE提出了新的体系结构,它使用集中式状态值网络来计算联合状态值,该网络用于在基于值的代理更新中注入全局状态信息。因此,考虑到环境的整体状态,每个模型计算其权重的梯度更新。该想法遵循了 Dueling Networks 的见解,即联合状态值的单独估计既有提高样本效率的优势,又能为每个机器人提供全局状态是否有价值的信息。在具有2个4机器人和8个机器人的机器人导航任务中的实验证实了该方法优于先前的CTDE方法(例如,VDN,QMIX)。
论文链接:https://arxiv.org/pdf/2112.09012.pdf
标题:Inherently Explainable Reinforcement Learning in Natural Language(自然语言中的内在可解释强化学习)了解详情
简介:本文专注于创建内在可解释的强化学习智能体的任务——通过在执行任务时仔细思考并在事后分析整个轨迹来产生因果解释,从而产生即时的局部解释的能力。这种可分层解释的强化学习代理(HEX-RL)在交互式小说、基于文本的游戏环境中运行,其中智能体使用文本自然语言感知并作用于世界。这些游戏通常被构造成具有长期依赖性的谜题或任务,其中智能体必须完成一系列动作才能成功—提供理想的环境来测试智能体解释其动作的能力。该智能体被设计为将可解释性视为一级公民,使用基于图形的状态表示的提取符号知识,并结合分层图注意机制,该机制指向内部图表示中对动作选择影响最大的事实。实验表明,这种智能体在强基线上提供了显著改进的解释,正如通常不熟悉环境的人类参与者所评价的那样,同时也匹配了最先进的任务性能。
论文链接:https://arxiv.org/pdf/2112.08907.pdf
标题:FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance(FinRL Meta:用于量化金融中数据驱动的深度强化学习的近似真实市场环境)了解详情
简介:最近,深度强化学习(DRL)在构建金融市场模拟器方面显示出巨大的潜力。然而,由于现实世界市场的高度复杂性和动态性,原始历史金融数据通常包含大量噪声,可能无法反映市场的未来,从而降低了基于DRL的市场模拟器的保真度。此外,基于DRL的市场模拟器的准确性在很大程度上依赖于众多不同的DRL代理商,这增加了对市场环境宇宙的需求,并对模拟速度提出了挑战。本文提出了FinRL-Meta框架,为数据驱动的金融强化学习构建了一个市场环境的宇宙。首先,FinRL-Meta将金融数据处理从基于DRL的战略的设计管道中分离出来,并为金融大数据提供开源数据工程工具。其次,FinRL-Meta为各种交易任务提供了数百种市场环境。第三,FinRL-Meta通过利用数千个GPU内核来实现多处理模拟和训练。
论文链接:https://arxiv.org/pdf/2112.06753.pdf
标题:Autonomous Navigation and Configuration of Integrated Access Backhauling for UAV Base Station Using Reinforcement Learning(基于强化学习的无人机基站综合接入回程自主导航与配置)了解详情
简介:快速可靠的连接对于增强公共安全关键任务 (MC) 用户的态势感知和运营效率至关重要。在紧急或灾难情况下,现有的蜂窝网络覆盖和容量可能无法满足 MC 通信需求,可以迅速利用基于可部署网络的解决方案,例如 Cell-on-wheels/wings,以确保 MC 用户的可靠连接。本文考虑了宏基站(BS)因自然灾害而被破坏的场景,并设置了载有基站的无人机(UAV-BS)为灾区用户提供临时覆盖。UAV-BS 使用 5G 集成接入和回程 (IAB) 技术集成到移动网络中。本文提出了将机器学习应用于此用例的框架和信令程序。深度强化学习算法旨在联合优化 UAV-BS 的接入和回程天线倾斜度以及三维位置,以便在保持良好回程连接的同时为地面 MC 用户提供最佳服务。研究结果表明,所提出的算法可以自主导航和配置 UAV-BS,以提高吞吐量并降低 MC 用户的掉线率。
论文链接:https://arxiv.org/pdf/2112.07313v1.pdf
标题:Assessing Human Interaction in Virtual Reality With Continually Learning Prediction Agents Based on Reinforcement Learning Algorithms: A Pilot Study(基于强化学习算法的持续学习预测智能体评估VR中的人与系统交互:一项试点研究)了解详情
简介:人工智能系统越来越多地涉及持续学习,以实现灵活性。但现有研究尚未充分探索系统主动学习时发生的交互,这些交互可以在几分钟内显着改变其行为。本试点研究调查了人类与不断学习的预测智能体之间的交互如何随着智能体能力的发展而发展。此外,其比较了两种不同的代理架构,以评估代理设计中的表征选择如何影响人与智能体的交互。通过开发虚拟现实环境和基于时间的预测任务,其中从强化学习 (RL) 算法中学到的预测增强了人类的预测。并应用定量和定性分析来评估参与者在此任务中的表现和行为在不同类型的智能体中有何不同。研究结果表明,人类对系统的信任可能会受到与智能体的早期交互的影响,而这种信任反过来又会影响战略行为,但试点研究的局限性排除了任何结论性陈述。在考虑基于 RL 的技术时,将信任视为交互的关键特征,并提出了一些修改本研究的建议,为更大规模的调查做准备。
论文链接:https://arxiv.org/pdf/2112.07774.pdf
标题:Teaching a Robot to Walk Using Reinforcement Learning(使用强化学习教机器人行走)了解详情
简介:PID 和 LQR 等经典控制技术已被有效地用于维持系统状态,但当模型动态的复杂性和敏感性增加时,这些技术变得更加难以实施。对于具有多个自由度的自适应机器人运动任务,该任务在经典控制技术下变得不可行。然而,强化学习可以轻松训练最佳行走策略。本文应用深度 Q 学习和增强随机搜索 (ARS) 来教模拟二维双足机器人如何使用 OpenAI Gym BipedalWalker-v3 环境行走。深度 Q 学习没有产生高奖励策略,通常由于粗略离散化的动作空间而过早地收敛到次优的局部最大值。然而,ARS 产生了训练有素的机器人,并产生了正式“解决” BipedalWalker-v3 问题的最优策略。包括随机策略、手动编码的英寸前进策略和保持静止策略,被用作评估学习算法结果熟练程度的基准。
论文链接:https://arxiv.org/pdf/2112.07031.pdf
标题:Distributional Reinforcement Learning for Multi-Dimensional Reward Functions(多维奖励函数的分布强化学习)
了解详情
简介:基于价值的强化学习(RL)算法的一个发展趋势是在价值网络中捕获比标量值函数更多的信息。该分支中最著名的方法之一是分布式RL,它模拟返回分布而不是标量值。RL中的混合奖励体系结构(HRA)研究了为每个奖励源建模特定于源的价值函数,这也被证明对性能有益。为了充分继承分布式RL和混合奖励体系结构的优点,本文引入了多维分布式DQN,它扩展了分布式RL来模拟来自多个奖励源的联合回报分布。作为联合分布建模的副产品,MD3QN不仅可以捕获每个奖励来源回报的随机性,还可以捕获不同来源的随机性之间丰富的奖励相关性。研究表明联合分布Bellman算子的收敛性,并通过最小化联合收益分布与其Bellman目标之间的最大平均差异来构建我们的经验算法。在实验中,该方法准确地模拟了报酬函数高度相关的环境中的联合收益分布,并且优于以前在控制环境中利用多维奖励函数的RL方法。
论文链接:https://arxiv.org/pdf/2110.13578.pdf
标题:Landmark-Guided Subgoal Generation in Hierarchical Reinforcement Learning(分层强化学习中Landmark引导的子目标生成)了解详情
简介:目标条件分层强化学习(HRL)在解决复杂和长视界RL任务方面显示出良好的效果。然而,目标制约型人力资源学习中高层政策的行动空间往往很大,导致探索性差,导致培训效率低下。本文提出了地标引导的分层强化学习(HIGL),一种新的框架,用于训练具有地标引导的缩减行动空间的高级策略,即有希望探索的状态。HIGL的关键组成部分有两个:(a)为勘探提供信息的地标取样;(b)鼓励高级别政策为选定地标制定子目标。对于(a),我们考虑两个准则:覆盖整个访问状态空间(即,状态的分散)和状态的新颖性(即,状态的预测误差)。对于(b),本文选择一个地标作为节点为地标的图中最短路径的第一个地标。实验表明,该框架在各种控制任务中都优于现有技术,这要归功于由地标引导的有效探索。
论文链接:https://arxiv.org/pdf/2110.13625.pdf
标题:Learning to Simulate Self-Driven Particles System with Coordinated Policy Optimization(学习用协调策略优化模拟自驱动粒子系统)了解详情
简介:自驱动粒子(SDP)描述了日常生活中常见的一类多智能体系统,如鸟群和交通流。在SDP系统中,每个代理都追求自己的目标,并不断改变其与邻近代理的合作或竞争行为。手动设计此类SDP系统的控制器非常耗时,而由此产生的紧急行为通常既不现实也不可推广。因此,SDP系统的真实仿真仍然具有挑战性。强化学习为SDP控制器的自动化开发提供了一个有吸引力的替代方案。然而,以前的多智能体强化学习(MARL)方法将智能体定义为事先的队友或敌人,这无法抓住SDP的本质,即每个智能体的角色在一个事件中都是合作或竞争的。要用MARL模拟SDP,一个关键的挑战是在最大化个体目标的同时协调代理人的行为。本文以交通仿真为实验平台,提出了一种新的MARL方法,称为协调策略优化(CoPO),该方法结合社会心理学原理学习SDP的神经控制器。
论文链接:https://arxiv.org/pdf/2110.13827.pdf
标题:Diversity-augmented intrinsic motivation for deep reinforcement learning(深度强化学习的多样性增强内在动机)了解详情
简介:在许多实际问题中,智能体接收到的奖励信号是延迟的或稀疏的,这使得训练强化学习(RL)的智能体具有挑战性。一个内在的奖励信号可以帮助一个智能体探索此类环境以寻求新的状态。本文提出了一种普遍的端到端多样性增强的深层强化学习内在动机,它鼓励智能体探索新的状态,并自动提供更密集的奖励。即本文在基于行列式点过程(DPP)的状态序列模型下测量相邻状态的多样性;与直通梯度估计器相结合,以实现端到端的可微性。实验表明,基于DPP模型得出的多样性测度的内在奖励加速了Atari游戏和超级阿里奥的早期训练阶段。在MuJoCo,该方法改进了使用标准奖励设置的任务的先前技术,并在15项包含延迟奖励的任务中的12项上实现了最先进的性能。
论文链接:https://www.sciencedirect.com/science/article/pii/S0925231221015265#!
标题:Learning to navigate a crystallization model with Deep Reinforcement Learning(学习使用深度强化学习导航结晶模型)了解详情
简介:本文提出了基于卷积神经网络 (CNN) 的测量传感器和加速控制回路的强化学习 (RL) 框架的组合。控制器的目标是达到目标平均尺寸并减少晶体尺寸的可变性。基于 CNN 的传感器提高了晶体尺寸测量的质量并减少了处理图像的时间,而 RL 框架即使在面临干扰时也能学习以最佳方式导航结晶模型。在实验室规模的半间歇结晶器中,使用乙醇作为抗溶剂,针对水中氯化钠的非种子结晶,验证了所提出的数据驱动策略。本文在基于 RL 的控制器可以离线训练以优化多个目标条件,而 CNN 为控制器提供准确的反馈,以在面对干扰时重新计算最佳动作并引导系统朝向目标。
论文链接:https://www.sciencedirect.com/science/article/pii/S0263876221005037#!
标题:Generalized attention-weighted reinforcement learning(广义注意加权强化学习)了解详情
简介:在神经科学中,注意力已被证实可与强化学习 (RL) 双向交互,以减少任务表示的维度,将计算限制为相关特征。本文利用计算神经科学的理论模型——注意力加权 RL (AWRL),定义人类如何识别任务相关的特征(即允许价值预测),来设计应用的深度强化学习范式。本文正式证明了广泛用于机器学习的自注意力机制与价值函数逼近的结合是 AWRL 模型的一般表述。并在三个不同复杂度级别的 Atari 任务上对智能体进行训练,结果证明了 AWRL 框架在复杂任务场景中的更广泛的有效性,并说明了神经科学衍生模型和 RL 之间更深层次集成用于机器学习决策制定的优势。
论文链接:https://www.sciencedirect.com/science/article/pii/S0893608021003853#!
标题:Lateral Transfer Learning for Multiagent Reinforcement Learning(多智能体强化学习的横向迁移学习)了解详情
简介:现有研究人员已将迁移学习机制引入多智能体强化学习 (MARL)。然而,现有的致力于多智能体系统跨任务转移的工作只是为同构智能体或类似领域设计的。本文提出了一种通用的交叉转移方法,称为多智能体横向迁移(MALT),帮助 MARL 减轻训练负担。本文讨论了开发通用多智能体跨任务迁移学习方法的几个挑战,并为 MARL 提供了一种可行的知识重用方法。在开发的方法中,受渐进式网络的启发,本文将特征而不是策略或经验作为传输对象。为了实现更有效的传输,本文基于聚类为智能体分配了预训练的策略网络,同时引入了注意力模块来增强传输框架,此方法对源任务和目标任务没有严格的要求。与现有工作相比,该方法可以在异构智能体之间转移知识,并且在完全不同的任务情况下也可以避免负转移。
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9535269
新工具
标题:MIT | NeRL:基于强化学习的神经进化优化了解详情
简介:本文提出了一个开源的神经进化优化Python框架,该框架由麻省理工学院开发。NEORL提供了进化计算、通过强化学习的神经网络和混合神经进化算法领域最先进算法的全局优化界面。NEORL具有多种多样的算法集、用户友好的界面、并行计算支持、自动超参数调整、详细的文档以及数学和现实世界工程优化中的应用演示。NEORL包含各种优化问题,从组合、连续、混合离散/连续,到高维、昂贵和受限的工程优化。NEORL在与低碳能源研究相关的各种工程应用中进行测试,以解决气候变化问题。这些例子包括核反应堆控制和燃料电池发电。结果表明,NEORL相对于文献中的其他算法和优化框架具有竞争力,是解决大规模优化问题的潜在工具。
论文链接:
https://arxiv.org/pdf/2112.07057v1.pdf
如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,加入强化学习兴趣群。