No.37
智源社区
强化学习组
强
化
学
习
研究
观点
资源
活动
关于周刊
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第37期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:请点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,点击作者栏“预训练周刊”后选择“关注TA”。(注:《强化学习周刊》Hub社区版内有详细的订阅步骤图示介绍)。
本期贡献者:李明、刘青、小胖
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如视觉深度强化学习、安全强化学习、基于深度强化学习的停车系统应用、多智能体深度强化学习相关的理论及其最新应用等。
本次推荐了13篇强化学习领域的相关论文,主要涉及于DDA3C:群体智能体系统中的协作分布式深度强化学习、基于深度协作多智能体强化学习中的价值分解算法、分布式离线强化学习中通信复杂度的确定、更安全:通过技能获取实现数据高效和安全强化学习、具有可实现性和单策略集中性的离线强化学习、基于离线训练强化学习的对抗性训练演员评论家、基于模型的正则化离线元强化学习、选项兼容奖励逆强化学习、基于噪声环境的鲁棒多智能体强化学习、智能问题解决作为集成的分层强化学习、基于强化学习的连续控制行为学习与自适应机器人操作、基于深度强化学习的无人机自主切换决策、基于强化学习的因果推理随机干预等。
标题:Reward-Free Policy Space Compression for Reinforcement Learning(基于强化学习的无奖赏策略空间压缩)了解详情
简介:在强化学习中,本文将与环境交互的agent的潜在行为编码为无限的策略集,即策略空间,通常由一系列参数函数表示。处理这样的策略空间是一项艰巨的挑战,其通常会导致样本和计算效率低下。然而,当考虑到环境的结构和策略参数化时,有限数量的策略实际上是相关的,因为它们中的许多会引发非常相似的交互,即状态-动作分布。本文寻求将策略空间无奖励压缩为一组有限的代表性策略,这样,给定任何策略π,代表性策略的状态行为分布和π的状态行为分布之间的最小Rényi散度是有界的。研究表明这种策略空间的压缩可以表述为一个集合覆盖问题,它本质上是NP难的。尽管如此,本文提出了一种博弈论重构,通过迭代拉伸压缩空间以覆盖敌对策略,可以有效地找到局部最优解。最后,本文提供了一个实证评估来说明简单域中的压缩过程及其在强化学习中的连锁反应。
论文链接:https://arxiv.org/pdf/2202.11079.pdf
标题:Discovering mechanisms for materials microstructure optimization via reinforcement learning of a generative model(基于生成模型的强化学习发现材料微观结构优化机制)了解详情
简介:用于优化功能特性和潜在新行为发现的材料结构设计是材料科学的关键问题。在许多情况下,支持材料功能的微观结构模型是可用的并且很好理解。然而,通过微观结构工程优化平均性能通常会导致组合上难以解决的问题。本文探索使用强化学习 (RL) 进行微观结构优化,以发现增强功能背后的物理机制。现有研究表明 RL 可以深入了解驱动二维离散朗道铁电模拟器中感兴趣的特性的机制。研究发现如果将奖励分配给物理上不可能完成的任务,就会出现非平凡的现象,本文通过奖励 RL 代理将极化矢量旋转到能量上不利的位置来说明这一点。研究进一步发现,基于对学习代理策略的分析,诱导极化卷曲的策略可能是非直观的。该研究表明,RL 是一种很有前途的机器学习方法,用于材料设计优化任务,以及更好地理解微观结构模拟的动力学。
论文链接:https://arxiv.org/ftp/arxiv/papers/2202/2202.10988.pdf
标题:Cellular Network Capacity and Coverage Enhancement with MDT Data and Deep Reinforcement Learning(基于MDT数据和深度强化学习的蜂窝网络容量和覆盖范围增强)了解详情
简介:近年来,通信网络中数据和计算资源的可用性显著增加。这促成了网络自动化中数据驱动算法的兴起,而非模型驱动算法。本文研究了最小化驾驶测试(MDT)驱动的深度强化学习(DRL)算法,该算法通过调整TIM蜂窝网络中一组小区上的天线倾斜来优化覆盖范围和容量。其联合使用MDT数据、电磁模拟和网络关键性能指标(KPI)来定义训练深度Q网络(DQN)代理的模拟网络环境。对经典的DQN配方进行了一些调整,以提高智能体的样本效率、稳定性和性能。特别是,自定义探索策略旨在在训练时引入软约束。结果表明,该算法在长期奖励和样本效率方面优于DQN和最佳优先搜索等基线方法。研究结果表明,MDT 驱动的方法构成了移动无线电网络自主覆盖和容量优化的宝贵工具。
论文链接:https://arxiv.org/pdf/2202.10968.pdf
标题:VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning(VRL3:一种数据驱动的视觉深层强化学习框架)了解详情
简介:本文提出了一个简单但功能强大的数据驱动框架,用于解决极具挑战性的视觉深层强化学习(DRL)任务。其分析了采用数据驱动方法的一些主要障碍,并提出了一套关于数据驱动视觉DRL的设计原则、训练策略和关键见解。该框架分为三个阶段:第一阶段,利用非RL数据集(如ImageNet)学习任务无关的视觉表征;在第二阶段,使用离线RL数据(例如,有限数量的专家演示)将任务不可知表示转换为更强大的任务特定表示;在第三阶段,通过使用在线RL微调智能体。在一组具有稀疏奖励和真实视觉输入的极具挑战性的手部操作任务中,该框架比之前的SOTA方法学习速度快370%-1200%,同时使用了一个小50倍的编码器,充分展示了数据驱动的深度强化学习的潜力。
论文链接:https://arxiv.org/pdf/2202.10324.pdf
标题:Multi-task Safe Reinforcement Learning for Navigating Intersections in Dense Traffic(多任务安全强化学习在交通密集交叉口导航中的应用)了解详情
简介:对于自动驾驶来说,多任务交叉口导航(包括无保护左转、右转和在密集交通中直行)仍然是一项具有挑战性的任务。对于人类驾驶员来说,与其他交互式车辆的协商技巧是保证安全和效率的关键。然而,在多任务交叉口导航中,很难平衡自动驾驶车辆的安全性和效率。本文中提出了一种多任务的安全强化学习方法,以提高与其他交通参与者互动时的安全性和效率。具体而言,社交注意力模块用于关注谈判工具的状态。此外,在多任务强化学习框架中增加了一个安全层,以保证安全协商。本文在模拟多任务交叉口导航的SUMO和CARLA中进行了大量交通流和高保真车辆模型的对比实验,这两个实验都表明,对于多任务交叉口导航,该算法可以在保持交通效率一致的情况下提高安全性。
论文链接:https://arxiv.org/pdf/2202.09644.pdf
标题:TransDreamer: Reinforcement Learning with Transformer World Models(TransDreamer:基于 Transformer World 模型的强化学习)了解详情
简介:Dreamer智能体提供了基于模型的强化学习(MBRL)的各种优势,例如样本效率、可重用知识和安全规划。然而,它的世界模型和政策网络继承了递归神经网络的局限性,因此MBRL框架如何从变压器的最新进展中受益成为了一个重要的问题,以及这样做面临的挑战是什么。本文提出了基于Transformer 的MBRL代理,称为TransDreamer。其首先介绍Transformer状态空间模型,这是一个利用Transformer进行动力学预测的世界模型。然后,通过与基于Transformer 的策略网络共享这个世界模型,并在训练基于变压器的RL代理时获得稳定性。在实验中,本文将所提出的模型应用于2D视觉RL和3D第一人称视觉RL任务,这两种任务都需要长距离的内存访问来进行基于内存的推理。研究结果表明,在这些复杂的任务中,该模型的性能优于Dreamer。
论文链接:https://arxiv.org/pdf/2202.09481.pdf
标题:CADRE: A Cascade Deep Reinforcement Learning Framework for Vision-based Autonomous Urban Driving( CADRE:基于视觉的城市自动驾驶的级联深度强化学习框架)了解详情
简介:由于复杂的城市环境和驾驶行为的动态性,基于视觉的城市密集交通中的自主驾驶具有很大的挑战性。广泛应用的方法要么严重依赖手工制定的规则,要么从有限的人类经验中学习,这使得它们很难推广到罕见但关键的场景。本文提出了一种新颖的 CAscade 深度强化学习框架 CADRE,以实现基于视觉的无模型自动城市驾驶。其为从原始观察中获得具有代表性的潜在特征,本文首先离线训练一个协同注意感知模块(CoPM),该模块利用协同注意力机制从预先收集的驾驶数据集中学习视觉和控制信息之间的相互关系。然后,提出了一个有效的分布式近端策略优化框架,在特定设计的奖励函数的指导下在线学习驱动策略。本文使用CARLA NoCrash基准以及自动城市驾驶任务中的特定避障场景进行了全面的实证研究。实验结果很好地证明了 CADRE 的有效性及其在很大程度上优于最先进的技术。
论文链接:https://arxiv.org/pdf/2202.08557.pdf
标题:Energy-Efficient Parking Analytics System using Deep Reinforcement Learning(基于深度强化学习的节能停车分析系统)了解详情
简介:深度视觉技术的进步和智能摄像头的普及将推动下一代视频分析。然而,视频分析应用程序消耗了大量能源,因为深度学习技术和摄像头都非常耗电。本文将重点放在停车视频分析平台上,并提出基于深度强化学习的RL CamSleep技术来驱动摄像头,以减少能耗,同时保持系统的实用性。其主要见解是,许多视频分析应用程序并不总是需要运行,并可以设计策略以仅在必要时激活视频分析。此外,该研究是对现有工作的补充,这些工作侧重于提高硬件和软件效率。通过在一个城市规模的停车数据集上评估了该方法,该数据集有76条街道分布在整个城市。研究结果分析表明,街道上有各种停车模式,突出了适应性政策的重要性。该方法可以学习这样一种自适应策略,它可以将平均能耗降低76.38%,并在执行视频分析时达到98%以上的平均准确率。
论文链接:https://arxiv.org/pdf/2202.08973.pdf
标题:AI-empowered Joint Communication and Radar Systems with Adaptive Waveform for Autonomous Vehicles(用于自动驾驶汽车的具有自适应波形的人工智能联合通信和雷达系统)了解详情
简介:在基于联合通信和雷达 (JCR) 的自主车辆 (AV) 系统中,由于雷达和数据通信功能之间的强大影响,优化波形结构是最具挑战性的任务之一。即数据通信帧的前导码通常用于雷达功能。因此,相干处理间隔 (CPI) 中的前导数越多,雷达的性能就越好。但通信效率随着前导数的增加而降低。此外,AV 周围的无线电环境具有高不确定性,这使得 JCR 的波形优化问题更具挑战性。本文基于马尔可夫决策过程框架和深度强化学习的最新先进技术开发了一种新颖的 JCR 框架。JCR-AV 无需事先完全了解周围环境,就可以自适应地优化其波形结构(即 CPI 中的帧数),从而在周围环境的动态和不确定性下最大限度地提高雷达和数据通信性能。
论文链接:https://arxiv.org/pdf/2202.11508.pdf
标题:Learning-based airborne sensor task assignment in unknown dynamic environments(未知动态环境下基于学习的机载传感器任务分配)了解详情
简介:在传感器管理方面,现有的研究依赖于传统的系统建模,力求最大限度地发挥信息优势。事实上,空战任务中复杂的环境扰动、信息不完整或不合作行为往往会带来未知的系统演化;此外,检测安全性是首要保障。本文提出了未知动态环境下的机载传感器任务分配问题。其需要在没有这种模型支持的情况下在保持必要的传感器检测的同时最大化智能体生存。在赋值执行中,不是直接套用现有的强化学习方法,而是设计状态空间和奖励以满足实战需求。首先,本文考虑态势变量这种离散的状态变量,以减少计算负担。其次,奖励结构也是根据任务的复杂约束条件设计的,鼓励较低的任务风险和相对充分的感知利用,同时惩罚过于危险的连续任务和任务收入不足。
论文链接:https://www.sciencedirect.com/science/article/pii/S0952197622000483/pdfft?md5=c58edf5a590449e36e485afa1d08be5a&pid=1-s2.0-S0952197622000483-main.pdf
标题:Multi-Agent Reinforcement Learning Based Fully Decentralized Dynamic Time Division Configuration for 5G and B5G Network(基于多智能体强化学习的5G和B5G网络全分散动态时分配置)了解详情
简介:未来的网络服务必须适应高度动态的上下行流量。虽然 5G NR 提供了更灵活的双工模式,但如何根据业务流量配置有效的双工模式仍然是一个开放的研究领域。本文提出了基于分布式多智能体深度强化学习(MARL)的分散式动态时分双工(D-TDD)技术配置方法。首先,将 D-TDD 配置问题建模为动态规划问题。其目标是找到 D-TDD 配置策略,使所有 UE 的总和率的预期折扣回报最大化。其次,为了减少信令开销,本文设计了一个采用分布式 MARL 技术的完全去中心化的解决方案。第三,为了解决 MARL 中缺乏全局信息导致的整体系统收益问题,本文应用了宽大控制和基于二进制 LSTM (BLSTM) 的自动编码器。通过并行分布式训练,得到全局 D-TDD 策略。该方法将MARL算法部署在每个基站的移动边缘计算(MEC)服务器上,利用服务器的存储和计算能力进行分布式训练。
论文链接:https://www.mdpi.com/1424-8220/22/5/1746/htm
标题:Time-Driven Scheduling Based on Reinforcement Learning for Reasoning Tasks in Vehicle Edge Computing(基于强化学习的时间驱动调度在车辆边缘计算中的推理任务)了解详情
简介:由于边缘环境中的异构资源和推理任务中复杂的数据依赖性,推理任务调度仍然存在重大挑战,包括从可能的众多组合中选择最佳任务服务器解决方案。本文设计了一种基于强化学习(RL)的时间驱动调度策略,用于车辆边缘计算中的推理任务。首先,将车辆应用的推理过程抽象为基于有向无环图的模型。其次,根据优先级评估方法定义子任务的执行顺序。最后,通过深度 Q 学习 (DQN) 选择最佳任务服务器调度解决方案。大量的仿真实验表明,所提出的调度策略可以有效降低推理任务的完成延迟。与经典算法相比,它在算法收敛性和运行时间上表现更好。
论文链接:https://downloads.hindawi.com/journals/wcmc/2022/3213311.pdf
标题:SEM: Safe exploration mask for q-learning(SEM:q-learning 的安全探索掩码)了解详情
简介:大多数强化学习算法专注于发现最优策略以最大化奖励,而忽略了探索阶段的安全问题,这在工业应用中是不可接受的。本文关注在没有任何先验知识的情况下,在 q-learning 的探索阶段提高智能体安全性的有效方法。本文提出了名为安全探索掩码的新方法,通过修改环境的转换可能性来减少 q-learning 中安全违规的数量。为此,设计了一个由距离度量和可控性度量组成的安全指示函数。智能体可以通过自举学习安全指标函数,而无需额外的优化求解器。基于安全指示函数,生成安全探索掩码,通过减少不安全动作的转移可能性来修改原始探索策略。最后,离散和连续环境中的模拟证明了本文的方法在离散和连续 q 学习算法中的优势、可行性和安全性。
论文链接:https://www.sciencedirect.com/science/article/pii/S0952197622000574/pdfft?md5=cd9786ae45cd174bfe2126fc17933135&pid=1-s2.0-S0952197622000574-main.pdf
标题:Attention Enhanced Reinforcement Learning for Multi agent Cooperation(面向多智能体协作的注意力增强强化学习)了解详情
简介:本文提出了一种称为注意力增强强化学习 (AERL) 的新方法,以解决多智能体协作的复杂交互、有限通信范围和时变通信拓扑等问题。AERL 包括通信增强网络 (CEN)、图时空长短期记忆网络 (GST-LSTM) 和共享多伪评论家近端策略优化 (PS-MPC-PPO) 的参数。其中基于图注意力机制的 CEN 旨在扩大智能体的通信范围并处理智能体之间的复杂交互。GST-LSTM 将 LSTM 中的标准全连接(FC)算子替换为图注意力算子,旨在捕捉时间依赖性,同时保持 CEN 学习的空间结构。PS-MPC-PPO, 它通过参数共享将多智能体系统中的近端策略优化 (PPO) 扩展到具有大量训练智能体的环境中,其设计具有多伪批评者,以减轻训练中的偏差问题并加速收敛过程。三组代表性场景的仿真结果,包括编队控制、群体遏制和捕食者-猎物博弈,证明了 AERL 的有效性和鲁棒性。
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9716772
标题:RLMR: Reinforcement Learning Based Multipath Routing for SDN(RLMR:基于强化学习的 SDN 多路径路由)了解详情
简介:结合软件定义网络(SDN)集中控制和调度的特点,基于人工智能的资源调度成为可能。但是,目前的SDN路由算法存在链路利用率低的问题,无法根据实时网络状态进行更新和调整。本文旨在通过提出一种基于强化学习的 SDN 多路径路由 (RLMR) 方案来解决这些问题。RLMR 使用马尔可夫决策过程 (MDP) 和 Q-Learning 进行训练。RLMR根据网络状态和流特征的实时信息,对不同的流进行路由。当没有满足带宽要求的链路时,根据服务质量优先级对剩余流量进行重新分配,完成多径路由。此外,本文定义了前向效率(FE)来衡量多路径路由下的链路带宽利用率(LBU)。仿真结果表明,与目前主流的最短路径算法和ECMP算法相比,RLMR可以有效提高路由的效率和质量。
论文链接:https://downloads.hindawi.com/journals/wcmc/2022/5124960.pdf
标题:Train timetabling with the general learning environment and multi-agent deep reinforcement learning(利用通用学习环境和多智能体深度强化学习制定训练时间表)了解详情
简介:针对不同铁路系统的列车时刻表问题,提出了一种多智能体深度强化学习方法。构造了一个通用的列车时刻表学习环境,将问题建模为一个马尔可夫决策过程,在该过程中,问题的目标和复杂约束可以有效地分布。通过细微的变化,环境可以在广泛使用的双线铁路系统和更复杂的单线铁路系统之间灵活切换。为了解决维数灾难问题,提出了一种多智能体行动者-批评家算法框架,将大型组合决策空间分解为多个独立的决策空间,并用深度神经网络对其进行参数化。使用一个真实实例和几个测试实例对所提出的方法进行了测试。实验结果表明,该方法可以在合理的计算时间内获得单轨列车时刻表问题的合作策略,在解的最优性方面优于几种常用的方法,通过稍微改变环境,该方法可以很容易地推广到双轨列车时刻表问题。
论文链接:https://www.sciencedirect.com/science/article/pii/S019126152200025X
研究综述
标题:基于深度强化学习的自适应和泛化方法综述了解详情
简介:深度强化学习(DRL)旨在创建智能代理,使其能够学习在现实环境中高效地解决复杂问题。通常,有两个学习目标:适应性和泛化,用于将DRL算法在不同任务和领域中的性能基线化。本文综述了基于DRL的自适应和泛化方法的最新发展。其首先在任务和领域的背景下制定这些目标。然后,综述了在这些方法下的最新工作,并讨论了未来的研究方向,通过这些研究可以增强DRL算法的适应性和可推广性,并可能使其适用于广泛的现实问题。
论文链接:
https://arxiv.org/ftp/arxiv/papers/2202/2202.08444.pdf
如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,加入强化学习兴趣群。