No.39
智源社区
强化学习组
强
化
学
习
研究
观点
资源
活动
周刊订阅
告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:
方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”便完成订阅。
方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。
关于周刊
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第39期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明、刘青、小胖
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如势场增强强化学习、多智能体广义强化学习、多保真度强化学习及深度强化学习相关的理论及其最新应用等。
本次推荐了14篇强化学习领域的相关论文,主要涉及于区域温度控制数据的近似最优深度强化学习策略、基于深度残差强化学习的自主飞艇控制、基于图强化学习满足混合整数规划:在3D 机器人装配发现的应用、基于势场增强强化学习的多机器人协作追踪、用于智能交通灯控制的多智能体广义强化学习、 自动系统的安全验证:一种多保真度强化学习方法、基于多步时差学习的自适应网络切片组合算法、通过嵌套在有限状态机中的基于策略的强化学习,用于车道合并场景的自动驾驶车辆切入算法、在公共道路工程场景中结合 YOLO 和深度强化学习实现自动驾驶、基于机动特性和COLREGs的无人艇强化学习防撞算法、基于AIS大数据与决斗深度Q网络优先重放强化学习的MASS自主导航系统等。
标题:Near-optimal Deep Reinforcement Learning Policies from Data for Zone Temperature Control(区域温度控制数据的近似最优深度强化学习策略)了解详情
简介:使用更智能的解决方案替换性能较差的现有控制器将降低建筑行业的能源强度。最近,基于深度强化学习(DRL)的控制器被证明比传统的基线更有效。然而,由于最优解决方案通常是未知的,目前尚不清楚DRL代理是否总体上达到了接近最优的性能,或者是否还有很大的差距。本文研究了DRL代理的性能,并与理论上的最优解进行了比较。为此,通过利用物理一致性神经网络(PCNN)作为模拟环境,优化控制输入易于计算。此外,PCNN完全依赖待训练的数据,避免了困难的基于物理的建模阶段,同时保持了物理一致性。研究结果表明,DRL代理不仅明显优于传统的基于规则的控制器,而且还获得了接近最优的性能。
论文链接:https://arxiv.org/pdf/2203.05434.pdf
标题:Deep Residual Reinforcement Learning based Autonomous Blimp Control(基于深度残差强化学习的自主飞艇控制)了解详情
简介:小飞艇非常适合执行长时间的空中任务,因为它们节能、相对安静且安全。为了解决飞艇导航和控制任务,在之前的工作中已开发了一个硬件和软件在环框架,以及一个基于PID的控制器,用于存在风干扰的大型飞艇。然而,飞艇具有可变形的结构,其动力学本质上是非线性和时滞的,使得PID控制器难以调整。因此,通常会导致较大的跟踪误差。此外,由于环境温度和压力的变化,飞艇的浮力不断变化。为了解决这些问题,本文提出了一种基于深度剩余强化学习(DRRL)的基于学习的飞艇控制任务框架。其首先使用PID控制器来提供基线性能。随后,DRRL代理通过与环境交互学习修改PID决策。在模拟中证明了DRRL代理持续改善PID性能。通过严格的模拟实验,表明了该代理对风速和浮力的变化具有鲁棒性。并在真实世界的实验中,证明了仅在模拟中训练的智能体具有足够的鲁棒性,可以在多风条件下控制实际的飞艇。
论文链接:https://arxiv.org/pdf/2203.05360.pdf
标题:Graph-based Reinforcement Learning meets Mixed Integer Programs: An application to 3D robot assembly discovery(基于图强化学习满足混合整数规划:在3D 机器人装配发现的应用)了解详情
简介:机器人装配发现是具有挑战性的问题,它存在于资源分配和运动规划的交叉点。目标是在考虑机器人在循环中执行任务的同时,将一组预定义的对象组合成新的对象。本文使用一组类似俄罗斯方块的积木和一个机械手,解决了完全从头开始构建任意预定义目标结构的问题。本文新颖的分层方法旨在有效地将整个任务分解为三个相互受益的可行级别。高层运行一个经典的混合整数规划,用于对块类型选择和块的最终姿势进行全局优化,以重建所需的形状。然后利用其输出有效地指导潜在强化学习(RL)策略的探索。此外,它还考虑了结构稳定性和机器人可行性的必要条件,而这些条件无法有效地反映在前一层中。最后,抓取和运动规划器将所需的装配命令转换为机器人关节运动。通过在一组竞争性的模拟机器人装配发现环境中演示了该方法的性能,并报告了与非结构化端到端方法相比的性能和鲁棒性增益。
论文链接:https://arxiv.org/pdf/2203.04120.pdf
标题:Multi-robot Cooperative Pursuit via Potential Field-Enhanced Reinforcement Learning(基于势场增强强化学习的多机器人协作追踪)了解详情
简介:仅根据当地观察,以分散的方式协调集体机器人以分散的方式追捕逃犯,这是一个巨大的挑战,尽管很有希望。本文提出了一种将强化学习与人工势场法相结合的新型混合合作追踪算法来解决这一问题。该算法采用分散式深度强化学习来学习适应动态环境的合作追踪策略。将人工势场方法作为预定义规则集成到学习过程中,以提高数据效率和泛化能力。数值模拟结果表明,所提出的混合设计优于传统强化学习或势场法设计的追踪策略。此外,还通过将学习到的追踪策略转移到现实世界的移动机器人上进行了实验。实验结果证明了该算法在学习多种合作追踪策略中的可行性和潜力。
论文链接:https://arxiv.org/pdf/2203.04700.pdf
标题:Multi-Agent Broad Reinforcement Learning for Intelligent Traffic Light Control(用于智能交通灯控制的多智能体广义强化学习)了解详情
简介:智能交通灯控制系统(ITLCS)是一个典型的多智能体系统(MAS),由多条道路和多个交通灯组成。为ITLCS构建MAS模型是缓解交通拥堵的基础。现有的多智能体方法主要基于多智能体深度强化学习(MADRL)。MABRL的深层神经网络(DNN)虽然有效,但训练时间长,参数难以跟踪。近年来,广义学习系统(BLS)扩展到单智能体深度强化学习(SADRL)问题中,效果良好。然而,BRL并不关注复杂的结构和代理之间的交互。基于MADRL的特点和BRL的问题,本文提出了多智能体广义强化学习(MABRL)框架来探讨BLS在MAS中的作用。首先,与大多数现有的MADRL方法不同,MADRL方法使用一系列深度神经网络结构,通过广泛的网络对每个代理进行建模。并引入了动态的自循环交互机制来确认“3W”信息:在什么时候交互,哪些代理需要考虑,什么信息要发送。最后,基于智能交通灯控制场景进行了实验。将MABRL方法与六种不同的方法进行了比较,在三个数据集上的实验结果验证了MABRL的有效性。
论文链接:https://arxiv.org/pdf/2203.04310.pdf
标题:Safety Verification of Autonomous Systems: A Multi-Fidelity Reinforcement Learning Approach( 自动系统的安全验证:一种多保真度强化学习方法)了解详情
简介:随着自动和半自动智能体越来越融入社会,验证其安全性变得越来越重要。然而,使用它们的场景可能相当复杂;因此,形式验证可能是不可能的。为此,基于仿真的安全验证被更频繁地用于了解最复杂问题的故障场景。最近的方法,如自适应应力测试(AST),使用强化学习,使其易于过度利用已知故障,限制了故障空间的覆盖范围。基于此,现有研究定义了一类马尔可夫决策过程,即知识MDP,它捕获有关学习模型的信息,以便进行推理。即通过利用“知其所知”(KWIK)框架,学习者评估其对基础系统的知识(模型估计和信心,以及假设)。通过MF-KWIK-AST对该公式进行审查,该公式将模拟器多保真度(MF)中的双向学习扩展到安全验证问题。知识MDP公式用于检测模型的收敛性,惩罚这种行为以鼓励进一步探索。在网格世界中评估结果,训练对手拦截测试中的系统。蒙特卡罗试验将MF-KWIK-AST的相对样本效率与单一逼真度模拟器的学习进行了比较,并证明了将学习模型的知识纳入决策过程的实用性。
论文链接:https://arxiv.org/pdf/2203.03451.pdf
标题:Learning a World Model With Multitimescale Memory Augmentation(学习具有多时间尺度记忆增强的世界模型)了解详情
简介:基于模型的强化学习(RL)被认为是一种有前途的方法来解决阻碍无模型强化学习的挑战。基于模型的强化学习的成功关键在于预测动态模型的质量。然而,对于许多涉及高维状态空间的现实世界任务,当前的动态预测模型在长期预测中表现不佳。故本文提出了一种具有多时间尺度记忆增强的新型双分支神经网络架构,以不同方式处理长期和短期记忆。通过引入了一种循环神经网络架构,将历史观察序列编码到潜在空间中,表征智能体的长期记忆。不同于以往的研究,本文将最近的观察视为智能体的短期记忆,并使用它们直接重建下一帧以避免复合错误。这是通过引入自监督光流预测结构来对像素级的动作条件特征变换进行建模来实现的。重建的观察结果最终通过长时记忆增强,以确保语义一致性。
论文链接:https://ieeexplore.ieee.org/document/9729537
标题:An Adaptive Network Slice Combination Algorithm Based on Multi-step Temporal-difference Learning(基于多步时差学习的自适应网络切片组合算法)了解详情
简介:本文提出了现有的多臂强盗(MAB)算法用于网络优化,不考虑学习步骤的调整。同时本文针对智能切片组合问题相应地提出了一种用于自适应组合的多步时间差学习(SC-MTD)算法,该算法包括双层优化。在外层中,更新Q值以随着时间的推移达到较低的网络成本,这在高可靠性和低延迟之间体现了更好地权衡。在内层中,连续修改选择度,这表明其用于所提出的算法的学习步骤的可变性。最后,数值结果验证了SC-MTD算法的收敛。此外,与现有的MAB算法相比,可以获得较低的网络成本。
论文链接:
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9729778
标题:Autonomous Vehicle Cut-In Algorithm for Lane-Merging Scenarios via Policy-Based Reinforcement Learning Nested Within Finite-State Machine(通过嵌套在有限状态机中的基于策略的强化学习,用于车道合并场景的自动驾驶车辆切入算法)了解详情
简介:由于人工驾驶和切入自动驾驶汽车之间的利益冲突,车道合并场景给自动驾驶汽车带来了极具挑战性的问题。本文提出了一种嵌套在有限状态机 (FSM) 中的基于强化学习 (RL) 的切入策略网络——这是一种高级决策者,可以在不牺牲安全性的情况下实现高切入性能。提出这种 FSM-RL 混合方法以获得 1) 战略性和可调节算法,2) 最佳安全性和切入性能,以及 3) 稳健和一致的性能。在高级决策算法中,FSM 为四个切入阶段(准备安全间隙选择、间隙接近、协商和车道变换执行)提供了一个框架,并通过计算碰撞风险来处理这些阶段之间的转换与目标车辆相关联。对于换道阶段,采用基于策略的深度强化学习方法和软演员-评论家网络来获得最佳切入性能。
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9729796
标题:Space Information Network Resource Scheduling for Cloud Computing: A Deep Reinforcement Learning Approach(东南大学云计算的空间信息网络资源调度:一种深度强化学习方法)了解详情
简介:随着卫星技术的发展,空间信息网络(SIN)已被应用到各个领域。SIN 可以提供越来越复杂的服务,接受越来越多的任务。现有的资源调度算法难以在如此复杂的资源和任务环境中发挥有效作用。本文提出了基于强化学习的资源分配方案。首先,根据SIN的资源特点,建立SIN的云计算架构,对资源进行统一管理。然后,采用基于模糊和层次聚类算法的可变粒度资源聚类算法。该算法可以自适应地调整资源大小,缩小调度范围。最后,通过强化学习算法对资源调度过程进行建模解决联合资源调度问题。仿真结果表明,该方案能够有效降低资源消耗,缩短任务执行时间,提高SIN的资源利用效率。
论文链接:https://downloads.hindawi.com/journals/wcmc/2022/1927937.pdf
标题:Combining YOLO and Deep Reinforcement Learning for Autonomous Driving in Public Roadworks Scenarios(在公共道路工程场景中结合 YOLO 和深度强化学习实现自动驾驶)了解详情
简介:自动驾驶正在成为人工智能 (AI) 算法在监督学习和强化学习方法方面的一个有效的实际应用。人工智能是解决一些自动驾驶问题的方案,但它尚未充分研究以应对人类驾驶员每天面临的现实世界特定问题,例如临时道路工程和临时标志。这是提出本文中框架的核心动机。YOLOv3-tiny 用于检测车辆行驶路径中的道路工程标志。DDPG用于控制车辆在超越工作区域时的行为。乘客和周围环境的安全是最优先考虑问题。YOLOv3-tiny 实现了 94.8% 的 mAP,并在实际应用中被证明是可靠的。DDPG 使车辆在测试时成功运行超过 50% 的场景,但仍需要一些改进才能应用于现实世界以确保安全驾驶。
论文链接:https://www.scitepress.org/Papers/2022/109136/109136.pdf
标题:A Novel Reinforcement Learning Collision Avoidance Algorithm for USVs Based on Maneuvering Characteristics and COLREGs(基于机动特性和COLREGs的无人艇强化学习防撞算法)了解详情
简介:自主防撞技术为无人水面艇(USV)安全高效导航提供了一种智能方法。本文研究了国际海上避碰规则(COLREGs)约束下的USV避碰问题,提出了一种符合 USV 机动性的强化学习防撞 (RLCA) 算法。使用双DQN方法用于减少动作价值函数的高估。针对智能体探索问题,提出了一种基于无人艇类别和避碰特性的探索方法,可以提高无人艇的探索能力。由于早期步骤中大量的转向行为可能会影响训练,因此设计了一种丢弃部分转换的方法,可以提高算法的有效性。使用符合 USV 机动性和 COLREG 的有限马尔可夫决策过程 (MDP) 用于智能体训练。RLCA 算法在许多不同的 USV 遭遇的海洋模拟环境中进行了测试,显示出更高的平均奖励。
论文链接:https://www.mdpi.com/1424-8220/22/6/2099/pdf
标题:A Fast and Robust Algorithm with Reinforcement Learning for Large UAV Cluster Mission Planning(一种用于大型无人机集群任务规划的快速鲁棒强化学习算法)了解详情
简介:包含数百架无人机的大型无人机(UAV)集群已在现代世界中广泛使用。其中,任务规划是大型无人机集群协同系统的核心。本文通过将简单注意模型 (SAM) 引入动态信息强化学习 (DIRL) 中提出了一种任务规划方法,称为 DIRL-SAM。为了降低原始注意力模型的计算复杂度,推导出具有轻量级交互模型的SAM,以快速提取集群信息的高维特征。在 DIRL 中,通过动态调整训练条件来模拟不同的任务环境。同时,DIRL中的数据扩展保证了模型在这些动态环境中的收敛性,提高了算法的鲁棒性。最后,仿真实验结果表明,该方法能够自适应地提供具有秒级求解速度的可行任务规划方案,并且在大规模集群规划问题中表现出优异的泛化性能。
论文链接:https://www.mdpi.com/2072-4292/14/6/1304/pdf
标题:MASS autonomous navigation system based on AIS big data with dueling deep Q networks prioritized replay reinforcement learning(基于AIS大数据与决斗深度Q网络优先重放强化学习的MASS自主导航系统)了解详情
简介:船舶自主导航是智能船舶最关键的一步,是完成海上自主水面舰艇(MASS)各项任务的主要前提。本文提出了一种基于船舶自动识别系统(AIS)大数据和决斗深度Q网络优先回放(Dueling-DQNPR)强化学习的MASS自主导航系统。本研究建立三个难度级别的导航环境,通过设置奖励机制依次训练Dueling-DQNPR网络。此外,Dueling-DQNPR 通过结合优先经验回放、决斗结构和长短期记忆单元进行改进,以增加网络深度和处理连续数据的能力。最后,在舟山港附近海域进行了AIS轨迹数据的模拟训练。结果表明,通过反复试验,可以控制 MASS 在不发生碰撞的情况下到达目的地。
论文链接:https://www.sciencedirect.com/science/article/pii/S0029801822002785
研究综述
标题:角色动画强化学习方法综述了解详情
简介:强化学习是机器学习的一个领域,它关注的是如何训练智能体在任意环境中做出连续的决策,并实现特定的目标。在学习过程中,其会根据对环境的观察反复采取行动,并获得相应的奖励,从而确定目标。然后,利用这一经验逐步改进控制代理行为的策略,该策略通常由神经网络表示。然后,这个经过训练的模块可以用于类似的问题,这使得这种方法有希望在模拟器、视频游戏或虚拟现实环境中为自主但反应性的角色制作动画。本文综述了现代深度强化学习方法,并讨论了它们在角色动画中的可能应用,从单个物理角色的骨架控制到单个代理和虚拟群体的导航控制器。它还描述了训练DRL系统的实际方面,比较了可用于构建此类代理的不同框架。
论文链接:
https://arxiv.org/pdf/2203.04735.pdf
如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,加入强化学习兴趣群。