关于周刊
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第27期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等,以飨诸位。
本期贡献者:李明、刘青、小胖、陈元
文章来源:智源社区
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如深度强化学习、非策略强化学习、基于通用目标的强化学习、基于协作深度强化学习、贝叶斯多智能体强化学习及人机协作强化学习相关的理论及其最新应用等。
本次推荐了13篇强化学习领域的相关论文,主要涉及于通用LTL目标的强化学习很难实现、基于深度强化学习的自适应校准 Critic 估计、基于强化学习的回溯学习状态表征、基于强化学习的连续可解释推荐路径探索、基于无线蜂窝网络的语义感知协作深度强化学习、通信故障下微电网能量管理的多智能体贝叶斯深度强化学习、多智能体强化学习中策略梯度的研究、用遗传算法和强化学习探索弦理论真空的结构、多智能体强化学习的离线策略修正、装配任务中人机协作的强化学习方法、基于深度强化学习的低成本集成模型选择、SADRL:通过监督辅助深度强化学习将人类经验与机器智能相结合、基于非策略强化学习的无速度测量的数据驱动人机交互等。
标题:Reinforcement Learning for General LTL Objectives Is Intractable(通用LTL目标的强化学习很难实现)
简介:近年来,研究人员在设计用于优化线性时态逻辑(LTL)目标和类LTL目标的强化学习算法方面取得了重大进展。尽管取得了这些进展,但在如何解决这个问题上仍存在一些基本的局限性,之前的研究已经提到了这些局限性,但这些局限性尚未深入研究。故本文从理论上解决了通用LTL目标下的学习困难问题。本文在可能近似正确的马尔可夫决策过程学习(PAC-MDP)框架下对问题进行了形式化描述,PAC-MDP框架是度量强化学习中样本复杂性的标准框架。在这种形式化中,证明了任何LTL公式的最优策略只有在公式位于LTL层次结构中最有限的类中,且仅由有限的时域可判定属性组成时,才是PAC MDP可学习的。实际上,本文结果表明强化学习算法在与无约束环境进行有限次交互后,不可能对其学习策略的性能获得PAC-MDP保证,以实现非有限时域可决策LTL目标。
论文地址:https://www.aminer.cn/pub/619eff0a5244ab9dcbdda843?f=cs
标题:Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning(基于深度强化学习的自适应校准 Critic 估计)
简介:准确的价值估计对于离线策略强化学习很重要。基于时间差异学习的算法通常容易随着时间的推移而产生高估或低估偏差。本文提出了一种称为自适应校准评论者 (ACC) 的通用方法,该方法使用最新的高方差但无偏的 on-policy rollouts 来缓解低方差时间差异目标的偏差。本文将 ACC 应用于 截断分位数评论者,这是一种用于连续控制的算法,其允许通过针对每个环境调整的超参数来调节偏差。由此产生的算法在训练期间自适应地调整参数,从而使超参数搜索变得不必要,并在所有不为每个环境调整超参数的算法中,在 OpenAI gym 连续控制基准上设置了新的技术状态。此外,本文通过进一步将 ACC 应用于 TD3 并在此设置中显示出改进的性能来证明 ACC 是非常通用的。
论文地址:https://www.aminer.cn/pub/619eff0a5244ab9dcbdda83f?f=cs
标题:Learning State Representations via Retracing in Reinforcement Learning(基于强化学习的回溯学习状态表征)
简介:本文提出了新颖的自监督方法-通过回溯学习的方法,用于学习强化学习任务的状态表征(以及相关的动力学模型)。除了正向的预测(重建)监督外,本文还建议通过在原始状态和回溯状态之间实施循环一致性约束,将“回溯”转换包括在表示/模型学习中,从而提高学习的样本效率。此外,通过回溯的学习显式地向后传播关于未来转换的信息,以推断先前的状态,从而促进更强的表示学习。本文介绍了循环一致性世界模型(CCWM),这是在现有的基于模型的强化学习框架下实现的通过回溯学习的一个具体实例。此外,本文还提出了一种新的自适应“截断”机制,用于抵消“不可逆”转换带来的负面影响,从而使通过回溯的学习能够最大限度地有效。通过对连续控制基准的大量实证研究表明了CCWM在样本效率和渐近性能方面达到了最先进的性能。
论文地址:https://www.aminer.cn/pub/619eff0a5244ab9dcbdda7d1?f=cs
标题:Reinforcement Learning based Path Exploration for Sequential Explainable Recommendation(基于强化学习的连续可解释推荐路径探索)
简介:由于知识图提供了丰富的信息,基于路径的可解释推荐系统的最新研究进展引起了越来越多的关注。大多数现有的可解释的推荐只利用静态的图谱,而忽略了动态的用户-物品演变,导致解释不太有说服力和不准确。尽管有一些工作意识到对用户的时间顺序行为建模可以提高推荐系统的性能和可解释性,但其中大多数要么只专注于对路径内用户的顺序交互进行建模,要么独立于推荐机制。本文提出了一种新颖的利用强化学习的时态元路径引导的可解释推荐(TMER-RL),其利用具有注意机制的连续项目之间的强化项目路径建模,在动态知识图上对动态用户项目演化进行顺序建模,以实现可解释推荐。与使用重循环神经网络对时间信息进行建模的现有工作相比,本文提出了简单但有效的神经网络来捕获用户的历史物品特征和基于路径的上下文来表征下一个购买的物品。在两个真实数据集上对TMER进行的广泛评估显示,与最近的强基线相比,TMER具有最先进的性能。
论文地址:https://www.aminer.cn/pub/619eff095244ab9dcbdda412?f=cs
标题:Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless Cellular Networks(基于无线蜂窝网络的语义感知协作深度强化学习)
简介:协作式深度强化学习(CDRL)算法是一种多智能体通过无线网络进行协作的方法,它可以使未来的智能自主系统在复杂的动态环境中依靠实时决策。然而,在实际场景中,由于代理及其学习任务的异构性、不同的环境、学习的时间限制以及无线网络的资源限制,CDRL面临许多挑战。为此,本文提出了一种新的语义感知CDRL方法,使一组具有语义链接DRL任务的异构未经训练的代理能够在资源受限的无线蜂窝网络中高效协作。即提出了一种新的异构联合DRL(HFDRL)算法来选择语义相关DRL代理的最佳子集进行协作。本文提出的方法联合优化协作选择智能体的训练损失和无线带宽分配,以便在其实时任务的时间限制内训练每个代理。仿真结果表明,与最先进的基线相比,该算法具有优越的性能。
论文地址:https://www.aminer.cn/pub/619dad545244ab9dcb27bcd1?f=cs
标题:Multi-agent Bayesian Deep Reinforcement Learning for Microgrid Energy Management under Communication Failures(通信故障下微电网能量管理的多agent贝叶斯深度强化学习)
简介:微电网(MG)是未来交易式能源系统的重要参与者,在智能电网中,许多智能物联网(IoT)设备相互作用以进行能源管理。虽然已经有很多关于MG能量管理的研究,但大多数研究都假设有一个完美的通信环境,其中不考虑通信故障。本文考虑MG作为一个多代理环境与IOT设备,其中人工智能代理交换信息与他们的同行合作。然而,协作信息可能由于通信故障或分组丢失而丢失。此类事件可能会影响整个MG的运行。为此,提出了一种多智能体贝叶斯深度强化学习(BA-DRL)方法,用于通信故障下的MG能量管理。首先定义了一个多智能体部分可观测马尔可夫决策过程(MA-POMDP)来描述通信故障下的智能体,在该过程中,每个智能体可以更新其对其对等体行为的信念。然后,将双深度Q学习(DDQN)体系结构应用于BA-DRL中的Q值估计,并提出了一种基于信念的相关均衡,用于多智能体BA-DRL的联合行动选择。
论文地址:https://www.aminer.cn/pub/619dad515244ab9dcb27b6a8?f=cs
标题:Status-quo policy gradient in Multi-Agent Reinforcement Learning(多Agent强化学习中策略梯度的研究)
简介:在多智能体问题中,个人理性涉及最大化预期个人收益,并不总是导致高效用的个人或群体结果。例如,在多智能体的社会困境中,强化学习(RL)智能体训练以最大化个人回报,收敛到一个低效用的互害均衡。相反,人类在这种社会困境中进化出有用的策略。受将这种行为归因于现状偏差的人类心理学思想的启发,本文提出了一种现状损失(SQLoss)和相应的策略梯度算法,该算法将这种偏差纳入RL代理中。文章证明了使用SQLoss训练的代理在几个社会困境矩阵博弈(囚徒困境、雄鹿狩猎矩阵变体、小鸡博弈)中学习高效用策略。展示了SQLoss如何在使用预先训练的合作和叛逃预言器的视觉输入非矩阵游戏(硬币游戏和Stag Hunt视觉输入变体)中优于现有的最新方法,以获得高效用策略。
论文地址:https://www.aminer.cn/pub/61a42bea6750f87ad3359a52?f=cs
标题:Probing the Structure of String Theory Vacua with Genetic Algorithms and Reinforcement Learning(用遗传算法和强化学习探索弦理论真空的结构)
简介:要确定弦理论真空在低能下具有理想的物理性质,需要在高维解空间中进行搜索——统称为弦景观。文章强调,这个搜索问题是服从强化学习和遗传算法。在通量真空的背景下,本文能够揭示弦耦合等性质所需的弦理论解中的新特征(表明以前未确定的对称性)。为了可靠地识别这些特征,文章结合了两种搜索方法的结果,文章认为这对于减少抽样偏差是必要的。
论文地址:https://www.aminer.cn/pub/619dad505244ab9dcb27afeb?f=cs
标题:Off-Policy Correction For Multi-Agent Reinforcement Learning(多Agent强化学习的离线策略修正)
简介:多智能体强化学习(MARL)为涉及多个交互智能体的问题提供了一个框架。尽管多智能体问题与单智能体问题有着明显的相似性,但从理论上讲,多智能体问题往往更难训练和分析。在这项工作中,论文提出了MA-Trace,这是一种新的基于策略的actor-critic算法,它将V-Trace扩展到MARL设置。算法的主要优点是在多工作者环境中具有很高的可扩展性。为此,MA Trace利用重要性抽样作为非策略校正方法,允许在不影响训练质量的情况下分配计算。此外,算法是有理论基础的——证明了一个保证收敛的不动点定理。在星际争霸多智能体挑战赛(StarCraft Multi-Agent Challenge,多智能体算法的标准基准)上对该算法进行了广泛的评估。MA Trace在其所有任务上都实现了高性能,并且在某些任务上超过了最先进的结果。
论文地址:https://www.aminer.cn/pub/619c5bbf5244ab9dcbf22866?f=cs
标题:A reinforcement learning method for human-robot collaboration in assembly tasks(装配任务中人机协作的强化学习方法)
简介:高精度产品的装配过程涉及到各种耗时耗能的精细操作。无论是操作人员还是机器人都无法独立高效地完成任务。将人机协作应用于复杂的装配操作将有助于减少人类工作量并提高效率。然而,人类在装配活动中的行为是不可预测的,因此机器人很难理解人类操作的意图。因此,人类和机器人的协作在工业应用中具有挑战性。对此,提出了一种人机协同强化学习算法来优化装配过程中的任务序列分配方案。最后,通过对交流发电机虚拟组件的实验分析验证了该方法的有效性。结果表明,所提出的方法在人机协作任务的动态划分方面具有很大的潜力。
论文地址:https://www.aminer.cn/pub/618ba77e5244ab9dcbbf4cc0?f=cs
标题:Cost-effective ensemble models selection using deep reinforcement learning(基于深度强化学习的低成本集成模型选择)
简介:集成学习即在同一任务上应用多个学习模型,是多个领域中的常见技术。虽然使用多个模型可以达到更高的分类精度,但此过程可能耗时、成本高昂,并且使缩放更加困难。考虑到每种模式可能具有不同的功能和成本,为每个样本分配最具成本效益的学习者是一项挑战。本文提出了SPIREL,一种新的成本效益分类方法。本文的方法使用户能够直接将成本与正确/错误的标签分配、计算资源和运行相关联,然后动态地建立分类策略。对于每个分析样本,SPIREL动态分配一组不同的学习模型,以及自己的分类阈值。并且本文的方法在不同的数据集之间具有高度的可转移性,能够适应个人学习模型性能的变化。
论文地址:https://www.aminer.cn/pub/616812e55244ab9dcb38113f?f=cs
标题:SADRL: Merging human experience with machine intelligence via supervised assisted deep reinforcement(SADRL:通过监督辅助深度强化学习将人类经验与机器智能相结合)
简介:深度强化学习 (DRL) 已证明其能够通过直接与环境交互来学习决策问题中的最佳策略。同时,监督学习方法也显示出强大的从数据中学习的能力。然而,如何将 DRL 与监督学习相结合并利用额外的知识和数据来协助 DRL 智能体仍然很困难。本研究提出了一种新颖的监督辅助深度强化学习 (SADRL) 框架,将动态演示中的深度 Q 学习与行为克隆模型 (DQfDD-BC) 相结合。具体来说,所提出的 DQfDD-BC 方法利用经验演示来预训练行为克隆模型,并通过学习动态更新的演示来持续更新它。受监督的专家损失函数旨在将 DRL 模型生成的动作与从 BC 模型中获得的动作进行比较,为策略改进提供有利的指导。
论文地址:https://www.aminer.cn/pub/618ba7015244ab9dcbbf0adc?f=cs
标题:Data-Driven Human-Robot Interaction Without Velocity Measurement Using Off-Policy Reinforcement Learning(基于非策略强化学习的无速度测量的数据驱动人机交互)
简介:本文为人机交互 (HRI) 系统提出了一种新的数据驱动设计方法,其中给定的任务是通过人与机器人之间的合作来实现的。提出的 HRI 控制器设计是一种两级控制设计方法,包括面向任务的性能优化设计和面向对象的阻抗控制器设计。面向任务的设计最大限度地减少了人力,并保证了外环中完美的任务跟踪,而面向对象的设计在内环中实现了从人到机器人机械手末端执行器所需的阻抗。数据驱动的强化学习技术用于外环中的性能优化,以分配最佳阻抗参数。在内部循环中,无速度滤波器旨在避免末端执行器速度测量的要求。在此基础上,设计了自适应控制器以实现机器人机械手在任务空间中的所需阻抗。进行了机器人操纵器的模拟和实验,以验证所提出的 HRI 设计框架的有效性。
论文地址:https://www.aminer.cn/pub/61713b4e5244ab9dcbe23510?f=cs
基于模仿学习与人类驾驶数据集成强化学习的自动驾驶训练效率提升
简介:目前用于训练自动驾驶汽车的两种方法是强化学习和模仿学习。本研究通过将监督模仿学习与强化学习相结合,提出了一种新的学习方法和系统方法,使RL训练数据收集过程更加有效。通过结合这两种方法,本研究成功地利用了RL和IL方法的优点。首先,使用模仿学习在 6 英尺 x 9 英尺的真实世界轨道上组装和训练一辆真正的微型机器人汽车。在此过程中,使用手柄控制器通过模仿人类专家驾驶员来控制微型机器人汽车在轨道上行驶,并使用Microsoft AirSim 的API 手动记录动作。能够生成和收集 331 个准确的类人奖励训练样本。然后,在Microsoft AirSim模拟器中使用强化学习对一名智能体进行6小时的训练,并从模仿学习训练中输入最初的331个奖励数据。经过6小时的训练后,微型机器人车能够在6英尺×9英尺的赛道上自动完成全程,而即使经过30小时的纯RL训练,微型机器人车也无法在赛道上完成全程。新方法减少了80%的训练时间,每小时的平均奖励显著增加。因此,新方法能够节省大量训练时间,并可用于加速自动驾驶中RL的采用,这将有助于在应用于实际场景时产生更高效、更好的长期结果。
论文地址:https://www.aminer.cn/pub/619dad515244ab9dcb27b736?f=cs