No.25
智源社区
强化学习组
强
化
学
习
研究
观点
资源
活动
关于周刊
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第25期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和新工具、数据集等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明、刘青、小胖、陈元
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如分层强化学习、基准偏好的强化学习、基于深度强化学习的机器人控制、无模型风险敏感强化学习、安全强化学习相关的理论及其最新应用。
本次推荐了12篇强化学习领域的相关论文,主要涉及于基准偏好的强化学习、使用深度强化学习控制的机器人杠杆操作的因果与边缘Shapley值、无模型风险敏感强化学习、基于行动-评论监督优势的推荐系统、网格世界的规则决策过程、基于强化学习和神经风格转换的跨模态三维导航、基于大邻域搜索策略学习的整数规划、通过课程引导安全的强化学习、受监督学习支持的 Riverbed Modeler 强化学习 M&S 框架、具有自动子目标识别的分层强化学习等。
标题:B-Pref: Benchmarking Preference-Based Reinforcement Learning(B-Pref:基于基准偏好的强化学习)了解详情
简介:强化学习 (RL) 需要访问奖励函数来激励正确的行为,但众对于复杂的任务很难指定这些功能。基于偏好的强化学习提供了一种替代方案:使用教师偏好的学习策略,无需预先定义奖励,从而克服与奖励工程相关的问题。然而,由于缺乏普遍采用的基准,很难量化基于偏好的强化学习的进展。本文提出了 B-Pref:一种专为基于偏好的 RL 设计的基准。该基准测试的关键挑战是提供了快速评估候选算法的能力,这使得依赖真实的人工输入进行评估变得令人望而却步。同时,将人类输入模拟为对基本真理奖励函数的完美偏好是不现实的。B-Pref 通过模拟具有各种不合理性的教师来缓解这种情况,并提出不仅针对表现而且针对这些潜在不合理性的稳健性的指标。通过使用 B-Pref 来分析算法设计选择(例如为最先进的基于偏好的 RL 算法选择信息查询)来展示 B-Pref 的实用性。本文希望 B-Pref 可以作为一个共同的起点,更系统地研究基于偏好的 RL。
论文地址:https://arxiv.org/pdf/2111.03026.pdf
标题:Causal versus Marginal Shapley Values for Robotic Lever Manipulation Controlled using Deep Reinforcement Learning(使用深度强化学习控制的机器人杠杆操作的因果与边缘Shapley值)了解详情
简介:本文研究了在生成解释时包含有关机器人系统因果关系的领域知识的影响。在使用深度强化学习训练的深度神经网络上比较了来自可解释人工智能的两种方法,流行的 KernelSHAP 和最近的因果 SHAP使用机器人操纵器控制杠杆的任务。KernelSHAP 的主要缺点是它的解释仅代表特征对模型输出的直接影响,没有考虑特征通过影响其他特征对输出可能产生的间接影响。因果 SHAP 使用部分因果顺序来改变 KernelSHAP 的采样程序以合并这些间接影响。这种部分因果排序定义了特征之间的因果关系,通过使用有关杠杆控制任务的领域知识来指定。研究表明,启用解释方法来解释间接影响并结合一些领域知识可以导致更符合人类直觉的解释。这对现实世界的机器人任务特别有利,因为在现实世界中,存在着相当大的因果关系,此外,所需的领域知识通常很容易获得。
论文地址:https://arxiv.org/pdf/2111.02936.pdf
标题:Model-Free Risk-Sensitive Reinforcement Learning(无模型风险敏感强化学习)了解详情
简介:本文扩展了时间差分 (TD) 学习以获得风险敏感、无模型的强化学习算法。这种扩展可以被视为对 Rescorla-Wagner 规则的修改,其中(S 形)刺激被认为是高估或低估 TD 目标的事件。因此,本文获得了一个随机近似规则,用于估计由具有未知均值和方差的高斯分布生成的 iid 样本的自由能。由于已知高斯自由能是对均值和方差敏感的确定性等价物,因此学习规则在风险敏感决策中具有应用。
论文地址:https://arxiv.org/pdf/2111.02907.pdf
标题:Supervised Advantage Actor-Critic for Recommender Systems(基于行动-评论监督优势的推荐系统)了解详情
简介:通过奖励信号将基于会话或顺序的推荐转换为强化学习(RL),是实现累积利润最大化的推荐系统(RS)的一个有前途的研究方向。然而,由于诸如非策略培训、巨大的行动空间和缺乏足够的奖励信号等挑战,在RS设置中直接使用RL算法是不切实际的。最近的RS的RL方法试图通过结合RL和(自)监督顺序学习来应对这些挑战,但仍有一定的局限性。针对上述问题,该文提出了负采样策略来训练RL分量,并将其与有监督序列学习相结合。称这种方法为监督负Q学习(SNQN)。基于抽样(消极)行动(项目),通过计算积极行动相对于平均情况的“优势”,这可以进一步用作学习监督序列部分的归一化权重。这导致了另一个学习框架:监督优势参与者-批评家(SA2C)。实验结果表明,该方法比现有的监督方法和自监督RL方法具有更好的性能。
论文地址:https://arxiv.org/pdf/2111.03474.pdf
标题:Regular Decision Processes for Grid Worlds(网格世界的规则决策过程)了解详情
简介:马尔可夫决策过程通常用于不确定条件下的顺序决策。然而,对于许多方面,从约束或安全规范到任务和奖励结构中的各种时态(非马尔可夫)依赖,都需要扩展。为此,近年来,人们对强化学习和时态逻辑的结合产生了兴趣,也就是说,将灵活的行为学习方法与稳健的验证和保证相结合。在本文中,描述了一个最近引入的规则决策过程的实验研究,该过程支持非马尔可夫奖励函数和转移函数。特别是,文章提供了一个用于常规决策过程的工具链、与在线增量学习相关的算法扩展、无模型和基于模型的解决方案算法的经验评估,以及在常规但非马尔可夫网格世界中的应用。
论文地址:https://arxiv.org/pdf/2111.03647.pdf
标题:Cross Modality 3D Navigation Using Reinforcement Learning and Neural Style Transfer(基于强化学习和神经风格转换的跨模态三维导航)了解详情
简介:本文介绍了使用多智能体强化学习(MARL)在医学成像的三维解剖体中执行导航。文章利用神经方式传输来创建合成计算机断层扫描(CT)代理健身房环境,并评估我们代理对临床CT体积的泛化能力。我们的框架不需要任何标记的临床数据,并且可以轻松地与多种图像翻译技术集成,从而实现跨模态应用。此外,文章仅在2D切片上对代理进行调节,为更困难的成像模式(如超声波成像)中的3D引导开辟了道路。这是在获取标准化诊断视图平面、提高诊断一致性和促进更好的病例比较过程中向用户指导迈出的重要一步。
论文地址:https://arxiv.org/pdf/2111.03485.pdf
标题:Learning Large Neighborhood Search Policy for Integer Programming(基于大邻域搜索策略学习的整数规划)了解详情
简介:文章提出了一种深度强化学习(RL)方法来学习整数规划(IP)的大邻域搜索(LNS)策略。RL策略被训练为销毁操作符,以在每个步骤中选择变量子集,该子集由IP解算器作为修复操作符重新优化。然而,可变子集的组合数量阻碍了典型RL算法的直接应用。为了应对这一挑战,本文通过将所有子集分解为每个变量的二进制决策来表示它们。然后文章设计了一个神经网络来并行学习每个变量的策略,并通过定制的actor-critic算法进行训练。本文在四个具有代表性的IP问题上对所提出的方法进行了评估。结果表明,它可以在更短的时间内找到比SCIP更好的解决方案,并且显著优于具有相同运行时间的其他LNS基线。此外,当这些政策推广到更大的问题时,这些优势明显存在。使用Gurobi进行的进一步实验还表明,该方法可以在相同的时间限制内优于这种最先进的商业求解器。
论文地址:https://arxiv.org/pdf/2111.03466.pdf
标题:Riverbed Modeler Reinforcement Learning M&S Framework Supported by Supervised Learning (受监督学习支持的 Riverbed Modeler 强化学习 M&S 框架)了解详情
简介:Riverbed Modeler 是一个有用的仿真工具,可以仿真各种标准网络模型。然而,它没有提供一个相关的工具,不适合目前正在积极进行的将机器学习应用于网络领域的研究情况。本文实施了一个框架,以在 Riverbed Modeler 环境中应用强化学习。为了有效地执行强化学习,本文提出了一种支持监督学习的强化学习结构,以使用 Riverbed Modeler 和 MATLAB 提高网络性能。通过实验评估所提出的方法与现有的强化学习环境相比缩短了学习时间。
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9333963
标题:A Robust Approach for Continuous Interactive Actor-Critic Algorithms(一种用于连续交互式 Actor-Critic 算法的稳健方法)了解详情
简介:强化学习是指一种机器学习范式,其中智能体与环境交互以学习如何执行任务。环境的特征可能会随时间变化或受到不受控制的干扰的影响,从而阻碍智能体找到合适的策略。本文提出了一种解决动态环境中交互式强化学习问题的方法,其中建议提供有关任务和环境动态的信息。因此,智能体在接受建议的同时在受干扰的环境中学习策略。本文在车杆平衡任务的动态版本和模拟机械臂动态环境中实施此方法来组织对象。结果表明,所提出的方法允许智能体在动态、连续的状态-动作域中令人满意地完成任务。
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9493212
标题:Hierarchical Reinforcement Learning With Automatic Sub-Goal Identification (具有自动子目标识别的分层强化学习)了解详情
简介:在强化学习中,当处理难以找到奖励点的稀疏奖励任务时,智能体可能无法有效地探索。为了解决这个问题,本文提出了一种称为分层深度强化学习的算法,通过计算机视觉自动识别子目标(HADS),该算法利用分层强化学习来缓解稀疏奖励问题,并通过利用子目标提高探索效率机制。HADS 使用计算机视觉方法自动识别子目标以进行分层深度强化学习。由于并不是所有的子目标点都是可达的,因此提出了一种去除不可达的子目标点的机制,以进一步提高算法的性能。HADS 涉及轮廓识别以从状态图像中识别子目标,其中状态图像中的一些显著状态可能被识别为子目标,其他则将根据先验知识去除。
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9497876
标题: Safe Reinforcement Learning via Curriculum Induction (通过课程引导安全的强化学习)了解详情
简介: 在有安全要求场景中,安全强化学习(safe RL)训练一般需要引入先验条件来避免探索过程中的危险情况,但是先验条件的概率保证和平滑假设在很多场景(例如自动驾驶)中均不可行。本文提出了一种受人类教学启发的、可以不受限于这些假设的替代方法,其中,智能体(学生)在老师的自动指导下进行学习,老师会在智能体开始出现危险行为时选择不同的重置/干预动作,从而避免智能体在学习过程中违反约束。论文也是首次将课程学习引入到安全强化学习场景,老师根据智能体的的学习进度和行为数据分布,训练一个决策模型来自动选择重置/干预动作类型,从而对智能体的课程学习进行自动设计。
论文地址:https://arxiv.org/pdf/2006.12136.pdf
标题: Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design (通过无监督环境设计的新兴复杂性和零次迁移)了解详情
简介:本文工作的目的是构建一个可以在很多环境下都可以表现很好的策略模型,所以需要在强化学习训练过程中生成一系列不同的环境,自动生成环境的方法主要包括领域随机化和微对抗训练。领域随机化只能随机地构建新环境,不能根据策略模型的训练过程来动态生成难度合适的环境;而微对抗训练单纯为了构建当前策略模型表现不好的环境,容易生成不可解的环境;本文提出的Protagonist Antagonist Induced Regret Environment Design (PAIRED)算法会同时训练三个模型:类似于GAN的对抗思路,环境生成模型和反派智能体优化目标是最大化反派智能体和正派智能体的奖励差。在对抗训练过程中,环境生成模型会倾向于生成反派智能体表现好的环境,从而实现逐渐增加环境难度的自动课程学习。
论文地址: https://arxiv.org/pdf/2012.02096.pdf
综述
来自专家演示的无模型强化学习:综述了解详情
简介:来自专家演示的强化学习 (RLED) 是模仿学习与强化学习的交叉点,综合利用这两种学习方法。RLED 使用演示轨迹来提高高维空间中的样本效率。通过利用专家的演示,RLED 是一种新的有前途的行为学习方法。RLED 考虑了两种可能的知识来源来指导强化学习过程:先验知识和在线知识。这项研究侧重于通过不一定由人类提供的演示来引导的无模型强化学习的新方法。根据示范的影响对这些方法进行分析和分类。还讨论了改进方法的挑战、应用和前景
论文地址:https://link.springer.com/content/pdf/10.1007/s10462-021-10085-1.pdf
数据集
RLDS:基于强化学习生成、共享和使用数据集的生态系统了解详情
简介:本文介绍了 RLDS(强化学习数据集),一个用于在包括强化学习(RL)、从演示中学习、离线RL或模仿学习在内的顺序决策(SDMZ环境中记录、重放、操作、注释和共享数据的生态系统.。RLDS不仅使现有研究具有可重复性,并可以轻松生成新数据集,以加速新研究。通过提供标准和无损格式的数据集,它可以在更广泛的任务中快速测试新算法。RLDS 生态系统可以轻松共享数据集,而不会丢失任何信息,并且在将各种数据处理管道应用于大型数据集集合时,无需了解底层原始格式。此外,RLDS 提供了用于收集合成代理或人类生成的数据以及检查和处理收集到的数据的工具。最终,与 TFDS 的集成有助于与研究社区共享 RL 数据集。
论文地址:https://arxiv.org/pdf/2111.02767.pdf
如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,加入强化学习兴趣群。