《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习

No.55

智源社区

强化学习组

 习

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第1张图片

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第2张图片

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第3张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第4张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第5张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第6张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第7张图片

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第55期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第8张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第9张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第10张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第11张图片

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第12张图片

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如强化学习应用于聊天机器人、先验知识的深度强化学习、基于多智能体强化学习的交易应用、对抗鲁棒强化学习相关的理论及其最新应用等。

本次推荐了16篇强化学习领域的相关论文,主要介绍了基于强化学习的语义审查聊天机器人系统,应用攻击性语义审查模型和语义净化模型有效减缓BLEU值下降、基于分离并量化反馈频率在具有连续状态和动作空间的机器人任务提高反馈效率、基于随机梯度下降(SGD)和精心选择的自适应步长进行快速收敛、基于先验知识的深度强化学习框架在未知约束条件下(进行软组织操作提高泛化性能、基于多尺度深度确定性策略梯度强化学习模型(MSSDDPG)搜索最优交易策略、最后介绍了基于实时人类指导 (Hug)-深度强化学习 (DRL) 的方法,用于端到端自动驾驶案例中的策略训练等。

标题:A Reinforcement Learning-based Offensive semantics Censorship System for Chatbots(上海海事大学:Dun Li | 基于强化学习的聊天机器人攻击性语义审查系统)了解详情

简介:人工智能(AI)技术的快速发展,使得大规模的人工智能应用落地市场和实践。然而,人工智能技术在产品化过程中给人们带来了很多便利的同时,也暴露了很多安全问题。特别是针对聊天机器人在线学习漏洞的攻击频发。因此,本文提出了基于强化学习的语义审查聊天机器人系统,主要由攻击性语义审查模型和语义净化模型两部分组成。攻击性语义审查可以结合用户输入句子的上下文来检测攻击性语义的快速演变并响应攻击性语义响应。语义净化模型对于聊天机器人模型的情况,它被大量的攻击性语义所污染,通过加强学习算法学习到的攻击性回复,而不是回滚到早期版本。此外,通过集成一次性学习方法,加快了语义提纯的速度,同时减少了对回复质量的影响。实验结果表明,该方法降低了聊天模型产生攻击性回复的概率,并且融合了few-shot学习算法迅速提高了训练速度,同时有效减缓了BLEU值的下降。

论文链接:https://arxiv.org/pdf/2207.10569.pdf

标题:Quantifying the Effect of Feedback Frequency in Interactive Reinforcement Learning for Robotic Tasks(DFKI : Nicolás Navarro-Guerrero | 机器人任务交互强化学习中反馈频率影响的量化)了解详情

简介:强化学习 (RL) 已在机器人控制中得到广泛采用。尽管取得了许多成功,但主要持续存在的问题是数据效率非常低。现有解决方案是交互式反馈,它已被证明可以显着加快 RL。因此,有大量不同的策略,然而,这些策略主要在离散网格世界和小规模优化控制场景中进行测试。在文献中,对于哪种反馈频率是最佳的或在什么时候反馈最有益,并没有达成共识。为了解决这些差异,本文分离并量化了反馈频率在具有连续状态和动作空间的机器人任务中的影响。实验包括不同复杂度的机器人机械臂的逆运动学学习。研究表明,看似矛盾的报道现象发生在不同的复杂程度。此外,研究结果表明不存在单一的理想反馈频率。而是应该随着智能体对任务的熟练程度的提高而改变反馈频率。

论文链接:https://arxiv.org/pdf/2207.09845.pdf

标题:Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning(卡内基梅隆大学(CMU):Adam Villaflor | 解决强化学习序列建模中的乐观偏差)了解详情

简介:基于 Transformer 神经网络架构的自然语言处理 (NLP) 取得了令人瞩目的成果,这激发了研究人员探索将离线强化学习 (RL) 视为通用序列建模问题。最近基于这种范式的工作在几个主要是确定性的离线 Atari 和 D4RL 基准测试中取得了最先进的结果。然而,由于这些方法将状态和行动联合建模为单一的排序问题,它们难以解开政策和世界动态对回报的影响。因此,在对抗性或随机环境中,这些方法会导致过度乐观的行为,这在自动驾驶等安全关键系统中可能是危险的。本文通过明确解开策略和全局模型来解决这种乐观偏见,这使该方法能够在测试时搜索对环境中多种可能的未来具有鲁棒性的策略。并在模拟中展示了该方法在各种自动驾驶任务中的卓越性能。

论文链接:https://arxiv.org/pdf/2207.10295.pdf

标题:Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning(苏黎世联邦理工学院(ETH): Ilnura Usmanova | 基于安全强化学习的安全黑箱优化的日志阻碍)了解详情

简介:当评估目标需要在部署的系统上进行实验时,在线优化噪声函数是制造业、机器人学和许多其他领域的一项关键任务。通常,对安全输入的约束在时间之前是未知的,通常只获得噪声信息,判断离违反约束有多近。并要始终保证安全,而不仅仅是算法的最终输出。本文提出LB-SGD的方法基于将随机梯度下降(SGD)和精心选择的自适应步长应用于原始问题的对数势垒近似。并提供了具有一阶和零阶反馈的非凸、凸和强凸光滑约束问题的完整收敛性分析。该方法可以产生高效的更新,并更好地扩展维度。通过实证比较了该方法与现有安全学习方法的样本复杂度和计算成本。除了综合基准之外,还证明了该方法在安全强化学习(RL)中最小化策略搜索任务中的约束违反的有效性。

论文链接:https://arxiv.org/pdf/2207.10415.pdf

标题:Knowledge-enhanced Black-box Attacks for Recommendations(南京大学:朱光辉团队 | 针对推荐的知识增强黑盒攻击)了解详情

简介:最近的研究表明,基于深度神经网络的推荐系统容易受到对抗性攻击,攻击者可以将精心制作的虚假用户配置文件(即一组虚假用户与之交互的项目)注入目标推荐系统以实现恶意目的,例如提升或降级一组目标项目。由于安全和隐私问题,在黑盒环境下执行对抗性攻击更为实用,因为攻击者无法轻易访问目标系统的架构/参数和训练数据。为此,本文通过项目的属性信息(即项目的知识图谱)引入一种新策略,其可以公开访问并提供丰富的辅助知识,以增强虚假用户配置文件的生成。应用知识图增强的黑盒攻击框架(KGAttack),通过深度强化学习技术有效地学习攻击策略,其中知识图无缝集成到分层策略网络中,以生成用于执行对抗性黑盒的虚假用户配置文件。在各种真实数据集上的综合实验证明了该攻击框架在黑箱环境下的有效性。

论文链接:https://arxiv.org/pdf/2207.10307.pdf

标题:An Information-Theoretic Analysis of Bayesian Reinforcement Learning(皇家理工学院(KTH):Amaury Gouverneur | 贝叶斯强化学习的信息论分析)了解详情

简介:基于Xu和Raginksy[1]提出的监督学习问题框架,本文研究了基于模型的贝叶斯强化学习问题的最佳可实现性能。为此,通过将最小贝叶斯后悔(MBR)定义为通过从收集的数据中学习或通过了解环境及其动态获得的最大预期累积回报之间的差异。并将此定义专门用于建模为马尔可夫决策过程(MDP)的强化学习问题,其核心参数对代理未知,其不确定性由先验分布表示。提出了一种推导MBR上界的方法,并基于相对熵和Wasserstein距离给出了具体的上界。然后,重点讨论了MDP的两种特殊情况,即多臂老虎机问题(MAB)和带有部分反馈的在线优化问题。对于后一个问题,研究证明了本文的界限可以从Russo和Van Roy[2]提出的当前信息论界限以下恢复。

论文链接:https://arxiv.org/pdf/2207.08735.pdf

标题:Incorporating Prior Knowledge into Reinforcement Learning for Soft Tissue Manipulation with Autonomous Grasping Point Selection(合肥工业大学:Shuai Zhang | 基于自主抓取点选择的软组织操作强化学习)了解详情

简介:先前的软组织操作研究假设抓取点已知并且可以实现目标变形。在操作过程中,约束应该是恒定的,并且软组织周围没有障碍物。为了超越这些假设,本文提出了一种具有先验知识的深度强化学习框架,用于在未知约束条件下(例如筋膜施加的力)进行软组织操作。先验知识通过直观的操作策略来表示。作为智能体的一个动作,调节因子用于协调直观方法和深思熟虑的网络。奖励函数旨在平衡大变形的探索和利用。成功的仿真结果验证了所提出的框架可以操纵软组织,同时避开障碍物并添加新的位置约束。与软演员批评(SAC)算法相比,该框架可以加快训练过程,提高泛化能力。

论文链接:https://arxiv.org/pdf/2207.10438.pdf

标题:Decentralized scheduling through an adaptive, trading-based multi-agent system(慕尼黑大学: Michael Kölle|通过自适应的、基于交易的多智能体系统进行分散调度)了解详情

简介:在多智能体强化学习系统中,智能体的行为会对其他智能体的奖励产生负面影响。解决这个问题的方法是让智能体在彼此之间交换它们的奖励。本文将交易方法应用于模拟调度环境,其中智能体负责将传入作业分配给计算核心。强化学习智能体成功学会了交易。智能体可以交换计算核心的使用权,以比低优先级、低奖励的工作更快地处理高优先级、高奖励的工作。然而,由于组合效应,简单强化学习智能体在这种环境中的动作和观察空间随问题大小的关键参数呈指数增长。通过智能体内部参数共享进一步改进了这种分布式架构。在本文的调度环境中,分布式智能体架构的优势明显超过了其他方法,证明了分布式智能体架构使用智能体内部参数共享能变得更加高效。

论文链接:https://arxiv.org/pdf/2207.11172.pdf

标题:Learn Continuously, Act Discretely: Hybrid Action-Space Reinforcement Learning For Optimal Execution(华为: Feiyang Pan|连续学习,离散行动:混合行动空间强化学习以实现最佳执行)了解详情

简介:最优执行是算法交易中用于节省成本的顺序决策问题。研究发现,强化学习(RL)可以帮助决定订单拆分的大小。然而,如何以适当的限价下达限价订单?关键挑战在于动作空间的“连续-离散二元性”。即使用价格百分比变化的连续动作空间更适合于泛化并对具有不同特征(例如流动性和价格范围)的每只股票进行专门化。因此,需要连续控制进行泛化,离散控制进行特化。为此,本文提出了混合强化学习方法。首先使用连续控制智能体来确定动作子集的范围,然后部署细粒度智能体来选择特定的限价。大量实验表明,与现有强化学习算法相比,该方法具有更高的样本效率和更好的训练稳定性,并且显著优于以前基于学习的订单执行方法。

论文链接:https://arxiv.org/pdf/2207.11152.pdf

标题:DDPG based on multi-scale strokes for financial time series trading strategy(北京工业大学: Jun-Cheng Chen|基于多尺度笔划的DDPG金融时间序列交易策略)了解详情

简介:随着AI的发展,越来越多的金融从业者将深度强化学习应用于金融交易策略。然而,由于单尺度时间序列的噪声大、高度非平稳和非线性等特点,其很难获得高精度的特征。本文在金融时间序列的多个时间尺度上提取多尺度特征矩阵,并提出了一种多尺度深度确定性策略梯度强化学习模型(MSSDDPG)的方法来搜索最优交易策略。在道琼斯指数、美国标准普尔500指数和中国沪深300指数、上证综合指数的数据集上进行了实验,并与海龟交易策略、深度Q学习(DQN)强化学习策略和深度确定性政策梯度(DDPG)强化学习策略相比较。结果表明,该方法在中国沪深300指数、上证综合指数中表现最好,在美国道琼斯、标准普尔500指数中表现突出。

论文链接:https://arxiv.org/ftp/arxiv/papers/2207/2207.10071.pdf

标题:Feasible Adversarial Robust Reinforcement Learning for Underspecified Environments(加州大学: JB Lanier|用于未指定环境的可行对抗鲁棒强化学习)了解详情

简介:鲁棒强化学习 (RL) 考虑在一组可能的环境参数值中在最坏情况下表现良好的学习策略问题。在现实环境中,为鲁棒的 RL 选择一组可能的值可能是一项艰巨的任务。  本文提出了可行的对抗鲁棒强化学习(FARR),其可自动确定一组环境参数值,并具有鲁棒性。FARR 隐含地定义了一组可行参数值,即在给定足够的训练资源的情况下,智能体可以在这些参数值上获得基准奖励。通过将此问题表述为两人零和游戏,FARR 联合学习了具有可行支持的参数值的对抗性分布以及对该可行参数集的鲁棒性策略。使用 PSRO 算法在这个 FARR 博弈中找到一个近似的纳什均衡,本文表明,在参数化网格世界和三个MuJoCo控制环境中,使用FARR训练的agent对可行的对抗性参数选择比使用现有的极大极小值、域随机化和后悔目标更具鲁棒性。

论文链接:https://arxiv.org/pdf/2207.09597.pdf

标题:Learning Cooperative Neural Modules for Stylized Image Captioning(北京理工大学: Xinxiao Wu|学习用于风格化图像字幕的协作神经模块)了解详情

简介:目前风格化图像字幕的解码过程仍然难以同时捕捉句法结构、推断语义概念和表达语言风格。考虑到心理语言学,本文提出了新颖的风格化图像字幕方法,通过在强化学习范式下训练三个协作神经模块,在多通道解码过程中生成风格化句子。称为语法模块的低级神经模块首先生成程式化句子的整体句法结构。通过概念模块和风格模块,分别包含描述事实内容的词和表达语言风格的词。由于这三个模块对风格化句子的不同方面做出贡献,即流畅性、事实内容的相关性和风格准确性,鼓励模块通过为不同的动作设计不同的奖励来专注于自己的任务。本文还设计了注意力机制来促进高层和低层模块之间的通信。在注意力机制的帮助下,高层模块能够考虑到句子的全局结构,并保持事实内容和语言风格之间的一致性。

论文链接:https://link.springer.com/content/pdf/10.1007/s11263-022-01636-2.pdf

标题:A Reinforced Active Learning Approach for Optimal Sampling in Aspect Term Extraction for Sentiment Analysis(阿姆利塔工程学院: Manju Venugopalan|用于情感分析的方面术语提取中优化采样的强化主动学习方法)了解详情

简介:方面级别的情感分析是情感分析中的一项细节任务,它从一段自以为是的文本中识别产品特征,并将情感映射到每个特征。此类细节任务的数据标记也需要领域专业知识。因此,提取几乎代表整个数据的最小信息子集的机制将是在很大程度上降低注释成本的突破。本文提出基于主动学习的采样策略,用于方面术语提取,这是方面水平情感分析中的一个子任务,用于识别产品特征。采样策略通过强化学习实现自动化,从整个未标记的训练数据中提取最佳样本,从而通过减少与标记过程相关的时间和精力来优化数据注释。该模型已在 SemEval(2014-2016) 数据集的笔记本电脑和餐厅领域进行了试验。实验证明,在不同的数据集上可以显著减少训练数据的大小。

论文链接:https://www.sciencedirect.com/sdfe/reader/pii/S0957417422013793/pdf

标题:A Behavior Fusion Method Based on Inverse Reinforcement Learning(西北工业大学: Haobin Shi|一种基于逆强化学习的行为融合方法)了解详情

简介:逆强化学习(IRL)通常用于深度强化学习系统中,难以用手动奖励函数设计的任务。本研究提出了基于对抗性 IRL 的行为融合方法。根据不同的偏好将复杂的任务分解为几个简单的子任务。将任务解耦后,利用 IRL 和生成对抗网络(GAN)之间的内在关系:判别器网络适合奖励函数,生成器网络适合策略,分别学习奖励函数和策略。而且,本文通过使用多个鉴别器来对应每个子任务来改进对抗性 IRL 模型,并为整个结构提供更有效的更新。该研究的行为融合对不同子任务中的奖励函数起到了加权网络的作用。该方法使用基线方法在 Atari 耐力赛赛车游戏上进行了评估,实验结果表明,该方法可以在复杂的任务中学习更高级的策略,训练过程更稳定。

论文链接:https://www.sciencedirect.com/sdfe/reader/pii/S0020025522007897/pdf

标题:A multi-step predictive deep reinforcement learning algorithm for HVAC control systems in smart buildings(太原理工大学&中国科学院: Xiangfei Liu|智能建筑暖通空调控制系统的多步预测深度强化学习算法)了解详情

简介:建筑能源管理系统 (BEMS) 的发展使用户能够基于数字信息智能控制供暖、通风、空调和制冷 (HVAC) 系统。为保证用户满意度的同时降低暖通空调系统的功耗成本,本文提出了基于多步预测深度强化学习(MSP-DRL)算法的楼宇系统暖通空调控制系统。首先通过称为 GC-LSTM 的特色深度学习方法预测室外环境温度,其通过广义相关熵 (GC) 损失函数增强长短期记忆 (LSTM) 以处理非采集的室外温度的高斯特性。此外,所提出的温度预测模型与深度确定性策略梯度(DDPG)强化学习算法相结合,在电价的动态变化下灵活调整暖通空调系统的输出功率。最后,提供基于真实世界数据的综合模拟。数值结果表明,GC-LSTM算法比其他同类预测算法更准确,该算法的暖通空调控制系统与其他方法相比可以节省12%以上的成本,同时保持用户舒适度。

论文链接:https://www.sciencedirect.com/sdfe/reader/pii/S0360544222017601/pdf

标题:Toward human-in-the-loop AI: Enhancing deep reinforcement learning via real-time human guidance for autonomous driving(南洋理工大学: Jingda Wu|迈向人在回路人工智能:通过实时人工指导提高深度强化学习以实现自动驾驶)了解详情

简介:由于人类在复杂场景中表现出鲁棒性和适应性,将人类引入人工智能 (AI) 的训练循环至关重要。本文提出了基于实时人类指导 (Hug)-深度强化学习 (DRL) 的方法,用于端到端自动驾驶案例中的策略训练。借助新设计的人类与自动化之间的控制转移机制,人类能够在模型训练过程中在必要时实时干预和纠正智能体的不合理行为。基于这种人在回路的指导机制,开发了具有修改的策略和价值网络的参与者-评论家架构。Hug-DRL 的快速收敛性允许将实时人类指导动作融合到智能体的训练循环中,进一步提高 DRL 的效率和性能。Hug-DR通过对 40 名受试者的人在回路实验进行验证,并与其他最先进的学习方法进行比较。结果表明,所提出的方法可以有效地提高人工指导下的 DRL 算法的训练效率和性能,而不会对参与者的专业知识或经验提出特定要求。

论文链接:https://www.sciencedirect.com/science/article/pii/S2095809922004878#!

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第13张图片

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

《强化学习周刊》第55期:LB-SGD、MSP-DRL&对抗鲁棒强化学习_第14张图片

你可能感兴趣的:(大数据,算法,编程语言,python,计算机视觉)