rockray21

2020ICML多智能体强化学习论文简介

强化学习最新论文汇总

如有错误，欢迎指正
- 所引用内容链接
Multi-Agent RL
- 1. Kernel Methods for Cooperative Multi-Agent Learning with Delays
- 2. Robust Multi-Agent Decision-Making with Heavy-Tailed Payoffs
- 3. Multi-Agent Determinantal Q-Learning
- 4. Learning Efficient Multi-agent Communication: An Information Bottleneck Approach
- 5. Optimizing Multiagent Cooperation via Policy Evolution and Shared Experiences
- 6. ROMA: Multi-Agent Reinforcement Learning with Emergent Roles
- 7. OPtions as REsponses: Grounding behavioural hierarchies in multi-agent reinforcement learning
- 8. Multi-Agent Routing Value Iteration Network
- 9. Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
- 10. Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games
- 11. “Other-Play” for Zero-Shot Coordination
- 12. Asynchronous Coagent Networks
- 13. Extra-gradient with player sampling for faster convergence in n-player games
- 14. Optimally Solving Two-Agent Decentralized POMDPs Under One-Sided Information Sharing
总结

如有错误，欢迎指正

本篇为自我学习过程中的要点记录，仅作学习使用。
所引用内容的链接将全部粘贴于下方，如有侵权，请与本人联系。

所引用内容链接

感谢这篇汇总
ICML2020 180篇强化学习论文汇总: https://zhuanlan.zhihu.com/p/147774833?utm_source=ZHShareTargetIDMore.

Multi-Agent RL

1. Kernel Methods for Cooperative Multi-Agent Learning with Delays

Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)

多智能体协同决策是指在网络上进行具有时延的通信时，一群智能体协同解决学习问题。本文考虑了kernelised contextual bandit问题。¹其中一个agent获得的奖赏是相关再生核Hilbert空间（RKHS）中上下文图像的任意线性函数，并且一组agent必须合作来共同解决其唯一的决策问题。对于这个问题，我们提出了extsc{Coop KernelUCB}，这是一个在每个agent regret上提供近似最优边界的算法，在计算和通信方面都是有效的。对于合作问题的特殊情况，我们还提供了extsc{Coop KernelUCB}的变体，它提供了每个agent的最优regret。此外，我们的算法推广了多agent bandit环境下已有的一些结果。最后，在一系列综合的和真实的多智能体网络基准测试中，我们证明了我们的算法明显优于现有的基准测试。

2. Robust Multi-Agent Decision-Making with Heavy-Tailed Payoffs

Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)

研究了多智能体协作环境下的重尾随机bandit问题，其中一组agent与一个共同的bandit问题相互作用，同时在网络上进行有时延的通信。现有的随机bandit算法利用基于平均的通信协议产生的置信区间，该协议不适合重尾设置的鲁棒估计。我们提出了一个分散的多智能体算法来解决协作随机bandit问题，它将鲁棒估计与消息传递协议结合起来。我们证明了在多个问题设置下的最优regret界，并证明了它比现有方法的优越性。此外，我们建立了合作bandit问题的第一下界，并提供了鲁棒bandit位置估计的有效算法。

3. Multi-Agent Determinantal Q-Learning

Yaodong Yang (Huawei Technology R&D UK) · Ying Wen (UCL) · Jun Wang (UCL) · Liheng Chen (Shanghai Jiao Tong University) · Kun Shao (Huawei Noah’s Ark Lab) · David Mguni (Noah’s Ark Laboratory, Huawei) · Weinan Zhang (Shanghai Jiao Tong University)

分散执行的集中式训练已成为多智能体学习的一种重要范式。目前的方法虽然实用，但是依赖于限制性的假设来分解agent之间的集中的值函数以供执行。本文通过提出多智能体行列式Q学习来消除这种限制。我们的方法建立在Q-DPP上，它是行列式点过程（DPP）在多智能体环境下的推广。Q-DPP促进了agent获得不同的行为模型；这使得联合Q函数可以自然分解，而不需要对值函数或特殊的网络结构进行结构约束。我们证明了Q-DPP在可分散协作任务上推广了包括VDN、QMIX和QTRAN在内的主要解决方案。为了有效地从Q-DPP中提取样品，我们采用了一个线性时间取样器，并保证了理论近似性。我们的采样器也有利于通过协调agent在训练期间覆盖状态空间中的正交方向进行探索。我们对我们的算法在各种协作基准上进行了评估，并与最新的算法进行了比较，证明了算法的有效性。

4. Learning Efficient Multi-agent Communication: An Information Bottleneck Approach

Rundong Wang (Nanyang Technological University) · Xu He (Nanyang Technological University) · Runsheng Yu (Nanyang Technological University) · Wei Qiu (Nanyang Technological University) · Bo An (Nanyang Technological University) · Zinovi Rabinovich (Nanyang Technological University)

研究了多智能体强化学习中的有限带宽通信问题，即多智能体在通信协议和调度器的协助下进行协作。协议和调度程序共同确定哪个agent正在向谁传递什么消息。在有限的带宽限制下，需要一个通信协议来生成信息消息。同时，不应建立不必要的通信连接，因为它徒劳地占用了有限的资源。在这篇论文中，我们提出一个信息化的多智能体通讯（IMAC）方法来学习有效的通讯协定和调度。首先，从通信理论的角度，我们证明了有限的带宽限制要求在整个传输过程中传递低熵的消息。在信息瓶颈²原理的启发下，我们学习了一个有价值的紧凑的通信协议和一个基于权重的调度器。为了验证该方法的有效性，我们在不同数量、不同带宽的多智能体协作和竞争任务中进行了大量的实验。与许多基线方法相比，在有限带宽下，IMAC收敛速度更快，并能有效地实现agent间的通信。

5. Optimizing Multiagent Cooperation via Policy Evolution and Shared Experiences

Somdeb Majumdar (Intel AI Lab) · Shauharda Khadka (Intel AI) · Santiago Miret (Intel AI Products Group) · Stephen Mcaleer (UC Irvine) · Kagan Tumer (Oregon State University US)

许多合作的多智能体强化学习环境为agent提供了稀疏的基于团队的奖励，以及密集的特定于agent的奖励，以激励学习基本技能。仅仅基于团队奖励的训练策略通常是很困难的，因为它是稀疏的。另外，仅仅依靠特定于智能体的回报是次优的，因为它通常不能捕获团队协调的目标。一种常见的方法是通过组合个体奖励来构造agent奖励。但是，这需要为每个环境手动调整。我们介绍了多智能体进化强化学习（MERL），它是一个分层次的训练平台，通过两个优化过程分别处理这两个目标。进化算法通过对一个团队群体进行神经进化，使稀疏的团队目标最大化。同时，一个基于梯度的优化器训练策略，以使密集的特定于agent的奖励最大化。在进化种群中周期性地加入基于梯度的策略，作为两个优化过程之间信息传递的方式。这使得进化算法能够使用通过特定于agent的奖励学习的技能来优化全局目标。结果表明，在一些困难的协调基准测试中，MERL的性能明显优于最新的方法，如MADDPG。

6. ROMA: Multi-Agent Reinforcement Learning with Emergent Roles

Tonghan Wang (Tsinghua University) · Heng Dong (Tsinghua) · Victor Lesser (UMASS) · Chongjie Zhang (Tsinghua University)

角色概念为设计和理解复杂的多智能体系统提供了一个有用的工具，允许具有相似角色的agent共享相似的行为。然而，现有的基于角色的方法使用领域先验知识并预定义角色结构和行为。相比之下，多智能体强化学习（MARL）具有灵活性和适应性，但在复杂任务中效率较低。在本文中，我们将这两种范式结合起来，提出了一个面向角色的MARL框架（ROMA）。在这个框架中，角色是突然出现的，具有相似角色的agent倾向于共享他们的学习并专门处理某些子任务。为此，我们通过引入两个新的正则化器和对角色的个体策略进行约束来构造一个随机的角色嵌入空间。实验表明，我们的方法可以学习专门的、动态的、可识别的角色，这有助于我们的方法在星际争霸II微管理基准测试中的水平提高。演示视频在https://sites.google.com/view/romarl/。

7. OPtions as REsponses: Grounding behavioural hierarchies in multi-agent reinforcement learning

Alexander Vezhnevets (DeepMind) · Yuhuai Wu (University of Toronto) · Maria Eckstein (UC Berkeley) · Rémi Leblond (DeepMind) · Joel Z Leibo (DeepMind)

本文研究了多智能体博弈中的泛化问题，其中智能体的一般性可以通过与训练中从未见过的对手比赛来评估。我们提出了两个新的具有隐藏信息和复杂的，不可传递的奖励结构的游戏（比如石头/布/剪刀）。结果表明，目前大多数的深度强化学习方法无法有效地探索策略空间，因此学习的策略很难向不可见的对手推广。然后，我们提出了一种新的层次agent体系结构，该体系结构以博弈论的结构为基础，上层选择对对手的战略反应，而下层则将其执行为策略而不是原始行为。这种基础有助于跨层级的信用分配。我们的实验表明，所提出的分层智能体能够对看不见的对手进行泛化，而传统的基线则无法进行任何泛化。

8. Multi-Agent Routing Value Iteration Network

Quinlan Sykora (Uber ATG) · Mengye Ren (Uber ATG / University of Toronto) · Raquel Urtasun (Uber ATG)

本文研究了多个agent协同路由问题。这是一个复杂的问题，在车队管理中有着广泛的应用，以实现一个共同的目标，例如从一群机器人中绘制地图和共享单车。传统的方法通常不是为包含稀疏连接图和未知流量的真实环境而设计的，并且在运行时速度太慢而不实用。相比之下，我们提出了一个基于图神经网络的模型，该模型能够在稀疏连通图中，在动态变化的交通条件下进行基于学习值迭代的多智能体路由。此外，我们学习的通信模块使agent能够在线协调并更有效地适应变化。我们创建了一个模拟环境来模拟由自主车辆在未知的最小边缘覆盖和交通状况下执行的真实映射；我们的方法在总成本和运行时间方面都显著优于传统的求解器。我们还证明了在最多25个节点的图上只使用两个agent训练的模型可以很容易地推广到具有更多agent和/或节点的情况。

9. Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Yaodong Yang (Tianjin University) · Jianye Hao (Tianjin University) · Guangyong Chen (Tencent) · Hongyao Tang (Tianjin University) · Yingfeng Chen (NetEase Fuxi AI Lab) · Yujing Hu (NetEase Fuxi AI Lab) · Changjie Fan (Netease) · Zhongyu Wei (Fudan University)

近年来，由于许多现实问题本质上可以看作是多智能体系统，因此深度多智能体强化学习（MARL）已成为一个非常活跃的研究领域。一类特别有趣且应用广泛的问题是部分可观测的合作多智能体环境，在这种情况下，一组智能体学习协调他们的行为，条件是他们的私人观察和共同分享的全球奖励信号。一个自然的解决方案是求助于集中培训和分散执行范式。在集中训练过程中，一个关键的挑战是多智能体的信用分配：如何为个体智能体策略分配全局奖励，以更好地协调系统级的利益。本文提出了一种新的Q值路径分解（QPD）方法，将系统的全局Q值分解为单个agent的Q值。与以往限制单个Q值和全局Q值表示关系的工作不同，我们利用集成梯度属性技术，将全局Q值沿轨迹路径直接分解，为agent分配信用。我们在具有挑战性的星际争霸II微管理任务上对QPD进行了评估，结果表明QPD在同质和异构多智能体场景下都达到了最先进的性能，与现有的协同MARL算法相比。

10. Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games

Tianyi Lin (UC Berkeley) · Zhengyuan Zhou (Stanford University) · Panayotis Mertikopoulos (CNRS) · Michael Jordan (UC Berkeley)

在本文中，我们考虑了一类称为λ-协迫对策的多智能体在线梯度下降学习问题，这类博弈是一类相当广泛的博弈，它允许许多纳什均衡，并且适当地包括无约束强单调博弈。我们刻画了λ-协同博弈上联合OGD学习的有限时间最后迭代收敛速度；在此基础上，我们开发了一个完全自适应的OGD学习算法，该算法不需要任何问题参数（如cocoercive常数λ）的知识，并通过一种新的双停止时间技术证明了该算法的有效性，该自适应算法与非自适应算法具有相同的有限时间最后迭代收敛速度。随后，我们将OGD学习推广到有噪声梯度反馈的情况下，建立最后一次迭代收敛结果——首先是定性几乎肯定收敛，然后是定量有限时间收敛速度——所有这些都是在不减小步长的情况下。据我们所知，我们提供了第一组结果，填补了现有多智能体在线学习文献中的几个空白，在这三个方面——有限时间收敛速度、非递减步长和完全自适应算法——以前都没有进行过探索。

11. “Other-Play” for Zero-Shot Coordination

Hengyuan Hu (FAIR) · Alexander Peysakhovich (Facebook) · Adam Lerer (Facebook AI Research) · Jakob Foerster (Facebook AI Research)

我们考虑零样本协调的问题——构造人工智能体，使之能够与他们从未见过的新伙伴（例如人类）协调。标准的多智能体强化学习（MARL）方法通常集中在自玩（SP）环境中，在这种环境下，Agent通过反复与自己玩游戏来构建策略。不幸的是，将SP直接地应用于零样本协调问题，可能会产生建立高度特殊化约定的agent，而这些约定不会传递给未接受过训练的新伙伴。**我们引入了一种新的学习算法other play（OP），它通过寻找更健壮的策略，利用潜在问题中已知对称性的存在来增强自学习。**我们从理论和实验两方面对OP进行了表征。我们研究了合作卡博弈Hanabi，发现当OP agent与独立训练的agent配对时，其得分更高。在初步结果中，我们还表明，与最先进的SP agent相比，我们的OP agent在与人类玩家配对时获得更高的平均分数。

12. Asynchronous Coagent Networks

James Kostas (University of Massachusetts Amherst) · Chris Nota (University of Massachusetts Amherst) · Philip Thomas (University of Massachusetts Amherst)

Coagent策略梯度算法（Coagent policy gradient algorithms，CPGAs）是一种用于训练一类称为Coagent网络的随机神经网络的强化学习算法。本文证明了cpga收敛于局部最优策略。此外，我们将先验理论扩展到包含异步和递归coagent网络。这些扩展有助于直接设计和分析分层强化学习算法（如option critic），并消除了对这些算法定制学习规则的复杂推导的需要。

13. Extra-gradient with player sampling for faster convergence in n-player games

Samy Jelassi (Princeton University) · Carles Domingo-Enrich (NYU) · Damien Scieur (Samsung - SAIT AI Lab, Montreal) · Arthur Mensch (ENS) · Joan Bruna (New York University)

数据驱动的建模越来越需要在多人博弈中找到一个纳什均衡，例如在训练GANs时。本文分析了一种新的求解纳什均衡的额外梯度方法，即在每次迭代时对随机的参与者子集进行梯度外推和更新。对于带有噪声梯度预言的非光滑凸对策，该方法比完全额外梯度方法具有更好的收敛速度。在光滑凸对策中，我们提出了一个额外的方差缩减机制来获得加速。我们的方法使外推法适用于大量的多层设置，并带来经验加速，特别是当使用启发式循环抽样方案时。最重要的是，它可以训练更快更好的GANs和混合GANs。

14. Optimally Solving Two-Agent Decentralized POMDPs Under One-Sided Information Sharing

Yuxuan Xie (INSA de Lyon) · Jilles Dibangoye (INSA Lyon, INRIA) · Olivier Buffet (INRIA - LORIA)

在完全或不共享信息的情况下，最优解分散部分可观测Markov决策过程是近年来备受关注的问题。然而，对于部分信息共享对现有理论和算法的影响却知之甚少。本文针对一个由两个agent组成的团队，在单边信息共享的情况下，即两个agent都不完全了解世界的状态，但只有一个可以访问另一个所看到的和做的事情。**从中心计划者的角度，我们证明了原问题可以转化为一个等价的信息状态马尔可夫决策过程来求解。**此外，我们证明了最优值函数具有一种特殊形式的一致连续性。我们还提出了一个启发式搜索算法利用这一性质，并提供了这类问题的初步结果。

总结

第1、2篇文章是多智能体在推荐系统中的应用。第3篇文章通过行列式Q学习解决了多智能体学习中值函数分解的问题。第4篇用多智能体的方法解决有限通信带宽中的通信问题。第5篇通过分层的方法平衡了个体奖励和团队奖励。第6篇提出了面向角色的方法，具有相同特征的角色共享学习使得在星际小游戏中表现提高。第7篇通过分层结构提高了强化学习的泛化能力。第8篇基于图网络，解决了动态交通环境下的智能体路由问题。第9篇是天大腾讯网易合作的文章，用Q值分解的方式解决全局奖励分配的问题，在星际小游戏上证明了性能。第11篇在零样本背景下提出OP算法，解决自玩过程中的一些问题。第14篇文章证明了在不完全信息共享的情况下最优值函数的一种连续性。

有些文章没有查到太多资料，也没来得及细读内容，如有错误，欢迎大佬多多指教。

什么是contextual bandit问题？
先搞清楚什么是bandit。简单来说，就是拿着游戏币在游戏厅玩老虎机以求利益最大化的问题。（注意每台老虎机的吐币概率不同）可参考：https://www.zhihu.com/question/53381093
而contextual bandit主要应用于推荐算法中，通过探索和利用获得较大的收益。可参考：https://zhuanlan.zhihu.com/p/35753281 ↩︎
信息瓶颈理论是指在尽量保留X关于Y的相关信息前提下，尽量降低X的码率。在深度学习中，这个理论通常认为：在这个边界上，网络在没有牺牲准确预测标签能力的情况下，尽可能地压缩输入。可参考：https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%93%B6%E9%A2%88/22761215?fr=aladdin
及https://zhuanlan.zhihu.com/p/60958638 ↩︎

策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
农业物联网平台中的灌溉系统研究 sj52abcd 农业物联网和人工智能物联网数据分析 python 大数据毕业设计
研究目的本研究旨在开发一个基于Python语言的农业物联网平台，整合土壤墒情监测与精准灌溉系统，通过现代信息技术手段实现农业生产的智能化管理。系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。具体目标包括：1)构建实时土壤墒情监测网络，通过物联网传感器采集土壤温湿度、电导率等关键参数
用于人形机器人强化学习运动的神经网络架构分析
1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。1.1人形机器人运动强化学习的机遇与挑战尽管DRL取得了显著
人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析
1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记烨川南强化学习学习笔记算法人工智能机器学习
一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、微能源网能量管理的基本概念与核心需求二、深度强化学习（DRL）在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向2运行结果2.1有/无策略奖励2.2训练结果12.2训练结果23参考文献
强化学习贝尔曼方程推导愤怒的可乐强化学习人工智能概率论机器学习算法
引言强化学习中贝尔曼方程的重要性就不说了，本文利用高中生都能看懂的数学知识推导贝尔曼方程。回报折扣回报GtG_tGt的定义为：Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1(1)G_t=R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+\cdots=\sum_{k=0}^\infty\gamma^kR_{t+k+1}\tag1Gt=Rt+1+γR
强化学习RLHF详解贝塔西塔强化学习大模型人工智能深度学习机器学习算法语言模型
RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数（RewardFunction），但在复杂任务（如自然语言生成、机器人控制）中，设计精确的奖励函数极为困难。例如：模糊目标：生成“高质量文本”难以量化，无法用简单的指标（如BLEU、R
强化学习【chapter0】-学习路线图明朝百晓生算法人工智能机器学习
前言：主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段（Ch8-Ch9）：动手实现DQN/策略梯度，熟悉PyTorch/TensorFlow3️⃣前沿阶段（Ch10：阅读论文（OpenAISpinningUp/RLlib文档）Chapter1：基
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解 John_今天务必休息一天 2_大语言模型基础 #2.2 生成式预训练语言模型GPT gpt log4j 语言模型人工智能自然语言处理算法
Instrct-GPT强化学习奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质：共享上下文的比较对捆绑（1）为什么同一prompt的比较对必须捆绑？（2）InstructGPT的优化方案二、输入输出与损失函数的具体构造（1）输入输出示例（2）人工标注数据的处理（3）损失函数的计算过程（4）反向传播的核心逻辑三、为什么不需要人工标注分值？（1）排序数据的天然属性（2）避
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
Keras环境复现代码（三） yanyiche_ keras 深度学习人工智能
DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。清楚实验原理：1、深度Q学习（DeepQ-Network）将卷积神经网络与Q学习结合，解决高维视觉输入的强化学习问题：2、经验回放：将状态转换存储到缓冲区，打破数据相关性，稳定训练。3、目标网络：定期更新目标Q值计算网络，减少训练中的目
Keras环境复现代码（二） yanyiche_ Keras 机器学习人工智能
PPOCartPole控制算法实践实验要求明确实验目的：学习和实现PPO算法，这是一种改进的策略梯度方法，通过限制策略更新的幅度来提高训练的稳定性。清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。PPO算法通过引入一种新的策略更新机制，限制每次更新的幅度，从而提高训练的稳定性和效率。PPO算法
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
星际争霸多智能体挑战赛（SMAC）资源存储库多智能体强化学习人工智能
目录TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3多智能体强化学习Dec-POMDPs12-POMDPs（十二月-POMDP）Centralisedtrainingwithdecentralisedexec
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1 行云流水AI笔记开源算法
以下是DQN（DeepQ-Network）和PPO（ProximalPolicyOptimization）的全面对比流程图及文字解析。两者是强化学习的核心算法，但在设计理念、适用场景和实现机制上有显著差异：graphTDA[对比维度]-->B[算法类型]A-->C[策略表示]A-->D[动作空间]A-->E[学习机制]A-->F[探索方式]A-->G[稳定性]A-->H[样本效率]A-->I[关键
PettingZoo:多智能体强化学习的标准API 资源存储库多智能体强化学习人工智能深度学习
PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1介绍2BackgroundandRelatedWorks2背景及相关工作2.1PartiallyObservableStochasticGamesandRLlib2.1部分可观察随机
神经网络架构搜索 IJCAST主编进化计算神经网络架构人工智能
InternationalJournalofComplexityinAppliedScienceandTechnology，投稿网址:https://www.inderscience.com/jhome.php?jcode=ijcast,发表论文不收取任何费用，论文平均审稿25天内即可录用。1.神经网络架构搜索方法分类当前，神经网络架构搜索的方法主要可以归纳为以下三类：a.基于强化学习的NAS方法
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro