azeyeazeye

MAPPO:The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games

MAPPO

论文代码
1.研究动机是什么
2.主要解决了什么问题
3.所提方法是什么
- MAPPO算法细节
- 提升PPO性能的5个关键
4.关键结果及结论是什么
- 主要结论
- - MPE实验
  - SMAC实验
  - Hanabi实验
- 消融实验
- - 值归一化
  - Agent-Specific Global State
  - Training Data Usage
  - Action Masking
  - Death Masking
5.创新点在哪里
6.有值得阅读的相关文献吗
7.综合评价又如何
- - 参考链接

论文代码

论文链接：https://arxiv.org/abs/2103.01955
代码地址：https://github.com/marlbenchmark/on-policy
代码讲解：

1.研究动机是什么

早期的研究表明，在连续控制任务中，on-policy算法TRPO优于off-policy算法DDPG。然而，在最近的off-policy方法SAC和Rainbow中认为，即使是最新的PG算法PPO，采样效率也明显低于off-policy方法。

在许多单智体领域（MuJoCo，Atari和机器人系统），目前off-policy方法在样本复杂度上是SOTA的。

在多智能体领域也有类似的结论：多智体PG方法COMA在MPE和SMAC上的表现均明显优于MADDPG和QMix。

尽管IPPO可以在一些特定的hard SMAC地图上表现出高成功率，但原因尚不清楚，而且IPPO的整体表现仍然比QMix差得多。

作者重新检验了这些关于PPO的结论，并表明MAPPO能够在3个主流的MARL合作试验台上实现SOTA性能。

单智体技巧：input normalization, value clipping, orthogonal initialization, and gradient clipping ，regularization（文中用normalization layer），离散任务使用soft trust-region penalty and discretizing the action space避免连续控制的局部最优问题，以上多智体领域同样适用，文中作者都用了。

2.主要解决了什么问题

3.所提方法是什么

POMDP定义为 $\langle\mathcal{S}, \mathcal{A}, O, R, P, n, \gamma\rangle$ ， $\mathcal{S}$ 是状态空间， $\mathcal{A}$ 是智能体共享动作空间， $o_{i}=O(s ; i)$ 是每个智能体局部观测空间， $P\left(s^{\prime} \mid s, A\right)$ 是状态转移概率， $R (s, A)$ 表示智能体共享奖励。算法采用CTDE框架，每个智能体使用共享策略 $\pi_{\theta}\left(a_{i} \mid o_{i}\right)$ ，利用局部观测 $o_{i}$ 生成其动作 $o_{i}$ ，优化自己的折扣累计回报 $J(\theta)=\mathbb{E}_{a^{t}, s^{t}}\left[\sum_{t} \gamma^{t} R\left(s^{t}, a^{t}\right)\right]$ 。

作者设计了一个策略网络 $\pi_{\theta}$ 和一个中心化值函数网络 $V_{\phi}(s)$ ，注意使用全局状态而不是局部状态。PPO常见Tricks：GAE with advantage normalization, observation normalization, gradient clipping, value clipping, layer normalization, ReLU activation with orthogonal initialization, and a large batch size under our 1-GPU constraint。超参网格搜索：network architecture，learning rate，entropy coefficient，the initialization scale of the final layer in the policy network.

MAPPO算法细节

MAPPO伪代码

提升PPO性能的5个关键

除了上面讲的，作者还总结提升PPO性能的5个关键：

值归一化
建议1：Always use PopArt value normalization
智能体特定的全局状态
设计全局状态的两种方法：1.每个智能体的局部观测拼接，即 $s=\left(o_{1}, \ldots, o_{n}\right)$ 。该方法会使值网络的输入维度远远高于策略网络，值网络的训练会比较难。反过来，不准确的值函数会损害策略网络学习。2.使用环境提供的全局信息。但是像SMAC环境提供全局状态包含信息比局部观测更少。因为局部观测虽然缺乏“看不见的盟友”和“敌人”的信息，但却包含了智能体特征，比如agent id、可用的动作、与所有敌人和队友的相对距离。作者认为这能解释为什么IPPO只用局部观测效果比中心控制PPO好。
作者为每个智能体设计一个全局状态，包含所有的全局信息和智能体自己的特征。对于SMAC环境，用了一个函数来计算全局状态，该状态包括所有不可见的敌人和代理信息，同时保持智能体特性。注意，特定于每个智能体的全局状态（agent-specific global state作者能不能换个词，好难翻译，就是每个智能体有一个自己的全局状态，每个智能体的全局状态是不一样的）不能在QMix中使用，因为QMix只有一个中心控制网络，因此所有智能体必须共享一个全局状态。
建议2：全局状态要包含单一智能体的特征，并且设计的时候不能使维度过高
训练数据使用
PPO使用重要性抽样来修正off-policy，允许样本重复使用。在采集1个batch样本后，把收集到的数据分成几个mini-batches，每个batch训练多个epochs。在连续控制问题，通常的做法是训练几十个epochs，每个epoch大约有64个mini-batches。然而，作者发现在多智能体领域，当样本被重复使用过于频繁时，MAPPO的性能下降，可能是由于环境的非平稳性造成的。因此，对容易的任务使用15个epochs，对困难的任务使用10或5个epochs。
作者发现，使用更多的数据来估计梯度可以提高实际性能；因此，在默认情况下，作者不会将训练数据拆分为mini-batches。在所有的SMAC地图中，避免使用小批量是有用的，只有一个SMAC地图将训练批量分成两个小批量可以提高性能。作者分析，在这种情况下，小批处理有助于避免的局部最优，类似于监督学习设置中观察到的现象。
建议3：避免使用过多的epochs训练，默认不要将数据拆分为mini-batches。
动作屏蔽
由于游戏约束，一些动作往往无法执行。因此，当计算softmax动作概率 $\pi_{\theta}\left(a_{i} \mid o_{i}\right)$ 的logits时，在前向和后向传递中屏蔽了不可用动作，因此不可用动作的概率总是0，这大大加速了训练。
建议4:计算动作概率时，屏蔽不可用动作。
死亡屏蔽
一个智能体可能在游戏结束前死亡(例如SMAC)。在价值学习过程中使用死去智能体信息状态会放大学习价值函数的偏差。因此，在GAE计算期间，智能体死亡时间步中的高值预测错误将会累积，进而阻碍在智能体仍然活着的时间步中的策略学习。作者的建议是使用一个带有代理ID的零向量，作为代理死亡后的值函数的输入。
建议5:使用带有智能体ID的零状态作为死亡智能体的值输入。

4.关键结果及结论是什么

实验环境
MPE、SMAC、Hanabi
对比算法
MADDPG、QMix和IPPO
IPPO使用本地观察作为价值输入，但其他方法遵循前面提到的所有PPO实施建议。
所有基准方法使用与MAPPO相同的超参数调优过程。我们强调，我们在这篇论文中报告的基线数字都与原始论文中相同或超过。此外，我们比较了每个领域的MAPPO和SOTA方法，即SMAC上的RODE 和Hanabi上的SAD。这两种算法的SOTA值均来自于它们的原始论文。
实验设备：256 GB RAM、1个64核CPU、1个GeForce RTX 3090 GPU的台式机。
为了计算wall-clock时间，MAPPO在MPE中运行128个并行环境，在SMAC中运行8个并行环境，而off-policy算法使用单个环境，这与原始论文中使用的实现是一致的。由于机器资源有限，我们在SMAC实验中最多使用5gb GPU内存Hanabi提供13gb GPU内存。
实证结果：在绝大多数环境中，MAPPO结果及样本复杂度，与SOTA相当或更好，大大缩短了训练时间。
本研究证明了一种基于策略的策略梯度多智能体强化学习算法MAPPO。在各种合作的多智能体挑战上，取得了与最新技术相当的强大结果。尽管其在策略上的性质，MA PPO在采样效率方面与无处不在的非策略方法(如MADDPG、QMix和RODE)竞争，甚至在时钟时间方面超过了这些算法的性能此外，在第4和第6节中，我们展示了对MAPPO的性能很重要的5种关键算法和实现技术，并通过各种消融研究来支持我们的发现，这些研究实证地证明了这些技术对MAPPO性能的影响。MAPPO获得的强有力的结果表明，适当配置的MAPPO是MARL任务的竞争性基线。基于这些结果，在未来的工作中，我们的目标是在更广泛的领域测试MAPPO的性能，如竞争游戏和具有连续行动空间的多智能体问题。

主要结论

MPE实验

SMAC实验

Hanabi实验

消融实验

值归一化

Agent-Specific Global State

Training Data Usage

Action Masking

Death Masking

5.创新点在哪里

提出centralized value function的多智能体PPO算法，MAPPO（早晚会有人做，恰巧他们做了）
总结使得多智体PPO算法有效的5点建议（大家都在用，恰巧他们总结了）
重新检验了目前关于PPO的结论，并表明MAPPO能够在3个流行的MARL合作试验台上实现SOTA性能（重塑PPO在多智体强化领域的地位）。

6.有值得阅读的相关文献吗

PopArt：https://arxiv.org/pdf/1809.04474.pdf

7.综合评价又如何

本研究提出了MAPPO。在各种合作的多智能体环境上，取得了与最新技术相当的SOTA结果。在采样效率方面，MAPPO与普遍存在的非策略方法(如MADDPG、QMix和RODE)相比，甚至在wall-clock时间这些算法的性能。此外，在第4节和第6节中，我们展示了总结了对MAPPO性能很重要的5种关键算法和实现技术，并通过各种消融研究来支持我们的发现，这些研究实证地证明了这些技术对MAPPO性能的影响。
这篇文章没有创新性，但是必不可少的。因为单智体目前性能最好的算法是PPO。而多智体的IPPO效果却不好，不是PPO本身的问题，是前人单智体算法迁移到多智体的工作没有做好，MAPPO的提出是多智体强化算法发展的必经之路。

参考链接

参考
[1]: http://baijiahao.baidu.com/s?id=1693377816234538595&wfr=spider&for=pc
[2]: https://blog.csdn.net/deeprl/article/details/114529629
[3]: https://arxiv.org/pdf/1809.04474.pdf

你可能感兴趣的:(多智能体强化学习MARL,强化学习,MARL,MAPPO)

机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
AI推演人类进化：计算人类学与基因仿真的融合革命
AI推演人类进化：计算人类学与基因仿真的融合革命引言：数字达尔文主义的新纪元“进化不是直线，而是亿万次迭代的多元宇宙”——李·克罗宁（计算化学家）当AlphaFold解开蛋白质折叠之谜，AI开始重构生命演化的底层逻辑。本文通过多智能体仿真、古基因组重建与文化演化建模三大技术支柱，揭示AI如何推演人类从南方古猿到智人的百万年征程，并预测未来千年的进化轨迹。一、进化动力学的基础模型1.1扩展的哈迪-温
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制王莽v2 机器人神经网络神经网络算法控制器
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制摘要本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型，两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能，并利用作用神经网络来补偿未知动
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
强化学习在成语接龙比赛中的应用 LucienCho
题目:裁判任意给出一个成语，比赛双方在有限的时间里轮流进行成语对答，要求:1.成语的首字要与上一个成语的尾字同声同调；2.当前比赛出现的所有成语不能再次出现；3.必须为四字成语分析:看到这个题目，笔者本能的想法是用现成代码跑一跑。但是在git上搜不到能赢得比赛的成语接龙代码，大多数代码只是实现了成语接龙的功能，随机找出符合规则的成语，不足以想赢得比赛，所以打算自己尝试。重新分析一遍规则吧！若不考虑
一文看懂：马斯克旗下人工智能公司 xAI 正式推出的Grok 4，Grok 4 如何开启 “多智能体内生化” 的 AI 新范式，重塑多模态大模型与 AI Agent 未来陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 gpt agi chatgpt 大模型 deep learning 神经网络
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列二十六一文看懂：马斯克旗下人工智能公司xAI正式推出的Grok4，Grok4如何开启“多智能体内生化”的AI新范
9个基于MATLAB 事件触发控制 985计算机硕士 matlab matlab 开发语言
9个基于MATLAB事件触发控制1线性多智能体系统一致性的分布式动态事件触发控制方法。2固定拓扑和切换拓扑下多智能体系统的分布式动态事件触发一致性控制.3有限时间一致性的分布式事件驱动控制.4多智能体系统的分布式事件触发控制.5多代理网络中基于事件的协议。6非线性不确定性多智能体系统的定时事件触发一致性控制.7线性多智能体网络的全分布式事件触发协议.8非理想一般线性多智能体系统基于观测器的事件触发
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
强化学习------DDPG算法 ZPC8210 算法 numpy matplotlib
一、前言DeepDeterministicPolicyGradient(DDPG)算法是DeepMind团队提出的一种专门用于解决连续控制问题的在线式(on-line)深度强化学习算法，它其实本质上借鉴了DeepQ-Network(DQN)算法里面的一些思想。论文和源代码如下：论文：https://arxiv.org/pdf/1509.02971.pdf代码：https://github.com/
Actor - Critic：AI人工智能领域的新宠儿
Actor-Critic：AI人工智能领域的新宠儿关键词：强化学习、Actor-Critic、策略梯度、价值函数、深度强化学习、A2C、A3C摘要：Actor-Critic是强化学习领域的一种重要算法框架，它结合了策略梯度方法和价值函数方法的优点，成为近年来人工智能领域的热门研究方向。本文将用通俗易懂的方式介绍Actor-Critic的核心概念、工作原理、实现方法以及实际应用，帮助读者理解这一强大
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
探索AI人工智能领域Actor - Critic的无限潜力
探索AI人工智能领域Actor-Critic的无限潜力关键词：AI人工智能、Actor-Critic、强化学习、策略网络、价值网络摘要：本文将深入探索AI人工智能领域中Actor-Critic方法的无限潜力。我们会先介绍其背景知识，接着用通俗易懂的方式解释核心概念，包括Actor和Critic的含义及它们之间的关系，然后阐述其核心算法原理和具体操作步骤，还会给出数学模型和公式并举例说明。通过项目实
如何强化学习力度，提升干部能力水平的思考王家遥
作为公职人员，要不断加强政治学习，做到严、实，在学习中提升综合能力素质，提高组织工作科学化水平，着力锻造一支爱学习、肯学习、富有成效的学习型干部。一要坚持政治标准，提高学习广度。要健全学习制度，加强对学习活动的动态管理，保证学习活动的经常性和学习内容的系统性。构建集体学（周一学习例会）和自主学相结合的灵活机制，鼓励干部线上线下结合，充分运用各类网络媒体、微信APP、公众号等，有意识地选择阅读共产主
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
智能体架构设计的五大核心原则：构建下一代AI系统的工程基石一休哥助手人工智能
引言：智能体架构的范式演进人工智能领域正经历从孤立模型向自主智能体的范式转变。2025年，全球AI智能体市场规模突破200亿美元，在金融、医疗、制造等领域的渗透率超40%。然而，智能体开发仍面临协作效率低（多智能体任务重叠率达30%）、安全风险高（工具调用错误率18%）和系统僵化（需求变更迭代周期超2周）三大痛点。本文基于产业实践提炼五大核心设计原则，为构建下一代智能体系统提供架构指南。传统LLM
一夜爆红的AI革命：Manus如何定义“智能体”新纪元？莫非技术栈人工智能
一夜爆红的AI革命：Manus如何定义“智能体”新纪元？——技术突破、资本狂欢与未来挑战全解析一、技术革新：从“对话助手”到“行动代理”的质变Manus的爆火并非偶然，其核心技术架构突破了传统AI工具的边界，重新定义了人机协作模式：多智能体协同框架Manus采用动态调度系统，据其技术白皮书显示，系统可调用多领域专业模型（官方未公布具体模型名称），通过实时评估模型响应速度、准确率、成本等指标，自动分
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
强化学习之 DQN、Double DQN、PPO JNU freshman 强化学习强化学习
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，
wend看源码-OpenManus 找了一圈尾巴 #开源项目源码学习大模型 Agent AI Agent
前言作为曾借势Manus热度推出的开源项目，OpenManus常被称为“开源版Manus”，但需明确的是，其实际定位更接近Demo级实现。相比之下，Manus作为智能体领域的头部方案，不仅成为AIAgent榜单评估的标杆，更已形成成熟的商业化能力。尽管二者在产品成熟度上存在差距，但OpenManus的核心设计思想与Manus并无本质差异。对于希望理解多智能体框架构建逻辑的开发者而言，该项目的代码实
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem Booksort online笔记论文论文阅读 transformer 深度学习
论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，对于一个N个节点的TSP实例，算法中会以不同的起点，跑N次，得到N个轨迹，以满足TSP的对称特性，表示这都是属于一个TSP问题的（真实）解然后会计算这样表示归一化奖励，得到一个advantage,然
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？损失函数怎么构建？微调后的旧轨迹还能用吗？这篇文章将以语言模型强化学习微调为例，结合实际实现和数学公式，深入解析PPO的关键计算流程。1️⃣策略网络：如何计算动作概率？策略网络πθ(a∣s)\pi_\t
AutoGen-AgentChat-7-GraphFlow工作流
importosfromdotenvimportload_dotenvload_dotenv()TrueGraphFlow（工作流)在本节中，你将学习如何使用（简称“flow”）创建多智能体工作流。它采用结构化执行，并精确控制智能体如何交互以完成任务。GraphFlow我们将首先向您展示如何创建和运行流程。然后，我们将解释如何观察和调试流程行为，并讨论管理执行的重要操作。AutoGenAgentC
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他