111辄

强化学习 | Multi Agents | Trust Region | HATRPO | HAPPO

学习情况：

主要看了论文 MATRPO (HATRPO)，这篇博客是笔记。其它地，最近简单看了下 GAE 和 Variance of MAPG 两篇，没做笔记

MATRPO 逻辑很清晰，理论推导做得很扎实，附录的公式推导近10页。其code

作者写了论文解析blog，核心点解释得蛮清晰，不涉及复杂的数学推导。认真读下其blog就能懂个大概，再重读论文便轻松了

全文共7k字，纯手敲。含大量手写笔记，含大量个人主观理解。较于前两篇学习blog，这篇中的原文引用和英文笔记偏多些。如有错误，欢迎指正

前序文章1：强化学习入门笔记 | UCL silver RL | UC Berkely cs285 DRL

前序文章2：强化学习 | 策略梯度 | Natural PG | TRPO | PPO

此篇文章3：强化学习 | Multi Agents | Trust Region | HATRPO | HAPPO

后序文章4：强化学习 | Mirror Learning

目录：

论文概述

符号定义

MARL基本符号

Q-value Function

Advantage Funciton

Decomposition Lemma

Trust Region Learning

表示差异

Trust Region in Single Agent

Trust Region in Multi Agents

HATRPO

原理

伪代码

HAPPO

原理

伪代码

实验情况

SMAC

任务

结果

分析

Multi-Agent MuJoCo

任务

结果

分析

论文概述

2022 - Kuba - Multi-Agent Constrained Policy Optimisation

该论文将 trust region learning 推广至了MARL (multi-agent reinforcement learning)：

其提出并证明了multi-agent advantage decomposition lemma，并基于此提出了多智能体的 sequential policy update scheme (update the policy of agent one by one)

而后，基于单智能体上的TRPO和PPO算法，基于新颖的多智能体策略更新方案，作者构建了针对多智能体的trust region算法：HATRPO (Heterogenous-Agent Trust Region Policy Optimisation) 和 HAPPO (Heterogeneous-Agent Proximal Policy Optimisation)

作者证明了该算法的单调改进性 (monotonic improvement)。且该算法 no parameters sharing，也 no any restrictive assumptions on decomposibility of the joint value function.

关于homogenous (同质的) 和heterogenous (异质的)：

Homogenous, sharing the same action space and policy parameters, which largely limits their applicability and harm the performance

heterogenous, not need agents to share parameters, having their own action space

对比这两个词，再理解下HATRPO (H -> heterogenous) 的含义。将借由顺次更新各个智能体的策略实现这一设想

那么 homogenous，参数共享有什么缺点吗？

其实将 trust region learning 从 single-agent 推广到 MARL 已经有了一些先例，比如 MAPPO。但是它的推广方式十分简单，"equip all agents with one shared set of parameters and use agents' aggregated trajectories to conduct policy optimisation at every iteration"。它学习一个基于global state的centralized value function和一个 sharing policy（各个agent通过局部观测和共享策略做动作），而且并不能从理论上保证单调递增

那么MARL中参数共享 (共享策略空间)可能导致什么问题呢？

看一个例子，

证明如下（通过举反例证明还蛮有意思的；这个证明过程比较好懂）：

则在这个例子中，parameter sharing can lead to a suboptimal outcome that is exponentially-worse with the increasing number of agents.

该算法在 SMAC task 和 MuJoCo task 上为SOTA

还是那个学习顺序，建议先读透Natural PG，再看TRPO。有了TRPO的基础看PPO会很容易。然后再看这篇HATRPO、HAPPO。

这个推进关系上，每个算法都做了改进和变动，如果略过中间一环或者略过一环的某个推导过程，接下来的算法可能真的吃不透。例如，TRPO中并没有那么细致地讲NPG的推导过程；PPO虽延续了TRPO的思想，但是不再复述TRPO中步步推导的目标函数，而是直接讲其改进了。初学者学习trust region PG时，最好从地基起。

符号定义

MARL基本符号

作者新引入两个定义：Multi-agent Q-value Function 和 Multi-agent Advantage Function

Q-value Function

The multi-agent state-action value function Q for an arbitrary ordered agent subset $\begin{equation} i_{1: m}=\left\{i_{1}, \ldots, i_{m}\right\} \end{equation}$ is defined as $\begin{equation} Q_{\boldsymbol{\pi}}^{i_{1: m}}\left(s, \boldsymbol{a}^{i_{1: m}}\right) \triangleq \mathbb{E}_{\mathbf{a}^{-i_{1: m}}\sim \boldsymbol{\pi}^{-i_{1: m}}}\left[Q_{\boldsymbol{\pi}}\left(s, \boldsymbol{a}^{i_{1: m}}, \mathbf{a}^{-i_{1: m}}\right)\right] \end{equation}$

where $\begin{equation} -i_{1: m} \end{equation}$ refers to its complement and $\begin{equation} i_{k} \end{equation}$ refers to the $\begin{equation} k^{t h} \end{equation}$ agent in the ordered subset.

complement应该翻译成补集吧， $\begin{equation} -i_{1: m} \end{equation}$ 应该是指除了这1:m个agents外的agents，即 $\begin{equation} i_{m+1: n} \end{equation}$

直观理解下， $\begin{equation} Q_{\pi}^{i_{1: m}}\left(s, \boldsymbol{a}^{i_{1: m}}\right) \end{equation}$ represents the average return if agents $\begin{equation} i_{1: m} \end{equation}$ take a joint action $\begin{equation} \boldsymbol{a}^{i_{1: m}} \end{equation}$ at state s.

按照我的理解，再白话一点 (部分用词不准确，大概是那个意思qaq)，agents $\begin{equation} i_{1: m} \end{equation}$ 的动作是固定的： $\begin{equation} \boldsymbol{a}^{i_{1: m}} \end{equation}$ ，Q是在该状态s、该动作组 $\begin{equation} \boldsymbol{a}^{i_{1: m}} \end{equation}$ 条件下的average return。 $\begin{equation} \mathbf{a}^{-i_{1: m}} \end{equation}$ 是变量，不确定 $\begin{equation} -i_{1: m} \end{equation}$ 采取什么动作，所以针对它求Q的期望

结合上面两段话，理解Q

Advantage Funciton

The multi-agent advantage function A of subsets $\begin{equation} i_{1: m} \end{equation}$ is defined as

$\begin{equation} A_{\boldsymbol{\pi}}^{i_{1: m}}\left(s, \boldsymbol{a}^{j_{1: k}}, \boldsymbol{a}^{i_{1: m}}\right) \triangleq Q_{\boldsymbol{\pi}}^{j_{1: k}, i_{1: m}}\left(s, \boldsymbol{a}^{j_{1: k}}, \boldsymbol{a}^{i_{1: m}}\right)-Q_{\boldsymbol{\pi}}^{j_{1: k}}\left(s, \boldsymbol{a}^{j_{1: k}}\right) \end{equation}$

where $\begin{equation} i_{1: m} \end{equation}$ and $\begin{equation} j_{1: k} \end{equation}$ are disjoint subsets.

Advantage Function指 "relative advantage"，要减去 baseline.

在single agent时， $\begin{equation} A_{\pi}(s, \boldsymbol{a}) \triangleq Q_{\pi}(s, \boldsymbol{a})-V_{\pi}(s) \end{equation}$ ，减掉的baseline是状态s的状态函数

在multi agent时，对 $\begin{equation} A_{\boldsymbol{\pi}}^{i_{1: m}}\left(s, \boldsymbol{a}^{j_{1: k}}, \boldsymbol{a}^{i_{1: m}}\right) \triangleq Q_{\boldsymbol{\pi}}^{j_{1: k}, i_{1: m}}\left(s, \boldsymbol{a}^{j_{1: k}}, \boldsymbol{a}^{i_{1: m}}\right)-Q_{\boldsymbol{\pi}}^{j_{1: k}}\left(s, \boldsymbol{a}^{j_{1: k}}\right) \end{equation}$ 这么理解：

写好后截屏时候Prodrafts滑了下没截上，留下了这道斜线。却发现Prodrafts居然没有橡皮擦(大离谱！)，破坏了画面的线消不去了。幸亏我没有强迫症，唉

而且这个米色纸配这个灰色底色好丑啊显得qaq 后面还是白色吧

Decomposition Lemma

Multi-Agent Advantage Decomposition Lemma (pivotal)

In any cooperative Markov games, given a joint policy Π, for any state s, and any agent subset $\begin{equation} i_{1: m} \end{equation}$ , the below equations holds.

$\begin{equation} A_{\pi}^{i_{1: m}}\left(s, \boldsymbol{a}^{i_{1: m}}\right)=\sum_{j=1}^{m} A_{\pi}^{i_{j}}\left(s, \boldsymbol{a}^{i_{1: j-1}}, a^{i_{j}}\right) \end{equation}$

The lemma shows that the joint advantage function can be decomposed into a summation of each agent's local advantages in the process of sequential update

解释一下，

Multi-Agent Advantage Decomposition Lemma证明如下：

ps：从直观上理解从第一行到第二行的意思

Trust Region Learning

将首先写下 trust region learning 应用于 single agent 和 multi agent 时的差异的符号表示和推导顺序，并回顾下 single agent 上的 objective 推导过程，而后顺畅推广至 multi agents中

这里名词执意写 single agent 和 multi agents 而不写 TRPO 和 HATRPO 的原因是 trust region in single agent (描述于那篇著名论文) / multi agents (描述于本篇论文) 是一种思想，一种scheme，而 TRPO 和 PPO 是前者思想的实现方式，HATRPO 和 HAPPO 是后者思想的实现方式

表示差异

ps：notion definition不同，一方面是本文作者下了multi agents时的 Q-value Function 和 Advantage Function 的新定义（已写于上一part），另一方面不同论文表示意思相同时可能用了不同符号（部分总结于这儿）。为了下面对比两篇论文数学公式时候顺畅一点，才写了这一部分。其实没什么影响，只是很正常地不同论文中表示不同

Trust Region in Single Agent

Trust Region in Multi Agents

推导过程中一些严格的数学证明：

关于 J(Π) 单调递增的严格证明：

证明中用到的 Lemma8 及其证明：

然后作者又研究了一下该算法的收敛：

This definition characterises the equilibrium point at convergence for cooperative MARL tasks. Based on this, we have the following result that describes the asymptotic convergent behaviour towards NE.

Nash equilibrium (纳什平衡)：平衡了，任何人都利益最大化，认为遵循协议行事强于违背协议。参考链接1，参考链接2 , 参考链接3

Proposition2中涉及到的Corollary 1又涉及到蛮多推导和定义：

使用归纳法证明，好长，不放了

最后的证明结果是， $\begin{equation} \left\|Q_{\pi}-Q_{\hat{\pi}}\right\| \leq \frac{\gamma Q_{\max } \cdot|\mathcal{A}| \cdot\|\pi-\hat{\pi}\|}{1-\gamma} \end{equation}$

终于得到了Corollary1：

作者甚至证明了，

在TRPO中都没有看到类似证明，真的好严谨啊

还有一个连续性相关的推论一起放在这里：

感觉涉及到好多凸优化的概念，看上面这些推导的时候，查了NE、凸优化convexity、compact set、close set、Bolzano-weierstrass theorem、lipschitz-continuity、variance decomposition、affine function 好多，实在懒得整理了，有空再说吧。可能会跟课程完整过一遍之后

则 Sequential Policy Update Scheme的伪代码：

HATRPO

原理

伪代码

HAPPO

原理

To further alleviate the computation burden from Hessian Matrix in HATRPO,one can follow the idea of PPO by considering only using first order derivatives. This is achieved by making agent $\begin{equation} i_{m} \end{equation}$ choose a policy parameter $\begin{equation} \theta_{k+1}^{i_{m}} \end{equation}$ which maimises the clipping objecvite of

$\begin{equation} \mathbb{E}_{\mathrm{s} \sim \rho_{\pi_{\theta_{k}}}, \mathbf{a}^{\sim} \boldsymbol{\pi}_{\theta_{k}}}\left[\min \left(\frac{\pi_{\theta^{i_{m}}}^{i_{m}}\left(\mathrm{a}^{i} \mid \mathrm{s}\right)}{\pi_{\theta_{k}^{i_{m}}}^{i_{m}}\left(\mathrm{a}^{i} \mid \mathrm{s}\right)} M^{i_{1: m}}(s, \mathbf{a}), \operatorname{clip}\left(\frac{\pi_{\theta^{i_{m}}}^{i_{m}}\left(\mathrm{a}^{i} \mid \mathrm{s}\right)}{\pi_{\theta_{k}^{i_{m}}}\left(\mathrm{a}^{i} \mid \mathrm{s}\right)}, 1 \pm \epsilon\right) M^{i_{1: m}}(s, \mathbf{a})\right]\right. \end{equation}$

The optimisation process can be performed by stochastic gradient methods such as Adam.

伪代码

实验情况

SMAC

任务

SMAC (StarCraftll Multi-Agent Challenge) contains a set of StarCraft maps in which a team of ally units aims to defeat the opponent team.

结果

在该任务上，IPPO、MAPPO 这类 parameter sharing 算法，和 HATRPO、HAPPO 这类 non-parameter sharing 算法都达到了100%

分析

SMAC任务较简单，non-parameter sharing is not necessarily required，sharing policies is sufficient to solve SMAC tasks.

Multi-Agent MuJoCo

任务

A continuous control task. MuJoCo tasks challenge a robot to learn an optimal way of motion; Multi-Agent MuJoCo models each part of a robot as an independent agent, for example, a leg for a spider or an arm for a swimmer.

结果

HATRPO and HAPPO enjoy superior performance over those of parameter-sharing methods:IPPPO and MAPPO, and the gap enlarges with the number of agents increases.

HATRPO and HAPPO also outperform non-parameter sharing MADDPG with both in terms of reward values and variance.

分析

该任务较复杂，能较好与其它算法拉开差距，体现HATRPO和其背后原理的优越性

HATRPO比参数共享方法 (MAPPO等) 性能好得多。而且随着智能体数目增加，两类算法差距越拉越大，这说明了modelling heterogeneous policies的必要性

HATRPO性能表现优于HAPPO，认为是 hard KL constraint 相较于 clipping 更接近原理描述

深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
Linux驱动-字符设备驱动 Vis-Lin Linux驱动 linux 驱动开发运维单片机物联网
Linux驱动-字符设备驱动前言一、预备知识1、file_operations结构体2、地址映射二、涉及的API函数1、字符设备驱动1.1、设备号1.1.1、register_chrdev_region函数1.1.2、alloc_chrdev_region函数1.1.3、unregister_chrdev_region函数1.2、字符设备1.2.1、cdev_init函数1.2.2、dev_add
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World Terry Cao 漕河泾 3d 人工智能计算机视觉目标跟踪
基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而，尽管它们能够实现最先进的结果，大多数方法的计算开销很大，需要大量资源来实时运行。在下文中，我们基于之前的工作，开发了SRT3D，这是一种稀疏的基于区域的3D物体跟踪方法，旨在弥合效率上的差距。我们的方法在所谓的对应线（这些线模型化了物体轮廓位置的概率）上稀疏地考虑图像信息。由此，我们改进了当前的技术，并引入了考虑定义
Hbase - 迁移数据[导出,导入] kikiki5
>有没有这样一样情况，把一个集群中的某个表导到另一个群集中，或者hbase的表结构发生了更改，但是数据还要，比如预分区没做，导致某台RegionServer很吃紧，Hbase的导出导出都可以很快的完成这些操作。![](https://upload-images.jianshu.io/upload_images/9028759-4fb9aa8ca3777969.png?imageMogr2/auto
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
C# 基本语法-变长参数和参数默认值 Miss寒风凛冽 c#unity
usingSystem;namespacelesson9_变长参数和参数默认值{classProgram{#region函数语法复习//1.静态关键词可选目前对于我们来说必须写//2.返回值没有返回值void可以填写任意类型的变量//3.函数名帕斯卡命名法//4.参数可以是0到n个前面可以加ref和out用来传递想要在函数内部改变内容的变量//5.如果返回值不是void那么必须有return对应类
whois 批量查询使用指南 jackywangjia 网络工具通讯技术
Internet的IP地址和AS号码分配是分级进行的。ICANN(TheInternetCorporationforAssignedNamesandNumbers)，负责全球Internet上的IP地址进行编号分配的机构(原来是由IANA负责)。根据ICANN的规定，ICANN将部分IP地址分配给地区级的Internet注册机构(RegionalInternetRegistry),然后由这些RIR
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
Linux操作系统：Docker版本更新 Zero_one_ws Linux linux docker java 服务器容器算法部署
如不能解决missingsignaturekey问题，可在留言区留言，互助共进！dockerpull拉取镜像遇到如下错误，重试多次依然不能拉取时，很可能就是docker版本太低了。[root@localhost~]#dockerpullmysql--disable-content-trust=trueUsingdefaulttag:latestTryingtopullrepositorydocke
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
vue2 wavesurfer.js（7.8.5）简单使用发根强劲 javascript vue.js 前端前端框架 elementui
文档地址：https://wavesurfer.xyz/docs/总时长：{{totalTime}}播放/暂停停止快退快进音量减速{{speed}}加速从第秒开始播放开始importWaveSurferfrom"wavesurfer.js";importTimelinefrom"wavesurfer.js/dist/plugins/timeline.js";importRegionsfrom"wa
坚定理想信念，锤炼党性修养知涵知
理想信念是中国共产党人的政治灵魂，是共产党人精神上的“钙”，没有理想信念，理想信念不坚定，精神上就会“缺钙”，就会得“软骨病”。党员干部只有坚定理想信念，强化责任担当，锤炼道德操守，提升党性修养，才能切实做到为党分忧、为国尽责、为民奉献。坚定理想信念，就要强化学习精神、自律精神、担当精神。思想理论上的坚定清醒是政治上坚定的前提，党员干部要始终把理论学习作为政治责任、事业需要和精神追求，积极参加组织
如何让孩子越来越完美娟娟田
孩子不想写作业，我们要想的不是怎样去催促威逼利诱，而是教给孩子时间管理方法、增强学习兴趣；孩子做什么都磨蹭，我们要想办法给他有趣的事情让他盼着，要让他对生活有奔头；孩子胆小不爱交往，我们要在平时树立自信上下功夫，同时教给他交往技巧，多提供交往机会；孩子脾气大爱哭闹，我们了解孩子的敏感期，要改善自己和家人的说话态度，多陪伴多共情，用故事游戏等方式帮他处理情绪；孩子看电视控制不住，我们要给他提供比看电
鸿蒙轻内核A核源码分析系列四（3）虚拟内存 OpenHarmony_小贾 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos OpenHarmony 鸿蒙内核移动开发驱动开发系统开发
4.2函数LOS_RegionAlloc函数LOS_RegionAlloc用于从地址空间中申请空闲的虚拟地址区间。参数较多，LosVmSpace*vmSpace指定虚拟地址空间，VADDR_Tvaddr指定虚拟地址，当为空时，从映射区申请虚拟地址；当不为空时，使用该虚拟地址。如果该虚拟地址已经被映射，会先相应的解除映射处理等。size_tlen指定要申请的地区区间的长度。UINT32regionF
python 物理引擎_在 Gym 上构建会动的人工智障1（python） weixin_39542608 python 物理引擎
背景说明作者最近使用processing的一个重要目标就是为学生的编程学习设计具体的应用场景，最近突然发现有一个包已经提供了部分功能，所以探索一下。这个包就是我们今天的主人公：Gym。Gym是用于开发和比较强化学习算法的python包，但是我们也完全可以使用它来作为我们自己程序的应用背景，并提供可视化。简单的说，就是我们使用自己写的小程序，而不是强化学习算法，来尝试完成其中的任务，并把完成任务的过
Java面试题--JVM大厂篇之深入解析G1 GC——革新Java垃圾回收机制青云交 Java大厂面试题 Java虚拟机（JVM）专栏 Java技术栈 java jvm 开发语言 G1 GC的区域划分及其作用伊甸园区幸存者区老年代区
目录引言:正文：一、G1GC的区域划分及其作用1.伊甸园区（EdenRegion）2.幸存者区（SurvivorRegion）3.老年代区（OldGenerationRegion）二、区域划分的优势:三、图片解析:结束语：引言:在Java应用开发中，性能优化始终是一个重要而又棘手的话题。尤其是垃圾回收（GC）机制，常常是影响应用性能的关键因素。G1GarbageCollector（Garbage-
强化学习（二）----- 马尔可夫决策过程MDP Duckie-duckie 机器学习数据数据分析数据挖掘机器学习算法
1.马尔可夫模型的几类子模型大家应该还记得马尔科夫链(MarkovChain)，了解机器学习的也都知道隐马尔可夫模型(HiddenMarkovModel，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(MarkovDecisionProcess,MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作
Python强化学习，基于gym的马尔可夫决策过程MDP，动态规划求解，体现序贯决策 baozouxiaoxian python gym qlearning python 强化学习 mdp 动态规划求解马尔科夫决策过程
决策的过程分为单阶段和多阶段的。单阶段决策也就是单次决策，这个很简单。而序贯决策指按时间序列的发生，按顺序连续不断地作出决策，即多阶段决策，决策是分前后顺序的。序贯决策是前一阶段决策方案的选择，会影响到后一阶段决策方案的选择，后一阶段决策方案的选择是取决于前一阶段决策方案的结果。强化学习过程中最典型的例子就是非线性二级摆系统，有4个关键值，小车受力，受力方向，摆速度，摆角，每个状态下都需要决策车的
【面试题】防火墙的部署模式有哪些？聪明的小脑袋瓜儿网络安全面试题网络网络安全防火墙部署模式安全设备
防火墙的部署模式多种多样，每种模式都有其特定的应用场景和优缺点。以下是防火墙的主要部署模式：一、按工作模式分类路由模式定义：当防火墙位于内部网络和外部网络之间时，需要将防火墙与内部网络、外部网络以及DMZ（非军事区）三个区域相连的接口分别配置成不同网段的IP地址，重新规划原有的网络拓扑，此时防火墙相当于一台路由器。特点：防火墙的Trust区域接口与公司内部网络相连，Untrust区域接口与外部网络
强化学习分类 0penuel0
Model-free:Qlearning,Sarsa,PolicyGradientsModel-based:能通过想象来预判断接下来将要发生的所有情况.然后选择这些想象情况中最好的那种基于概率：PolicyGradients基于价值：Qlearning,Sarsa两者融合：Actor-Critic回合更新：Monte-carlolearning，基础版的policygradients单步更新：Ql
7. 深度强化学习：智能体的学习与决策 Network_Engineer 机器学习学习机器学习深度学习神经网络 python 算法
引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。1.强化学习的基本框架强化学习是机器学习的一个分支，专注于智能体在与环境的交互过程中，学习如何通过最大
halcon图像矫正威威当爸了 Halcon halcon
图像矫正**55表示最大文字的高度text_line_orientation(RegionTrans,InputImage,55,rad(-30),rad(30),OrientationAngle)rotate_image(InputImage,ImageRotate,-OrientationAngle/rad(180)*180,'constant')xld矫正,发现这个不是很灵.get_imag
The 2023 ICPC Asia Regionals Online Contest (2)-2023 ICPC网络赛第二场部分题解 I,M 小新-杂货铺算法竞赛补题复盘网络算法 c++
目录MDirtyWork（数学期望/贪心）IImpatientPatient(数学期望）原题地址：PTA|程序设计类实验辅助教学平台(pintia.cn)MDirtyWork（数学期望/贪心）ItisanotherICPCcontest.Yourteammatessketchedoutallsolutionstotheproblemsinafractionofasecondandwentawayt
使用NPOI 合并单元格后导出，打开文件Excel报错“尝试修复”解决办法相关人士丶
1.错误详细信息2.原因通常是在合并单元格时，对已合并的单元格再次做合并单元格。导出时不会报错，到那时打开时Excel会提示修复3.代码分析合并单元格的操作写在了for循环里面4.解决方法1.将合并单元格的操作写在循环的外面即可2.同时还可以用IsMergedRegion判断单元格是否已合并
在深学细悟笃行中推动干部教育培训工作高质量发展 Cooperr
全国组织工作会议全面深入学习贯彻党的二十大精神，总结新时代十年党的建设和组织工作重大成就，对当前和今后一个时期工作任务作出重大部署，通过学习全国组织工作会议精神，结合工作岗位实际我有以下几点感悟。首先要端正“深学”态度，增强学习主动性。及时跟进学习会议精神尤其是关于党的建设的系统阐述，时刻增强学习紧迫感、自觉性，利用学习强国、新时代e支部等线上平台，采取集中学与自主学相结合的方式方法，按照全年理论
深度强化学习之DQN-深度学习与强化学习的成功结合 CristianoC
目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。一是因为当问题复杂后状态太多，所需内存太大；二是在这么大的表格中查询对应的状态也是一件很耗时的事情。image通常的做法是把
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

强化学习 | Multi Agents | Trust Region | HATRPO | HAPPO

论文概述

符号定义

MARL基本符号

Q-value Function

Advantage Funciton

Decomposition Lemma

Trust Region Learning

表示差异

Trust Region in Single Agent

Trust Region in Multi Agents

HATRPO

原理

伪代码

HAPPO

原理

伪代码

实验情况

SMAC

任务

结果

分析

Multi-Agent MuJoCo

任务

结果

分析

你可能感兴趣的:(强化学习,强化学习,增强学习,ICLR,trust,region,multi-agents)