马小疼

从REINFORCE到PPO，看Policy Gradient的前世今生

Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法，后者是on-line、off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。随着RL的不断发展，这两类方法在不断交错领跑的过程中交汇融合，不断给我们带来新的惊喜。

本文重点在介绍Policy Gradient方法，从其“初心”出发，通过一步步的推导来讲述新的算法。后半部分的重点将放在兼具漂亮理论基础和简洁代码实现的PPO方法上，欢迎RL入门级的小朋友们一起讨论学习！

Policy Gradient

如果你已经了解了DQN，也许会想到这样一个问题：为什么一定要用值函数来做决策（当然这个想法也是很自然的），为什么不绕过值函数直接用神经网络来表示策略呢？
当然，想要讨论清楚这个问题不是很容易，有很多不同的看法，感兴趣的小朋友可以看一下知乎上对问题RL两大类算法的本质区别？（Policy Gradient 和 Q-Learning)
南京大学俞杨老师的答案，很有启发性。

让我们再退一步，我们想要的东西到底是什么呢？其实就是让我们采取策略的期望收益最大化！

θ * = arg max θ E τ \sim p θ (τ) r (τ)              J (θ)

τ 表示一条样本轨迹，策略所影响的，是样本轨迹 τ 出现的概率，也就是 pθ(τ) 。

那么 r(τ) 和 pθ(τ) 指的具体是什么呢？我们再进一步展开来写一下：

r (τ) = \sum t r (s t, a t) p θ (τ) = p (s 1) \prod t π θ (a t | s t) p (s t + 1 | s t, a t)

注意，这里的 τ 和 t 的含义不同， τ 是样本轨迹， t 是样本轨迹上的时间。仔细看 pθ(τ) 我们就会发现，将概率展开以后实际上我们的策略可以影响的只有 πθ(at|st) ，也就是在状态 st 下采取动作 at 的概率。这也就是我们策略的数学表示。

REINFORCE

现在我们就可以再向前走一步，按照机器学习的一般思路，我已经定义好了我的目标函数 J(θ) ，如果可以求出它的梯度 ∇θJ(θ) ，我们就可以梯度下降了！为了求梯度，我们将 J(θ) 改写成积分的形式：

J (θ) \nabla θ J (θ) = E τ \sim p θ (τ) r (τ) = \int p θ (τ) r (τ) d τ = \int \nabla θ p θ (τ) r (τ) d τ = \int p θ (τ) \nabla θ log p θ (τ) r (τ) d τ = E τ \sim p θ (τ) \nabla θ log p θ (τ) r (τ)

这里用到了一个小技巧， ∇θpθ(τ)=pθ(τ)∇θpθ(τ)pθ(τ)=pθ(τ)∇θlogpθ(τ) ，这样做的目的是把 pθ(τ) 重新拿到外边来，就可以再写成期望的形式了。

现在公式中的自变量仍然是 τ ，实际应用中我们不可能直接对 τ 求导，因此我们再把 pθ(τ) 带进来看看能不能将 τ 给替换为我们可以操作的 st 、 at ，

\nabla θ log p θ (τ) \nabla θ J (θ) = \nabla θ log p (s 1)              0 + \sum t ⎡ ⎣ ⎢ \nabla θ log π θ (a t | s t) + \nabla θ log p (s t + 1 | s t, a t)                      0 ⎤ ⎦ ⎥ = \sum t \nabla θ log π θ (a t | s t) = E τ \sim p θ (τ) [\sum t \nabla θ log π θ (a t | s t)] [\sum t r (s t, a t)]

于是，我们也就得到了我们的第一个算法REINFORCE：

用参数为 θ 的策略 πθ(a|s) 采样N条样本轨迹 τi
估计梯度 ∇θJ(θ)≈1N∑i(∑t∇θlogπθ(at|st))(∑tr(st,at))
更新参数 θ←θ+α∇θJ(θ) ，重复1

可以将 ∇θJ(θ) 看成这样的两部分： ∑tlogπθ(at|st) 是改进策略的方向， ∑tr(st,at) 是改进策略的步长，回报大的就走一大步，回报小的就走一小步，回报为负就往反方向走一步。

Actor-Critic

REINFORCE方法缺点很多，它的效率是非常低的，其中一个非常重要的原因就是方差非常大。 ∑tr(st,at) 是每一次仿真的结果，如果效果好了就会对这一次仿真的所有决策奖励，效果不好了就会全部惩罚，这显然是有问题的。
让我们再来好好看一下 ∇θJ(θ) 的计算过程

\nabla θ J (θ) = E τ \sim p θ (τ) [\sum t \nabla θ log π θ (a t | s t)] [\sum t' = 0 \infty r (s t', a t')]

如果 t2>t1 ， πθ(at2|st2) 理论上是不会对 ∑t1t=0r(st,at) 产生影响的。因此上面的计算式可以改进成为

\nabla θ J (θ) = E τ \sim p θ (τ) [\sum t \nabla θ log π θ (a t | s t) \sum t' = t \infty r (s t', a t')]

实际上， Qt=∑∞t′=tr(st′,at′) 和我们对Q因子的定义非常接近了，都是从时刻 t 开始到结束时的收益。

我们已经减少了一些方差了，能不能再减小呢？我们都知道，对于随机变量 X ，其方差 DX=EX2−(EX)2 ，如果 EX2 比较小的话，那么方差就会小了。自然想到给 r(τ) 减去一个值，即 r(τ)←r(τ)−b ，选择合适的 b （比如 1N∑ir(τi) ），那么方差就会变小了。方差小了，结果会不会变呢？答案是不变的，我们来证明一下：

E [\nabla θ log π θ (τ) b] = \int π θ (τ) \nabla θ log π θ (τ) b d τ = \int \nabla θ π θ (τ) b d τ = b \int \nabla θ π θ (τ) d τ = b \nabla θ \int π θ (τ) d τ = b \nabla θ 1 = 0

所以只要 b 本身是与 τ 无关的，那么我们就可以这样做！上面的证明是以 τ 为自变量的，其实当我们用 Qt 时一样可以推出这个结果。

b 的选取成为了另一个问题。理论上可以推出一个最优的 b ，不过应用中我们会用 Vt 估计 b 。也就是说用另外的一个网络来估计 Q(st,at) ， V(st)=Eat∼πθ(at|st)Q(st,at) ，这样就有

\nabla θ J (θ) = E τ \sim p θ (τ) [\sum t \nabla θ log π θ (a t | s t) [Q (s t, a t) - V (s t)])]

是不是看上去舒服多了？对DQN熟悉的小朋友们就可以用上熟悉的值网络了，不过这次我们的目的是通过估计值网络来帮助更新策略网络。

Q(st,at)−V(st) 实际上就是我们的优势函数 A(st,at) 。对于连续动作的问题， Q(st,at) 是比较难用网络表示的，即使表示出来也难以由 Q(st,at) 直接求出 V(st) 。因此，有时候我们会选择直接估计 V(st) ，用 r(st,at)+V(st+1)−V(st) 来估计 A(st,at) 。注意，这里又是估计的量， r(st,at)+V(st+1)−V(st) 和 A(st,at) 之间是有偏的。自从我们选择了用估计的 Q(st,at) 代替 ∑∞t′=tr(st′,at′) 开始，我们就一直在牺牲偏差来降低方差，以提高我们的学习速度。

Actor-Critic是一个算法框架，这里给出其中一种的算法流程：

用参数为 θ 的策略 πθ(a|s) 采样N个状态转移 {si,ai,ri,s′i}
更新值网络参数 ϕ 使得 Vϕ(si)←ri+Vϕ(s′i)
估计 A^(si,ai)=ri+V(s′i)−V(si)
估计梯度 ∇θJ(θ)≈1N∑i∇θlogπθ(ai|si)A^(si,ai)
更新参数 θ←θ+α∇θJ(θ) ，重复1

除了用值函数来估计 A^(s,a) ，Actor-Critic框架中至少还可以使用以下形式（我们基本上都讨论过了）:

∑∞t=0rt —— 轨迹的总回报
∑∞t′=trt′ —— 动作后的回报
∑∞t′=trt′−b(st) —— 减去基线
Qπ(st,at) —— 状态-行为值函数
Aπ(st,at) —— 优势函数
rt+Vπ(st+1)−Vπ(st) —— 时序差分误差（TD error）

PPO

截至目前，上述提到的算法都还有一些共同的问题。其中一个非常大的问题就是参数空间的距离并不等于策略空间的距离，也就是说在不同的状态下改变相同步长的网络参数，产生策略的概率改变是不同的，而且差异非常大！以下图为例，一个最简单的sigmoid函数输出在同样的参数步长下的输出是变化很大的！

再换句话说，我们希望可以找到一种方法，来自动调整参数空间的步长，以达到策略空间均匀变化的目的。

为了达到这样一个目标，我们需要知道不同的两个策略其目标函数的差异有多少，如果可以有效的评价出这个差值，那么我们就可以根据它来调整我们的策略了。幸运的是，两个策略目标函数的差值之间存在着这样一个关系

J (π') - J (π) = E τ \sim π' [\sum t = 0 \infty γ t A π (s t, a t)]

这里 π 是参数化的策略 πθ(at|st) ， π′ 则是更新后的策略。证明过程这里提示两点，一是 J(π)=Eτ∼π′[∑∞t=0γtrt] ，二是 A(st,at)=rt+V(st+1,at+1)−V(st,at) ，代入上式即可。

下面的问题是，我们怎么利用上面这个关系呢？请注意，上式的采样是在新的策略 π′ 下进行的，但我们还不知道新的策略是什么怎么采样呢，这不是因果矛盾了吗？难道我们要一个一个策略去试选个最好的？当你想在不同的分布下去估计某个期望，那一定绕不开重要性采样（Importance Sampling），不懂的同学请自行百度。

我们引入一个新的概念，叫折扣状态分布，定义是 dπ(s)=(1−γ)∑∞t=0γtP(st=s|π) ，直观理解就是在时间上更近的地方考虑的更多一些。在这个分布下，就有关系如下：

J (π') - J (π) = E τ \sim π' [\sum t = 0 \infty γ t A π (s t, a t)] = 1 1 - γ E s t \sim d π', a t \sim π' [A π (s t, a t)] = 1 1 - γ E s t \sim d π', a t \sim π [π ' ( a t | s t ) π ( a t | s t ) A π (s t, a t)]

这一部分可能比较难理解，我们一步步来解释一下。第一个等号这里做的事情是将轨迹 τ 拆开到每一个时间步上来看，然后将 P(st=s|π) 放到了求期望的角标里，也就是说考虑成了在 dπ′(s) 这种折扣分布条件下的期望。第二步就是用了重要性采样，解决了我们上面说到的 π′ 我们还不知道的问题。

等等！ at 是只和 π 有关了，但是 st 不还是和 π′ 有关吗？是的。但 dπ(s) 和 dπ′(s) 已经很接近了，理论证明如果 π 和 π′ 足够接近，那么其评价函数之差将满足

| J (π') - (J (π) + L π (π')) | \leq C E s t [D K L (π' | | π)] - - - - - - - - - - - - \sqrt

L π (π') = 1 1 - γ E s t \sim d π, a t \sim π [π ' ( a t | s t ) π ( a t | s t ) A π (s t, a t)]

其中 DKL(π′||π) 是 π 和 π′ 之间的KL散度，用以衡量两个分布之间的距离。现在，所有的分布中就没有需要从 π′ 进行采样的了。我们只需要计算一下更新参数后的 π 和 π′ 之间的比值已经KL散度，就可以估计两个策略之间的评价函数的差异了。

虽然现在已经很简单了，但 DKL(π′||π) 这个东西还是有点让我们伤脑筋，毕竟每一次更新参数都要判断一下这个条件是不是满足。为了解决这个问题，又有一系列的方法出现，比如用近似的方法去估计出最优解，再比如将 DKL(π′||π) 作为惩罚项加入到loss中。但是这些方法实现起来都比较麻烦，就是那种看都不想看一眼的麻烦。

于是，PPO就粉墨登场了。PPO其实就是近似的求解，原文中提到了两种方式来近似，一种是自动调整对KL散度的惩罚因子，一种是用clip的方法巧妙地构造了一个新的目标函数。因为第二种方法用过的都说好，我们重点来介绍一下它。

很简单，原来的方案中下一轮的参数 θk+1 满足

θ k + 1 = arg max θ L θ k (θ) s . t . D K L (θ k + 1 | | θ k) < δ L θ k (θ) = E τ \sim π k \sum t = 0 \infty [π θ ( a t | s t ) π θ k ( a t | s t ) A π θ k (s t, a t)]

现在换一种近似的目标函数

θ k + 1 = arg max θ L c l i p θ k (θ) L c l i p θ k (θ) = E τ \sim π k \sum t = 0 \infty [m i n (r t (θ) A π θ k (s t, a t), c l i p (r t (θ), 1 - ϵ, 1 + ϵ) A π θ k (s t, a t))] r t (θ) = π θ ( a t | s t ) π θ k ( a t | s t )

不要被公式的长度给吓到，其实就是控制了 π 和 π′ 的比值，如果这两个的比值接近那么自然其KL散度也不比较小，反之就剪掉超过的部分，将其比值限制在一个小范围内。这里的 ϵ 常取0.1或0.2。原文中还做了对比实验，说明了不同目标函数之间的关系。读图我们可以看到当 ϵ 取得很小时， Lclipθk(θ) 和 Lθk(θ)−DKL(theta||thetak) 是很接近的。

实验

至此，所有的理论部分都讲完了。我写了一个pytorch在pendulum问题上的小实验，大家感兴趣的可以看一下我的github。训练的效果、训练过程的曲线，还有学到的value和action都贴在了下面。

ppo学到的动作非常光滑，效果也很好。就是相对DQN来说，学的速度比较慢。

感谢阅读！

参考文献

UC Berkeley 强化学习课程 CS294-112
PPO算法原文 Proximal Policy Optimization Algorithms

SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
服务器清理空间--主要是conda环境清理和删除
1.查看空间情况(base)zhouy24@RL-DSlab:~/zhouy24Files$df-hFilesystemSizeUsedAvailUse%Mountedonudev252G0252G0%/devtmpfs51G4.9M51G1%/run/dev/nvme0n1p31.9T1.7T42G98%/tmpfs252G800M252G1%/dev/shmtmpfs5.0M4.0K5.0M1
【Vue CLI】手把手教你撸插件 vivo互联网技术
本文首发于vivo互联网技术微信公众号链接：https://mp.weixin.qq.com/s/Rl8XLUX7isjXNUmbw0-wow作者：ZhuPing现如今Vue作为主流的前端框架之一，其健全的配套工具，活跃的开源社区，让广发码农热衷追捧。VueCLI作为其官方的开发构建工具，目前已更新迭代到4.x版本，其内部集成了日常开发用到的打包压缩等功能，简化了常规自己动手配置webpack的烦
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
AI Agent从零到精通：深度解析Workflow、Prompt、Multi-Agent Systems和RL Training 爱看烟花的码农 AIGC NLP 人工智能 prompt
1.AI智能体简介：从概念到应用1.1什么是AI智能体？AI智能体是一种自主智能体，能够根据用户输入的目标，自主规划、执行和优化任务，最终生成结果。它不同于传统聊天模型（如ChatGPT）的单次回答能力，而是能处理多步骤、工具依赖、动态调整的复杂任务。例如：任务：用户要求“撰写一篇关于AI伦理的文章”。智能体行为：搜索资料、整理信息、撰写草稿、校对优化，全程无需用户干预。制造业场景（ManuS）：
《Unitree RL Gym 从 0 到 1 全解析》宇树G1机器人rl_gym、legged_game 与 rsl_rl 开源项目代码详解&&逻辑梳理
前言：此文将对宇树的RL_Gym进行详细介绍。为什么写这篇文章？首先对于这个项目来说，目前网上很难找到能讲明白的，其次，兼顾打工生活&知识分享需要些动力；因此，我决定推出这一篇付费文章，从纯小白视角出发，深入剖析该项目（大佬们请轻喷），这篇文章主要进行难点解析、代码分析与解释、整体的逻辑梳理。这篇付费文章耗费了我7h+的撰写，希望能为读者解开长期困扰的难题，带来启发与收获。开源项目链接：https
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Text2Reward学习笔记
1.提示词请问，“glew”是一个RL工程师常用的工具库吗？请问,thiscodebase主要是做什么用的呀？1.1解释代码是否可以请您根据thiscodebase的主要功能，参考PyTorch的文档格式和文档风格，使用Markdown格式为选中的代码行编写一段相应的文档说明呢？2.项目环境配置2.1新建环境[official]2.1.1Featurizecondacreate-p~/work/d
ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL） SugarPPig 人工智能人工智能
这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考
爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南许泽宇的技术分享人工智能
“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
R7F0C020M2DFB-C#AA0 16位单片机微控制器MCU Renesas
R7F0C020M2DFB特点超低功耗科技：-VDD=1.6～5.5V的单电源、能以1.8V的低电压运行。-HALT模式-STOP模式-SNOOZE模式RL78CPU内核：-3段流水线的CISC哈佛体系结构-最短指令执行时间：能在高速（0.04167μs：以高速内部振荡器时钟24MHz运行时）到超低速（30.5μs：以副系统时钟32.768kHz运行时）之间变换。-地址空间：1M字节-通用寄存器：
强化学习RLHF详解贝塔西塔强化学习大模型人工智能深度学习机器学习算法语言模型
RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数（RewardFunction），但在复杂任务（如自然语言生成、机器人控制）中，设计精确的奖励函数极为困难。例如：模糊目标：生成“高质量文本”难以量化，无法用简单的指标（如BLEU、R
DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑 m0_74825409 面试学习路线阿里巴巴人工智能架构
文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程（三）RL推理中的关键技术（四）RL推理的代码实现示例四、MoE架构与RL推理的结合：效率提升的奥秘（一）计算效率的提升（二）推理能力的增强（三）整体性能的飞跃五、结论与展望《DeepSee
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑泡泡Java AI大模型人工智能架构
文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程（三）RL推理中的关键技术（四）RL推理的代码实现示例四、MoE架构与RL推理的结合：效率提升的奥秘（一）计算效率的提升（二）推理能力的增强（三）整体性能的飞跃五、结论与展望《DeepSee
强化学习实战：从 Q-Learning 到 PPO 全流程荣华富贵8 程序员的知识储备2 程序员的知识储备3 人工智能算法机器学习
1引言随着人工智能的快速发展，强化学习（ReinforcementLearning,RL）凭借其在复杂决策与控制问题上的卓越表现，已成为研究与应用的前沿热点。本文旨在从经典的Q-Learning算法入手，系统梳理从值迭代到策略优化的全流程技术细节，直至最具代表性的ProximalPolicyOptimization（PPO）算法，结合理论推导、代码实现与案例分析，深入探讨强化学习的核心原理、算法演
强化学习（Reinforcement Learning, RL）概览 MzKyle 人工智能人工智能强化学习机器学习机器人
一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支，研究智能体（Agent）在动态环境中通过与环境交互，以最大化累积奖励为目标的学习机制。与监督学习（有标注数据）和无监督学习（无目标）不同，强化学习通过“试错”学习，不依赖先验知识，适合解决动态决策问题。2.核心要素智能体（Agent）：执行决策的主体，如游戏AI、机器人。环境（Environment）：智能体之外的一切，如棋盘、物理世界
动手学强化学习第10章-Actor-Critic 算法训练代码 zhqh100 算法深度学习 pytorch 人工智能
基于Hands-on-RL/第10章-Actor-Critic算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论Actor-Critic算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2运行代码Actor-Critic.py#!/usr/bin/envpythonimportgymimpo
生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤行云流水AI笔记人工智能
在本地微调并应用强化学习（RL）对Qwen-3-4B模型进行研究和搭建，是一个复杂但可行的过程。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。一、环境准备硬件要求GPU：至少需要多块高性能GPU（如NVIDIAA100或V100），因为Qwen-3-4B模型参数量大，内存需求高。内存：建议至少128GBRAM，以确保数据处理和模型加载的流畅性。存储：高速SS
【无标题】行云流水AI笔记人工智能
在本地对Qwen-3-4B模型进行微调，并结合强化学习（RL）以提高其从自然语言（TXT）到结构化查询语言（SQL）的转换能力（即TXT2SQL），是一个复杂但非常有价值的任务。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个方面。一、项目概述目标：通过微调和强化学习提升Qwen-3-4B模型在TXT2SQL任务上的表现，使其能够更准确地将自然语言查询转换为相应的S
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting UnknownBody LLM Daily Causal and Reasoning 语言模型人工智能自然语言处理
论文主要内容总结研究背景与问题大语言模型（LLMs）在决策领域展现出巨大潜力，但预训练模型存在推理能力不足、难以适应新环境的问题，严重制约了其在复杂现实任务中的应用。现有方法如强化学习（RL）单独使用或LLM辅助RL的方式，仍依赖token预测范式，缺乏结构化推理和快速适应性。核心框架与方法提出因果感知大语言模型（Causal-awareLLMs），将结构因果模型（SCM）整合到决策过程中，采用“
训练成本降低2000倍: 直接将推理能力注入LLM 大模型最新论文深度学习人工智能语言模型自然语言处理 llama
论文标题Resa:TransparentReasoningModelsviaSAEs论文地址https://arxiv.org/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作（带CoT的RL或SFT），这一过程不仅需要昂贵的数据与计算资源，还缺乏可解释性（并不清楚模
【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent
1stauthro:PatrickJiangpaper:[2505.14146]s3:YouDon’tNeedThatMuchDatatoTrainaSearchAgentviaRLcode:pat-jj/s3:s3-EfficientYetEffectiveSearchAgentTrainingviaRLforRAG5.总结(结果先行)s3框架以其“解耦搜索与生成、仅训练搜索代理、采用GBR奖励
强化学习-K臂老虎机
强化学习强化学习（ReinforcementLearning，RL）是一种机器学习方法，强化学习的基础框架是马尔可夫决策过程，它允许智能体（Agent）能够在与环境（Environment）的交互中通过试错来学习最优策略。智能体在环境中执行行动（Action），并根据行动的结果接收反馈，即奖励（Reward）。这些奖励信号指导智能体调整其策略，以最大化长期累积奖励。强化学习的核心是价值函数（Val
九章云极发布九章智算云Alaya NeW Cloud 2.0，开创Serverless+RL技术趋势
‌2025年6月16日北京讯‌——AI独角兽企业九章云极DataCanvas在“九章云极智能计算论坛”上正式发布新一代全栈智能计算云平台——九章智算云AlayaNeWCloud2.0，并同步启动全球首个强化学习智算服务。该平台基于Serverless技术架构与强化学习技术的深度融合，成功突破“秒级生成百万token级”的性能瓶颈，旨在为全球AI创新企业及研发机构提供智能计算基础设施级服务。九章智算
编辑文章 - 题解：P11557 [ROIR 2016] 有趣数字 (Day 2) lhschris 算法深度优先图论
思路记忆化搜索。很明显这题的输入一定是字符串。那么我们还需要写一个字符串减法，来计算左端点减一的值。题目要求计算区间l∼rl\simrl∼r内有趣的数字的数量。那么1∼r1\simr1∼r的有趣数字的数量减去1∼l−11\siml-11∼l−1的数量就是区间内有趣数字的数量。那我们可以用记忆化搜索的方式就行计算。记忆化搜索只需要三个参数。当前构造到的位置nownownow，上一个数字lastlas
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

从REINFORCE到PPO，看Policy Gradient的前世今生

从REINFORCE到PPO，看Policy Gradient的前世今生

Policy Gradient

REINFORCE

Actor-Critic

PPO

实验

参考文献

你可能感兴趣的:(RL)