PPO

强化学习实战：从 Q-Learning 到 PPO 全流程

本文旨在从经典的Q-Learning算法入手，系统梳理从值迭代到策略优化的全流程技术细节，直至最具代表性的ProximalPolicyOptimization（PPO）算法，结合理论推导、代码实现与案例分析

荣华富贵8·2025-06-26 07:04

强化学习系列——PPO算法

强化学习系列——PPO算法PPO算法一、背景知识：策略梯度&Advantage二、引入重要性采样（ImportanceSampling）三、PPO-Clip目标函数推导✅四、总结公式（一图总览）参考文献

lqjun0827·2025-06-25 23:38

从 PPO、DPO 到 GRPO：大语言模型策略优化算法解析

从PPO、DPO到GRPO：大语言模型策略优化算法解析背景与简介大语言模型（LLM）的训练通常分为预训练和后训练两个阶段。

Gowi_fly·2025-06-16 03:26

【速写】policy与reward分词器冲突问题（附XAI阅读推荐）

PPOTrainer要求训练数据（train_dataset参数）必须包含input_ids字段，这个跟SFTTrainer，DPOTrainer，GRPOTrainer都不同，查了一下源码（trl/trainer/ppo_trainer

囚生CY·2025-06-16 00:37

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

序言本文总结一下目前TRL典型的训练器的实现细节（SFT，PPO，DPO，GRPO），也是对上一文【速写】PPOTrainer样例与错误思考（少量DAPO）的补充目前DeepSeek关于各个训练器细节的掌握

·2025-06-16 00:36

对 `llamafactory-cli api -h` 输出的详细解读

llamafactory-cli是LlamaFactory项目提供的命令行接口工具，它允许用户通过命令行参数来配置和运行大型语言模型的各种任务，如预训练（PT）、有监督微调（SFT）、奖励模型训练（RM）、基于人类反馈的强化学习（PPO

路人与大师·2025-06-07 13:36

【速写】TRL：Trainer的细节与思考（PPO/DPO+LoRA可行性）

自然就会想到是否可以把PPO和PEFT结合，但是目前peft包和trl包上似乎还是存在这种兼容性的问题。另一个问题就是奖励函数的设置，这个是RL从诞生以来一直存在的一个老大难问题。

囚生CY·2025-06-06 07:08

强化学习的前世今生（四）— DDPG算法

接前三篇强化学习的前世今生（一）强化学习的前世今生（二）强化学习的前世今生（三）—PPO算法本文为大家介绍DDPG算法6DDPG前文所述方法存在两个问题，第一，因为得到的是随机性策略(StochasticPolicy

小于小于大橙子·2025-06-01 17:50

强化学习的前世今生（五）— SAC算法

书接前四篇强化学习的前世今生（一）强化学习的前世今生（二）强化学习的前世今生（三）—PPO算法强化学习的前世今生（四）—DDPG算法本文为大家介绍SAC算法7SAC7.1最大熵强化学习在信息论中，熵(entropy

小于小于大橙子·2025-06-01 16:46

DPO（Direct Preference Optimization）详解

DPO（DirectPreferenceOptimization）是一种用于训练大语言模型的直接偏好优化方法，它相比于PPO（ProximalPolicyOptimization）无需显式构建奖励模型，

要努力啊啊啊·2025-05-30 10:18

GRPO / PPO / DPO 在医疗场景下的 LLM 优化与源码实战分析

个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到

观熵·2025-05-28 19:03

【强化学习】PPO如何根据奖励模型调整模型参数

我们用一个类比+分步说明来清晰理解这个问题：一、类比：学生考试的评分与改进想象你是一个学生（语言模型），老师（奖励模型）让你回答一道题：你回答问题（生成文本）。老师打分（奖励模型给出分数）。你根据分数改进答题方式（语言模型更新参数）。核心点：老师不告诉你标准答案，只告诉你得分，你通过多次尝试（强化学习）学会“怎么回答能得高分”。二、“评价返回给语言模型”的本质1.返回的是什么？返回的是一个数字（分

TIM老师·2025-05-23 14:21

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT),ProximalPolicyOptimization(PPO

u013250861·2025-05-22 14:21

PPO算法详解：强化学习策略优化的新高度

PPO算法PPO（ProximalPolicyOptimization，近端策略优化）算法是一种在强化学习领域广泛应用的策略优化算法。

KangkangLoveNLP·2025-05-01 11:54

PPO算法实践：手把手教会你PPO算法的工程应用

PPO模型的训练我们需要的模型实现流程伪代码代码中的公式解释代码解释数据准备阶段训练阶段实现代码PPO模型的训练我们需要的模型基准模型：一般是SFT后的模型作为基准，新训练的模型不能和这个模型的概率分布相差太大

KangkangLoveNLP·2025-05-01 11:54

【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

近年来主流的大模型对齐流程已趋于“三段式”：预训练→SFT（监督微调）→RLHF（强化学习阶段，常用PPO）。

云博士的AI课堂·2025-04-30 08:27

深度强化学习（DRL）实战：从AlphaGo到自动驾驶

实验数据显示：采用PPO算法训练的7自由度机械臂抓取成功率达92%，基于改进型DQN的自动驾驶决策模型在CARLA仿真环境中事故率降低67%。

layneyao·2025-04-28 02:14

大模型面经 | 春招、秋招算法面试常考八股文附答案（二）

目录1.大模型幻觉问题2.介绍一下常见的位置编码3.介绍一下LoRA4.AdaLoRA和QLoRA5.RLHF中，PPO需要哪几个模型，分别是什么作用?

皮先生!·2025-04-25 03:51

MuJoCo Playground 机器人强化学习入门教程（一）

2.1介绍2.2滚动2.3RL2.4PPO2.5实现可视化推出2.6DM控制套件-体验一下！

强化学习与机器人控制仿真·2025-04-18 13:05

深度强化学习（DRL）框架与多目标调度优化详解

深度强化学习（DRL）框架与多目标调度优化详解（截至2025年4月，结合最新研究进展）一、DRL主流框架及核心算法通用DRL框架RayRLlib：支持分布式训练，集成PPO、A3C、DQN等算法，适用于大规模多目标调度场景

大霸王龙·2025-04-14 05:11

如何从零开始训练一个大模型，文案解析。

SFT（SupervisedFine-tuning）↓偏好数据准备（人类偏好标注或对比）↓┌─────────────┬─────────────┐↓↓奖励模型RM直接偏好优化（DPO/SimPO）↓↓PPO

要努力啊啊啊·2025-04-13 13:31

基础知识：PPO & GRPO

用最直白的比喻来解释PPO和GRPO的区别，就像训练小狗的两种不同方法：‌1.PPO（近端策略优化）‌‌比喻‌：就像用‌零食+绳子‌训练小狗：‌绳子‌（ClippedObjective）：防止小狗跑太远

微风❤水墨·2025-04-10 17:09

LLM架构与关键技术解析

监督微调和偏好对齐是提升LLM性能和应用效果的重要技术，通过直接偏好优化（DPO）和近端策略优化（PPO）等方法，

XianxinMao·2025-04-08 02:18

DPO vs PPO

大语言模型强化微调方法DPO（DirectPreferenceOptimization）PPO简单回顾在PPO中，存在两个待训练的网络：Valuenetwork与Policynetwork。

LuckyAnJo·2025-04-01 22:24

基于C++的PPO算法实现托马斯全旋动作的机器人训练系统

基于C++的PPO算法实现托马斯全旋动作的机器人训练系统一、系统设计框架核心架构•感知层：使用深度相机（如IntelRealSense）获取机器人本体姿态和地面接触信息，结合关节编码器和IMU传感器实时反馈关节角度

程序员Thomas·2025-03-31 15:09

habitat模型训练总结（一）：点导航PPO

本文对habitat环境中的baseline点导航PPO的模型的构建和训练进行总结0训练代码这个代码在上一篇文章出现过，再粘贴过来，如下：importrandomimportnumpyasnpfromhabitat_baselines.common.baseline_registryimportbaseline_registryfromhabitat_baselines.config.defaul

溯源006·2025-03-31 13:54

RLHF微调大模型---PPO原理和代码实战

目录一、前言二、RLHF原理2.1、利用RewardModel2.2、利用ActorModel2.3、优势函数2.4、训练ActorModel2.5、训练CriticModel三、代码四、参考一、前言RLHF:ReinformentLearningHumanFeedback。中文含义是：基于人类反馈的强化学习，用奖励模型RewardModel来训练SFT模型；生成模型使用奖励或惩罚来更新其策略，以

韭菜盖饭·2025-03-31 06:13

传统策略梯度方法的弊端与PPO的改进：稳定性与样本效率的提升

为什么传统策略梯度方法（如REINFORCE算法）在训练过程中存在不稳定性和样本效率低下的问题1.传统策略梯度方法的基本公式传统策略梯度方法的目标是最大化累积奖励的期望值。具体来说，优化目标可以表示为：max⁡θJ(θ)=Eπ[∑t=0∞γtRt+1]\max_\thetaJ(\theta)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^tR_{t+1

KangkangLoveNLP·2025-03-30 22:17

相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理

关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。

释迦呼呼·2025-03-24 17:46

第三十九个问题-详细讲讲PPO & GRPO原理

PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。

释迦呼呼·2025-03-24 17:45

LLM-Agent方法评估与效果分析

从基础的单智能体强化学习算法（如PPO）到多智能体协作、语料重组以及在线自学习等新技术不断涌现，研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。

·2025-03-22 18:50

PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法

本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。

进取星辰·2025-03-14 19:47

腿足机器人之十三-强化学习PPO算法

腿足机器人之十三-强化学习PPO算法腿足机器人位姿常用强化学习算法PPO算法核心原理PPO算法的创新设计PPO算法典型流程优势函数对于复杂地形适应性（如楼梯、碎石路），传统的腿足机器人采用基于模型的控制器

shichaog·2025-02-27 22:05

100.15 AI量化面试题：PPO与GPPO策略优化算法的异同点

目录0.承前1.基本概念解析1.1PPO算法1.2GPPO算法2.共同点分析2.1理论基础2.2实现特点3.差异点分析3.1算法设计差异3.2优化目标差异3.3应用场景差异4.选择建议4.1使用PPO的场景

AI量金术师·2025-02-12 18:28

Llama 3：开源大模型的里程碑式突破

标题：Llama3：开源大模型的里程碑式突破文章信息摘要：Meta通过Llama3展现了开源LLM的重大突破：采用超大规模训练数据和多阶段训练方法（SFT、rejectionsampling、PPO和DPO

XianxinMao·2025-01-30 08:50

强化学习很多ac架构的算法比如ppo，为什么使用状态价值网络而不使用动作价值网络实现critic呢?｜状态价值网络的优势与挑战｜Actor-Critic｜状态价值｜强化学习

目录1.强化学习的基础1.1策略与价值函数2.Actor-Critic架构概述2.1Critic的作用3.为什么选择状态价值网络？3.1训练稳定性3.2计算效率3.3高维动作空间的适应性4.使用状态价值网络的挑战4.1收敛速度4.2欠拟合风险5.解决方案与未来方向5.1改进的状态价值网络5.2结合动作价值和状态价值6.结论随着强化学习技术的不断发展，其在诸如游戏、机器人控制和金融预测等领域的应用越

concisedistinct·2025-01-29 01:27

强化学习入门到不想放弃-1

本来想写到深度学习里的，但是线下和别人聊RLHF，和PPO,DPO的时候，我发现大家一脑袋问号，其实也正常，深度学习里面数学的东西没那么多，入门容易一点，强化学习（现在也都谈强化深度学习，或者深度强化学习了

周博洋K·2024-02-20 06:29

一文打通RLHF的来龙去脉

RLHF的发展历程2.强化学习2.1强化学习基本概念2.2强化学习分类2.3PolicyGradient2.3.1addabaseline2.3.2assignsuitablecredit2.4TRPO和PPO

orangerfun·2024-02-04 02:55

深度强化学习-策略梯度及PPO算法-笔记（四）

策略梯度及PPO算法策略梯度PolicyGradient基础知识策略梯度的计算细节TipsTip1：AddaBaselineTip2：AssignSuitableCredit策略梯度优化的技巧Reinforce

wield_jjz·2024-01-25 14:03

RLHF代码

summarize_rlhf/reward_model/reward_model.pyhttps://github.com/CarperAI/trlx/blob/main/trlx/models/modeling_ppo.py

银晗·2024-01-25 08:21

PPO学习

openai用tf实现的真的看不懂，大佬的世界…PPO的详细细节1.奖励模型和策略的价值头将query和response的连接作为输入奖励模型和策略的价值头不仅仅查看响应。

银晗·2024-01-25 08:47

【挑战全网最易懂】深度强化学习 --- 零基础指南

使用行为价值方法连续场景，使用概率分布方法实时反馈连续场景：使用概率分布+行为价值方法强化学习六要素设计奖励函数设计评论家策略学习与优化算法路径深度Q网络DQN演员-评论家算法：多智能体强化学习核心框架PPO

Debroon·2024-01-19 14:17

深度强化学习算法PPO训练CartPole

PPO代码部分，训练离散动作1.导入必须要的包importtorchimporttorch.nnasnnimporttorch.nn.functionalasfimporttorch.optimasoptimfromtorch.distributionsimportCategoricalfromcollectionsimportdequeimportrandomimportmatplotlib.p

槑槑紫·2024-01-17 06:27

强化学习_PPO算法实现Pendulum-v1

目录PPO算法AC输出连续动作On-policy->Off-policyImportantsamplingIssueofImportanceSamplingAddConstraintPPO代码实现PPO

¥骁勇善战¥·2024-01-17 06:54

PPO实战

哈哈初学，复现龙龙老师的实例！state：是平衡小车上的杆子，观测状态由4个连续的参数组成：推车位置[-2.4，2.4]，车速[-∞，∞]，杆子角度[～-41.8°，～41.8°]与杆子末端速度[-∞，∞]。游戏结束：当极点与垂直方向的夹角超过15度时，或者推车从中心移出2.4个单位以上向推车施加+1或-1的力来控制系统杆保持直立的每个时间步长都提供+1的奖励代码分析经验池缓存批训练条件：Tran

你会知道我是谁·2024-01-17 06:54

PPO 跑CartPole-v1

gym-0.26.2cartPole-v1参考动手学强化学习书中的代码,并做了一些修改代码importgymimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFimportnumpyasnpimportmatplotlib.pyplotaspltfromtqdmimporttqdmclassPolicyNet(nn.Module):de

NoahBBQ·2024-01-17 06:52

PPO算法实现的37个实现细节（3/3）9 details for continuous action domains

RousslanFernandJulien;Raffin,Antonin;Kanervisto,Anssi;Wang,Weixun博客地址：https://iclr-blog-track.github.io/2022/03/25/ppo

小帅吖·2024-01-16 01:06

PPO算法实现的37个实现细节（2/3）9 Atari-specific implementation details

RousslanFernandJulien;Raffin,Antonin;Kanervisto,Anssi;Wang,Weixun博客地址：https://iclr-blog-track.github.io/2022/03/25/ppo

小帅吖·2024-01-16 01:36

PPO算法实现的37个实现细节（1/3）13 core implementation details

RousslanFernandJulien;Raffin,Antonin;Kanervisto,Anssi;Wang,Weixun博客地址：https://iclr-blog-track.github.io/2022/03/25/ppo

小帅吖·2024-01-16 01:35

Proximal Policy Optimization

参考链接：ProximalPolicyOptimization(PPO)算法原理及实现！

神奇的托尔巴拉德·2024-01-11 12:33

推荐频道

PPO

强化学习实战：从 Q-Learning 到 PPO 全流程

强化学习系列——PPO算法

从 PPO、DPO 到 GRPO：大语言模型策略优化算法解析

【速写】policy与reward分词器冲突问题（附XAI阅读推荐）

【慢摹】TRL训练器细节详解（SFT/PPO/DPO/GRPO）

对 `llamafactory-cli api -h` 输出的详细解读

【速写】TRL：Trainer的细节与思考（PPO/DPO+LoRA可行性）

强化学习的前世今生（四）— DDPG算法

强化学习的前世今生（五）— SAC算法

DPO（Direct Preference Optimization）详解

GRPO / PPO / DPO 在医疗场景下的 LLM 优化与源码实战分析

【强化学习】PPO如何根据奖励模型调整模型参数

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

PPO算法详解：强化学习策略优化的新高度

PPO算法实践：手把手教会你PPO算法的工程应用

【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

深度强化学习（DRL）实战：从AlphaGo到自动驾驶

大模型面经 | 春招、秋招算法面试常考八股文附答案（二）

MuJoCo Playground 机器人强化学习入门教程（一）

深度强化学习（DRL）框架与多目标调度优化详解

如何从零开始训练一个大模型，文案解析。

基础知识：PPO & GRPO

LLM架构与关键技术解析

DPO vs PPO

基于C++的PPO算法实现托马斯全旋动作的机器人训练系统

habitat模型训练总结（一）：点导航PPO

RLHF微调大模型---PPO原理和代码实战

传统策略梯度方法的弊端与PPO的改进：稳定性与样本效率的提升

相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理

第三十九个问题-详细讲讲PPO & GRPO原理

LLM-Agent方法评估与效果分析

PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法

腿足机器人之十三-强化学习PPO算法

100.15 AI量化面试题：PPO与GPPO策略优化算法的异同点

Llama 3：开源大模型的里程碑式突破

强化学习很多ac架构的算法比如ppo，为什么使用状态价值网络而不使用动作价值网络实现critic呢?｜状态价值网络的优势与挑战｜Actor-Critic｜状态价值｜强化学习

强化学习入门到不想放弃-1

一文打通RLHF的来龙去脉

深度强化学习-策略梯度及PPO算法-笔记（四）

RLHF代码

PPO学习

【挑战全网最易懂】深度强化学习 --- 零基础指南

深度强化学习算法PPO训练CartPole

强化学习_PPO算法实现Pendulum-v1

PPO实战

PPO 跑CartPole-v1

PPO算法实现的37个实现细节（3/3）9 details for continuous action domains

PPO算法实现的37个实现细节（2/3）9 Atari-specific implementation details

PPO算法实现的37个实现细节（1/3）13 core implementation details

Proximal Policy Optimization