E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
PPO
强化学习实战:从 Q-Learning 到
PPO
全流程
本文旨在从经典的Q-Learning算法入手,系统梳理从值迭代到策略优化的全流程技术细节,直至最具代表性的ProximalPolicyOptimization(
PPO
)算法,结合理论推导、代码实现与案例分析
荣华富贵8
·
2025-06-26 07:04
程序员的知识储备2
程序员的知识储备3
人工智能
算法
机器学习
强化学习系列——
PPO
算法
强化学习系列——
PPO
算法
PPO
算法一、背景知识:策略梯度&Advantage二、引入重要性采样(ImportanceSampling)三、
PPO
-Clip目标函数推导✅四、总结公式(一图总览)参考文献
lqjun0827
·
2025-06-25 23:38
算法
深度学习
算法
人工智能
从
PPO
、DPO 到 GRPO:大语言模型策略优化算法解析
从
PPO
、DPO到GRPO:大语言模型策略优化算法解析背景与简介大语言模型(LLM)的训练通常分为预训练和后训练两个阶段。
Gowi_fly
·
2025-06-16 03:26
深度学习
LLM
强化学习
【速写】policy与reward分词器冲突问题(附XAI阅读推荐)
PPOTrainer要求训练数据(train_dataset参数)必须包含input_ids字段,这个跟SFTTrainer,DPOTrainer,GRPOTrainer都不同,查了一下源码(trl/trainer/
ppo
_trainer
囚生CY
·
2025-06-16 00:37
速写
python
【慢摹】TRL训练器细节详解(SFT/
PPO
/DPO/GRPO)
序言本文总结一下目前TRL典型的训练器的实现细节(SFT,
PPO
,DPO,GRPO),也是对上一文【速写】PPOTrainer样例与错误思考(少量DAPO)的补充目前DeepSeek关于各个训练器细节的掌握
·
2025-06-16 00:36
对 `llamafactory-cli api -h` 输出的详细解读
llamafactory-cli是LlamaFactory项目提供的命令行接口工具,它允许用户通过命令行参数来配置和运行大型语言模型的各种任务,如预训练(PT)、有监督微调(SFT)、奖励模型训练(RM)、基于人类反馈的强化学习(
PPO
路人与大师
·
2025-06-07 13:36
人工智能
深度学习
【速写】TRL:Trainer的细节与思考(
PPO
/DPO+LoRA可行性)
自然就会想到是否可以把
PPO
和PEFT结合,但是目前peft包和trl包上似乎还是存在这种兼容性的问题。另一个问题就是奖励函数的设置,这个是RL从诞生以来一直存在的一个老大难问题。
囚生CY
·
2025-06-06 07:08
速写
人工智能
强化学习的前世今生(四)— DDPG算法
接前三篇强化学习的前世今生(一)强化学习的前世今生(二)强化学习的前世今生(三)—
PPO
算法本文为大家介绍DDPG算法6DDPG前文所述方法存在两个问题,第一,因为得到的是随机性策略(StochasticPolicy
小于小于大橙子
·
2025-06-01 17:50
算法
人工智能
自动化
强化学习
学习
强化学习的前世今生(五)— SAC算法
书接前四篇强化学习的前世今生(一)强化学习的前世今生(二)强化学习的前世今生(三)—
PPO
算法强化学习的前世今生(四)—DDPG算法本文为大家介绍SAC算法7SAC7.1最大熵强化学习在信息论中,熵(entropy
小于小于大橙子
·
2025-06-01 16:46
算法
概率论
强化学习
人工智能
自动驾驶
AI
DPO(Direct Preference Optimization)详解
DPO(DirectPreferenceOptimization)是一种用于训练大语言模型的直接偏好优化方法,它相比于
PPO
(ProximalPolicyOptimization)无需显式构建奖励模型,
要努力啊啊啊
·
2025-05-30 10:18
大模型中的技术名词解析
人工智能
深度学习
算法
GRPO /
PPO
/ DPO 在医疗场景下的 LLM 优化与源码实战分析
个人简介作者简介:全栈研发,具备端到端系统落地能力,专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”,相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵,就是在观测熵的流动个人主页:观熵个人邮箱:
[email protected]
座右铭:愿科技之光,不止照亮智能,也照亮人心!专栏导航观熵系列专栏导航:AI前沿探索:从大模型进化、多模态交互、AIGC内容生成,到
观熵
·
2025-05-28 19:03
Agentic
AI架构实战全流程
人工智能
智能体
Agent
【强化学习】
PPO
如何根据奖励模型调整模型参数
我们用一个类比+分步说明来清晰理解这个问题:一、类比:学生考试的评分与改进想象你是一个学生(语言模型),老师(奖励模型)让你回答一道题:你回答问题(生成文本)。老师打分(奖励模型给出分数)。你根据分数改进答题方式(语言模型更新参数)。核心点:老师不告诉你标准答案,只告诉你得分,你通过多次尝试(强化学习)学会“怎么回答能得高分”。二、“评价返回给语言模型”的本质1.返回的是什么?返回的是一个数字(分
TIM老师
·
2025-05-23 14:21
大模型
LLM
强化学习
PPO
强化学习:第三方库【TRL - Transformer Reinforcement Learning】
OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT),ProximalPolicyOptimization(
PPO
u013250861
·
2025-05-22 14:21
RL/强化学习
transformer
深度学习
人工智能
PPO
算法详解:强化学习策略优化的新高度
PPO
算法
PPO
(ProximalPolicyOptimization,近端策略优化)算法是一种在强化学习领域广泛应用的策略优化算法。
KangkangLoveNLP
·
2025-05-01 11:54
强化学习
算法
人工智能
机器学习
深度学习
神经网络
自然语言处理
pytorch
PPO
算法实践:手把手教会你
PPO
算法的工程应用
PPO
模型的训练我们需要的模型实现流程伪代码代码中的公式解释代码解释数据准备阶段训练阶段实现代码
PPO
模型的训练我们需要的模型基准模型:一般是SFT后的模型作为基准,新训练的模型不能和这个模型的概率分布相差太大
KangkangLoveNLP
·
2025-05-01 11:54
强化学习
算法
机器学习
人工智能
深度学习
神经网络
自然语言处理
【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行
PPO
强化学习微调?
近年来主流的大模型对齐流程已趋于“三段式”:预训练→SFT(监督微调)→RLHF(强化学习阶段,常用
PPO
)。
云博士的AI课堂
·
2025-04-30 08:27
大模型技术开发与实践
哈佛博后带你玩转机器学习
深度学习
大模型
强化学习
SFT
PPO
预训练
监督学习
机器学习
深度强化学习(DRL)实战:从AlphaGo到自动驾驶
实验数据显示:采用
PPO
算法训练的7自由度机械臂抓取成功率达92%,基于改进型DQN的自动驾驶决策模型在CARLA仿真环境中事故率降低67%。
layneyao
·
2025-04-28 02:14
ai
自动驾驶
人工智能
机器学习
大模型面经 | 春招、秋招算法面试常考八股文附答案(二)
目录1.大模型幻觉问题2.介绍一下常见的位置编码3.介绍一下LoRA4.AdaLoRA和QLoRA5.RLHF中,
PPO
需要哪几个模型,分别是什么作用?
皮先生!
·
2025-04-25 03:51
大模型面经
算法
面试
人工智能
大模型
深度学习
自然语言处理
MuJoCo Playground 机器人强化学习入门教程(一)
2.1介绍2.2滚动2.3RL2.4
PPO
2.5实现可视化推出2.6DM控制套件-体验一下!
强化学习与机器人控制仿真
·
2025-04-18 13:05
MuJoCo
仿真与控制教程
机器人
人工智能
深度学习
开发语言
自动驾驶
stm32
python
深度强化学习(DRL)框架与多目标调度优化详解
深度强化学习(DRL)框架与多目标调度优化详解(截至2025年4月,结合最新研究进展)一、DRL主流框架及核心算法通用DRL框架RayRLlib:支持分布式训练,集成
PPO
、A3C、DQN等算法,适用于大规模多目标调度场景
大霸王龙
·
2025-04-14 05:11
python
深度学习
多目标优化
深度强化学习
如何从零开始训练一个大模型,文案解析。
SFT(SupervisedFine-tuning)↓偏好数据准备(人类偏好标注或对比)↓┌─────────────┬─────────────┐↓↓奖励模型RM直接偏好优化(DPO/SimPO)↓↓
PPO
要努力啊啊啊
·
2025-04-13 13:31
大模型中的技术名词解析
算法
人工智能
基础知识:
PPO
& GRPO
用最直白的比喻来解释
PPO
和GRPO的区别,就像训练小狗的两种不同方法:1.
PPO
(近端策略优化)比喻:就像用零食+绳子训练小狗:绳子(ClippedObjective):防止小狗跑太远
微风❤水墨
·
2025-04-10 17:09
LLM
&
AIGC
&
VLP
人工智能
LLM架构与关键技术解析
监督微调和偏好对齐是提升LLM性能和应用效果的重要技术,通过直接偏好优化(DPO)和近端策略优化(
PPO
)等方法,
XianxinMao
·
2025-04-08 02:18
人工智能
架构
人工智能
DPO vs
PPO
大语言模型强化微调方法DPO(DirectPreferenceOptimization)
PPO
简单回顾在
PPO
中,存在两个待训练的网络:Valuenetwork与Policynetwork。
LuckyAnJo
·
2025-04-01 22:24
LLM相关
人工智能
机器学习
深度学习
自然语言处理
语言模型
基于C++的
PPO
算法实现托马斯全旋动作的机器人训练系统
基于C++的
PPO
算法实现托马斯全旋动作的机器人训练系统一、系统设计框架核心架构•感知层:使用深度相机(如IntelRealSense)获取机器人本体姿态和地面接触信息,结合关节编码器和IMU传感器实时反馈关节角度
程序员Thomas
·
2025-03-31 15:09
STM32
C++
机器人
c++
算法
机器人
habitat模型训练总结(一):点导航
PPO
本文对habitat环境中的baseline点导航
PPO
的模型的构建和训练进行总结0训练代码这个代码在上一篇文章出现过,再粘贴过来,如下:importrandomimportnumpyasnpfromhabitat_baselines.common.baseline_registryimportbaseline_registryfromhabitat_baselines.config.defaul
溯源006
·
2025-03-31 13:54
habitat学习
habitat
RLHF微调大模型---
PPO
原理和代码实战
目录一、前言二、RLHF原理2.1、利用RewardModel2.2、利用ActorModel2.3、优势函数2.4、训练ActorModel2.5、训练CriticModel三、代码四、参考一、前言RLHF:ReinformentLearningHumanFeedback。中文含义是:基于人类反馈的强化学习,用奖励模型RewardModel来训练SFT模型;生成模型使用奖励或惩罚来更新其策略,以
韭菜盖饭
·
2025-03-31 06:13
大模型
大模型微调
RLHF
人工智能
大模型
传统策略梯度方法的弊端与
PPO
的改进:稳定性与样本效率的提升
为什么传统策略梯度方法(如REINFORCE算法)在训练过程中存在不稳定性和样本效率低下的问题1.传统策略梯度方法的基本公式传统策略梯度方法的目标是最大化累积奖励的期望值。具体来说,优化目标可以表示为:maxθJ(θ)=Eπ[∑t=0∞γtRt+1]\max_\thetaJ(\theta)=\mathbb{E}_\pi\left[\sum_{t=0}^{\infty}\gamma^tR_{t+1
KangkangLoveNLP
·
2025-03-30 22:17
强化学习
基础知识
机器学习
概率论
人工智能
深度学习
python
算法
相同的问题看看Grok3怎么回答-详细讲讲
PPO
& GRPO原理
关键要点研究表明,
PPO
(近端策略优化)是一种稳定高效的强化学习算法,适用于单代理或多代理场景,重点是最大化绝对奖励。
释迦呼呼
·
2025-03-24 17:46
AI一千问
人工智能
深度学习
机器学习
语言模型
算法
神经网络
计算机视觉
第三十九个问题-详细讲讲
PPO
& GRPO原理
PPO
(ProximalPolicyOptimization)原理详解
PPO
(近端策略优化)是OpenAI于2017年提出的强化学习算法,旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。
释迦呼呼
·
2025-03-24 17:45
AI一千问
人工智能
深度学习
机器学习
语言模型
自然语言处理
算法
LLM-Agent方法评估与效果分析
从基础的单智能体强化学习算法(如
PPO
)到多智能体协作、语料重组以及在线自学习等新技术不断涌现,研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。
·
2025-03-22 18:50
agent人工智能ai开发
PyTorch 深度学习实战(13):Proximal Policy Optimization (
PPO
) 算法
本文将深入探讨ProximalPolicyOptimization(
PPO
)算法,这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现
PPO
算法,并应用于经典的CartPole问题。
进取星辰
·
2025-03-14 19:47
PyTorch
深度学习实战
深度学习
pytorch
算法
腿足机器人之十三-强化学习
PPO
算法
腿足机器人之十三-强化学习
PPO
算法腿足机器人位姿常用强化学习算法
PPO
算法核心原理
PPO
算法的创新设计
PPO
算法典型流程优势函数对于复杂地形适应性(如楼梯、碎石路),传统的腿足机器人采用基于模型的控制器
shichaog
·
2025-02-27 22:05
腿足机器人
机器人
算法
php
100.15 AI量化面试题:
PPO
与GPPO策略优化算法的异同点
目录0.承前1.基本概念解析1.1
PPO
算法1.2GPPO算法2.共同点分析2.1理论基础2.2实现特点3.差异点分析3.1算法设计差异3.2优化目标差异3.3应用场景差异4.选择建议4.1使用
PPO
的场景
AI量金术师
·
2025-02-12 18:28
金融资产组合模型进化论
人工智能
算法
金融
python
机器学习
Llama 3:开源大模型的里程碑式突破
标题:Llama3:开源大模型的里程碑式突破文章信息摘要:Meta通过Llama3展现了开源LLM的重大突破:采用超大规模训练数据和多阶段训练方法(SFT、rejectionsampling、
PPO
和DPO
XianxinMao
·
2025-01-30 08:50
llama
开源
强化学习很多ac架构的算法比如
ppo
,为什么使用状态价值网络而不使用动作价值网络实现critic呢?|状态价值网络的优势与挑战|Actor-Critic|状态价值|强化学习
目录1.强化学习的基础1.1策略与价值函数2.Actor-Critic架构概述2.1Critic的作用3.为什么选择状态价值网络?3.1训练稳定性3.2计算效率3.3高维动作空间的适应性4.使用状态价值网络的挑战4.1收敛速度4.2欠拟合风险5.解决方案与未来方向5.1改进的状态价值网络5.2结合动作价值和状态价值6.结论随着强化学习技术的不断发展,其在诸如游戏、机器人控制和金融预测等领域的应用越
concisedistinct
·
2025-01-29 01:27
人工智能
算法
人工智能
架构
强化学习入门到不想放弃-1
本来想写到深度学习里的,但是线下和别人聊RLHF,和
PPO
,DPO的时候,我发现大家一脑袋问号,其实也正常,深度学习里面数学的东西没那么多,入门容易一点,强化学习(现在也都谈强化深度学习,或者深度强化学习了
周博洋K
·
2024-02-20 06:29
人工智能
一文打通RLHF的来龙去脉
RLHF的发展历程2.强化学习2.1强化学习基本概念2.2强化学习分类2.3PolicyGradient2.3.1addabaseline2.3.2assignsuitablecredit2.4TRPO和
PPO
orangerfun
·
2024-02-04 02:55
AI算法
自然语言处理
人工智能
语言模型
AIGC
chatgpt
强化学习
RLHF
深度强化学习-策略梯度及
PPO
算法-笔记(四)
策略梯度及
PPO
算法策略梯度PolicyGradient基础知识策略梯度的计算细节TipsTip1:AddaBaselineTip2:AssignSuitableCredit策略梯度优化的技巧Reinforce
wield_jjz
·
2024-01-25 14:03
学习笔记
强化学习
RLHF代码
summarize_rlhf/reward_model/reward_model.pyhttps://github.com/CarperAI/trlx/blob/main/trlx/models/modeling_
ppo
.py
银晗
·
2024-01-25 08:21
人工智能
深度学习
PPO
学习
openai用tf实现的真的看不懂,大佬的世界…
PPO
的详细细节1.奖励模型和策略的价值头将query和response的连接作为输入奖励模型和策略的价值头不仅仅查看响应。
银晗
·
2024-01-25 08:47
学习
人工智能
深度学习
【挑战全网最易懂】深度强化学习 --- 零基础指南
使用行为价值方法连续场景,使用概率分布方法实时反馈连续场景:使用概率分布+行为价值方法强化学习六要素设计奖励函数设计评论家策略学习与优化算法路径深度Q网络DQN演员-评论家算法:多智能体强化学习核心框架
PPO
Debroon
·
2024-01-19 14:17
#
强化学习
人工智能
深度强化学习算法
PPO
训练CartPole
PPO
代码部分,训练离散动作1.导入必须要的包importtorchimporttorch.nnasnnimporttorch.nn.functionalasfimporttorch.optimasoptimfromtorch.distributionsimportCategoricalfromcollectionsimportdequeimportrandomimportmatplotlib.p
槑槑紫
·
2024-01-17 06:27
强化学习
算法
人工智能
python
pytorch
深度学习
强化学习_
PPO
算法实现Pendulum-v1
目录
PPO
算法AC输出连续动作On-policy->Off-policyImportantsamplingIssueofImportanceSamplingAddConstraintPPO代码实现
PPO
¥骁勇善战¥
·
2024-01-17 06:54
算法
强化学习
人工智能
PPO
实战
哈哈初学,复现龙龙老师的实例!state:是平衡小车上的杆子,观测状态由4个连续的参数组成:推车位置[-2.4,2.4],车速[-∞,∞],杆子角度[~-41.8°,~41.8°]与杆子末端速度[-∞,∞]。游戏结束:当极点与垂直方向的夹角超过15度时,或者推车从中心移出2.4个单位以上向推车施加+1或-1的力来控制系统杆保持直立的每个时间步长都提供+1的奖励代码分析经验池缓存批训练条件:Tran
你会知道我是谁
·
2024-01-17 06:54
项目实战
强化学习
机器学习
tensorflow
PPO
跑CartPole-v1
gym-0.26.2cartPole-v1参考动手学强化学习书中的代码,并做了一些修改代码importgymimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFimportnumpyasnpimportmatplotlib.pyplotaspltfromtqdmimporttqdmclassPolicyNet(nn.Module):de
NoahBBQ
·
2024-01-17 06:52
RL
pytorch
gym
ppo
CartPole-v1
PPO
算法实现的37个实现细节(3/3)9 details for continuous action domains
RousslanFernandJulien;Raffin,Antonin;Kanervisto,Anssi;Wang,Weixun博客地址:https://iclr-blog-track.github.io/2022/03/25/
ppo
小帅吖
·
2024-01-16 01:06
强化学习
深度强化学习代码实践
深度强化学习
PPO算法
深度学习
人工智能
PPO
算法实现的37个实现细节(2/3)9 Atari-specific implementation details
RousslanFernandJulien;Raffin,Antonin;Kanervisto,Anssi;Wang,Weixun博客地址:https://iclr-blog-track.github.io/2022/03/25/
ppo
小帅吖
·
2024-01-16 01:36
深度强化学习代码实践
强化学习
人工智能
深度强化学习
深度学习
PPO算法
PPO
算法实现的37个实现细节(1/3)13 core implementation details
RousslanFernandJulien;Raffin,Antonin;Kanervisto,Anssi;Wang,Weixun博客地址:https://iclr-blog-track.github.io/2022/03/25/
ppo
小帅吖
·
2024-01-16 01:35
强化学习
深度强化学习代码实践
深度学习
深度强化学习
PPO算法
人工智能
神经网络
Proximal Policy Optimization
参考链接:ProximalPolicyOptimization(
PPO
)算法原理及实现!
神奇的托尔巴拉德
·
2024-01-11 12:33
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他