ADP&RL

《Unitree RL Gym 从 0 到 1 全解析》宇树G1机器人rl_gym、legged_game 与 rsl_rl 开源项目代码详解&&逻辑梳理

前言：此文将对宇树的RL_Gym进行详细介绍。为什么写这篇文章？

·2025-07-11 12:08

Python 强化学习算法实用指南（三）

annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL

绝不原创的飞龙·2025-07-11 12:07

Text2Reward学习笔记

1.提示词请问，“glew”是一个RL工程师常用的工具库吗？请问,thiscodebase主要是做什么用的呀？

·2025-07-11 11:35

ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL）

简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。

SugarPPig·2025-07-08 16:44

爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南

RL来救场！”

许泽宇的技术分享·2025-07-07 09:58

【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析

强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based

烟锁池塘柳0·2025-07-05 19:49

返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘

为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通

·2025-07-05 18:12

R7F0C020M2DFB-C#AA0 16位单片机微控制器MCU Renesas

-HALT模式-STOP模式-SNOOZE模式RL78CPU内核：-3段流水线的CISC哈佛体系结构-最短指令执行时间：能在高速（0.04167μs：以高速内部振荡器时钟24MHz运行时）到超低速（30.5μs

·2025-07-05 12:32

强化学习RLHF详解

RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数

贝塔西塔·2025-07-04 01:36

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程

m0_74825409·2025-07-03 08:08

利用视觉-语言模型搭建机器人灵巧操作的支架

虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。

三谷秋水·2025-07-01 07:21

常见的强化学习算法分类及其特点

强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。

ywfwyht·2025-06-30 01:29

ROS2 强化学习：案例与代码实战

一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。

芯动大师·2025-06-27 21:56

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程

泡泡Java·2025-06-27 02:13

强化学习实战：从 Q-Learning 到 PPO 全流程

1引言随着人工智能的快速发展，强化学习（ReinforcementLearning,RL）凭借其在复杂决策与控制问题上的卓越表现，已成为研究与应用的前沿热点。

荣华富贵8·2025-06-26 07:04

强化学习（Reinforcement Learning, RL）概览

一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支，研究智能体（Agent）在动态环境中通过与环境交互，以最大化累积奖励为目标的学习机制。与监督学习（有标注数据）和无监督学习（无目标）不同，强化学习通过“试错”学习，不依赖先验知识，适合解决动态决策问题。2.核心要素智能体（Agent）：执行决策的主体，如游戏AI、机器人。环境（Environment）：智能体之外的一切，如棋盘、物理世界

MzKyle·2025-06-24 10:39

动手学强化学习第10章-Actor-Critic 算法训练代码

基于Hands-on-RL/第10章-Actor-Critic算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论Actor-Critic算法修改了警告和报错运行环境DebianGNU

zhqh100·2025-06-23 06:08

生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤

在本地微调并应用强化学习（RL）对Qwen-3-4B模型进行研究和搭建，是一个复杂但可行的过程。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。

行云流水AI笔记·2025-06-21 11:54

【无标题】

在本地对Qwen-3-4B模型进行微调，并结合强化学习（RL）以提高其从自然语言（TXT）到结构化查询语言（SQL）的转换能力（即TXT2SQL），是一个复杂但非常有价值的任务。

行云流水AI笔记·2025-06-21 11:54

Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting

现有方法如强化学习（RL）单独使用或LLM辅助RL的方式，仍依赖token预测范式，缺乏结构化推理和快速适应性。

UnknownBody·2025-06-20 10:09

训练成本降低2000倍: 直接将推理能力注入LLM

arxiv.org/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作（带CoT的RL

大模型最新论文·2025-06-18 13:20

【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent

1stauthro:PatrickJiangpaper:[2505.14146]s3:YouDon’tNeedThatMuchDatatoTrainaSearchAgentviaRLcode:pat-jj/s3:s3-EfficientYetEffectiveSearchAgentTrainingviaRLforRAG5.总结(结果先行)s3框架以其“解耦搜索与生成、仅训练搜索代理、采用GBR奖励

·2025-06-18 04:50

强化学习-K臂老虎机

强化学习强化学习（ReinforcementLearning，RL）是一种机器学习方法，强化学习的基础框架是马尔可夫决策过程，它允许智能体（Agent）能够在与环境（Environment）的交互中通过试错来学习最优策略

·2025-06-16 19:06

九章云极发布九章智算云Alaya NeW Cloud 2.0，开创Serverless+RL技术趋势

‌2025年6月16日北京讯‌——AI独角兽企业九章云极DataCanvas在“九章云极智能计算论坛”上正式发布新一代全栈智能计算云平台——九章智算云AlayaNeWCloud2.0，并同步启动全球首个强化学习智算服务。该平台基于Serverless技术架构与强化学习技术的深度融合，成功突破“秒级生成百万token级”的性能瓶颈，旨在为全球AI创新企业及研发机构提供智能计算基础设施级服务。九章智算

·2025-06-16 15:42

编辑文章 - 题解：P11557 [ROIR 2016] 有趣数字 (Day 2)

题目要求计算区间l∼rl\simrl∼r内有趣的数字的数量。那么1∼r1\simr1∼r的有趣数字的数量减去1∼l−11\siml-11∼l−1的数量就是区间内有趣数字的数量。

lhschris·2025-06-14 22:40

限流电阻的选择

其原理是：电阻RL是负载电阻，R为稳压调整电阻（也称为限流电阻），D为稳压管。按稳压电路设计准则，在输入电压基本不变时，RL变小时，流过RL的电流增加，但流过

XTao EmbedLogs·2025-06-11 03:35

人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

RLHF（ReinforcementLearningfromHumanFeedback）和GRPO群体相对策略优化(GRPO，GroupRelativePolicyOptimization)是一种强化学习(RL

高效匠人·2025-06-10 21:54

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，没有经过监督微调（SFT）作为初步步骤，展现了卓越的推理能力。

量子-Alex·2025-06-08 18:51

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

1.强化学习核心概念强化学习（reinforcementlearning，RL）：智能体可以在与复杂且不确定的环境进行交互时，尝试使所获得的奖励最大化的算法。

小城哇哇·2025-06-08 07:03

论文速读|RP1M：用于双手灵巧机械手弹奏钢琴的大规模运动数据集

这些专家轨迹是通过为每首歌曲训练一个强化学习（RL）代理，并使用不同的随机种

·2025-06-08 02:30

【速写】TRL：Trainer的细节与思考（PPO/DPO+LoRA可行性）

另一个问题就是奖励函数的设置，这个是RL从诞生以来一直存在的一个老大难问题。现在有很多方案，但是我始终觉得

囚生CY·2025-06-06 07:08

DexArt Benchmarking Generalizable Dexterous Manipulation with Articulated Objects

文章目录概述概述accepted：CVPR2023项目主页文章解读参考： RL的工作，很清晰的idea，后续可以读代码项目仓库

好气呀·2025-06-03 02:23

强化学习Reinforcement Learning与逆强化学习：理论与实践

强化学习，逆强化学习，强化学习算法，逆强化学习算法，深度强化学习，应用场景1.背景介绍在人工智能领域，强化学习(ReinforcementLearning,RL)作为一种模仿人类学习的智能算法，近年来取得了显著进展

AGI大模型与大数据研究院·2025-06-01 16:16

Med-R1论文阅读理解-1

本文提出了一种名为Med-R1的新框架，旨在通过强化学习（ReinforcementLearning,RL）提升视觉-语言模型（Vision-LanguageModels,VLMs）在医疗领域的推理能力与泛化能

要努力啊啊啊·2025-05-30 10:19

REINFORCE蒙特卡罗策略梯度算法详解：python从零实现

以下是翻译后的Markdown文档：引言强化学习（ReinforcementLearning,RL）的目标是训练智能体（agent

AI仙人掌·2025-05-29 17:40

动手学强化学习第 11 章 TRPO 算法(TRPOContinuous) 训练代码

基于Hands-on-RL/第11章-TRPO算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论TRPO算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2

zhqh100·2025-05-27 22:30

DeepSeek本地私有部署（基于Ollama）

DeepSeek在短短一年多的时间里取得了显著的进展，推出了多个引人注目的开源模型，包括DeepSeekCoder、DeepSeekLLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-Rl

奶羊cnk·2025-05-26 04:21

使用MATLAB和Simulink进行基于强化学习的双足机器人步态控制仿真

3.设计强化学习环境强化学习环境概述4.实现强化学习控制器5.训练强化学习代理6.增加示波器观察输出7.配置仿真参数8.运行仿真并分析结果注意事项强化学习（ReinforcementLearning,RL

xiaoheshang_123·2025-05-25 14:47

OpenManus-RL 使用教程

OpenManus-RL使用教程OpenManus-RLAlivestreamdevelopmentofRLtunningforLLMagents项目地址:https://gitcode.com/gh_mirrors

戚逸玫Silas·2025-05-24 18:09

3中AI领域的主流方向：预测模型、强化学习和世界模型

其中，预测模型（如大语言模型）、强化学习（RL）和世界模型（WorldModels）代表了三种较大影响力的研究方向。本文将从技术原理、应用场景和未来趋势三个维度，对比分析这三种方向的核心差异与互补性。

pang企鹅·2025-05-22 04:46

强化学习_置信域算法&RL

1置信域算法到TRPO置信域算法核心：找到更新参数θ\thetaθ和θold\theta_{old}θold相关的近似目标函数，邻域N(θold)N(\theta_{old})N(θold)内寻找最大值近似(approximation)：L(θ∣θold)L(\theta|\theta_{old})L(θ∣θold)最大化(Maximation):arg max⁡θ∈N(θold)L(θ∣θold

Scc_hy·2025-05-21 14:09

【强化学习】强化学习算法 - 马尔可夫决策过程

简单网格世界(GridWorld)马尔可夫决策过程(MarkovDecisionProcess,MDP)1.MDP原理介绍马尔可夫决策过程(MDP)是强化学习(ReinforcementLearning,RL

人类发明了工具·2025-05-17 06:23

深度确定性策略梯度(DDPG)：连续动作空间的探索者

1.背景介绍1.1强化学习与连续动作空间强化学习(ReinforcementLearning,RL)已经成为人工智能领域中最具前景的研究方向之一，它关注的是智能体如何在与环境的交互中学习到最优策略，从而最大化长期累积奖励

AGI大模型与大数据研究院·2025-05-17 02:31

低功耗实现方法思路总结

1.硬件选型最重要，比如stm8l，MSP430，瑞萨rl78,lpc11等2.开发仿真务必使用高精度万用表如fluke3.在整体规划层面，避免引脚未配置的浮空状态a)在设计开发层面，对于使用的信号，使用上下拉电阻或者推挽输出

Xueqian E·2025-05-16 13:57

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

主要内容研究背景：强化学习（RL）虽能提升大语言模型（LLMs）文本推理能力，但在数值计算和符号操作任务中仍存在局限，计算工具如代码解释器（CI）可弥补这一不足。

UnknownBody·2025-05-15 10:43

强化学习算法：深度 Q 网络 (DQN) 原理与代码实例讲解

网络(DQN),深度神经网络,动作策略,奖励函数,探索-利用平衡,经验回放(ExperienceReplay),多智能体1.背景介绍1.1问题由来强化学习(ReinforcementLearning,RL

AI大模型应用实战·2025-05-12 13:08

深度 Qlearning：深度Qlearning VS DQN

问题由来深度强化学习（DeepReinforcementLearning,DRL）是近年来人工智能领域的重要研究方向，旨在通过深度神经网络来学习和优化强化学习（ReinforcementLearning,RL

SuperAGI2025·2025-05-12 13:07

VLM-RL：用于安全自动驾驶的统一视觉语言模型和强化学习框架——论文阅读

《VLM-RL:AUnifiedVisionLanguageModelsandReinforcementLearningFrameworkforSafeAutonomousDriving》2024年12

一点.点·2025-05-12 12:29

基于强化学习的自我完善聊天机器人

ElenaRicciardelli,DebmalyaBiswas埃琳娜·里恰德利(ElenaRicciardelli)Abstract.WepresentaReinforcementLearning(RL

weixin_26641709·2025-05-10 05:30

强化学习机器人模拟器——GridWorld：一个用于强化学习的 Python 环境

GridWorld是一个为强化学习（ReinforcementLearning,RL）实验设计的多功能Python环境。

LIUDAN'S WORLD·2025-05-10 04:56

推荐频道

ADP&RL

《Unitree RL Gym 从 0 到 1 全解析》宇树G1机器人rl_gym、legged_game 与 rsl_rl 开源项目 代码详解&&逻辑梳理

Python 强化学习算法实用指南（三）

Text2Reward学习笔记

ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL）

爆改RAG！用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南

【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析

返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘

R7F0C020M2DFB-C#AA0 16位单片机微控制器MCU Renesas

强化学习RLHF详解

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

利用视觉-语言模型搭建机器人灵巧操作的支架

常见的强化学习算法分类及其特点

ROS2 强化学习：案例与代码实战

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

强化学习实战：从 Q-Learning 到 PPO 全流程

强化学习（Reinforcement Learning, RL）概览

动手学强化学习 第10章-Actor-Critic 算法 训练代码

生成本地 微调 +强化学习 qwen3-4b 研究搭建流程步骤

【无标题】

Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting

训练成本降低2000倍: 直接将推理能力注入LLM

【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent

强化学习-K臂老虎机

九章云极发布九章智算云Alaya NeW Cloud 2.0， 开创Serverless+RL技术趋势

编辑文章 - 题解：P11557 [ROIR 2016] 有趣数字 (Day 2)

限流电阻的选择

人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

论文速读|RP1M：用于双手灵巧机械手弹奏钢琴的大规模运动数据集

【速写】TRL：Trainer的细节与思考（PPO/DPO+LoRA可行性）

DexArt Benchmarking Generalizable Dexterous Manipulation with Articulated Objects

强化学习Reinforcement Learning与逆强化学习：理论与实践

Med-R1论文阅读理解-1

REINFORCE蒙特卡罗策略梯度算法详解：python从零实现

动手学强化学习 第 11 章 TRPO 算法(TRPOContinuous) 训练代码

DeepSeek本地私有部署（基于Ollama）

使用MATLAB和Simulink进行基于强化学习的双足机器人步态控制仿真

OpenManus-RL 使用教程

3中AI领域的主流方向：预测模型、强化学习和世界模型

强化学习_置信域算法&RL

【强化学习】强化学习算法 - 马尔可夫决策过程

深度确定性策略梯度(DDPG)：连续动作空间的探索者

低功耗实现方法思路总结

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

强化学习算法：深度 Q 网络 (DQN) 原理与代码实例讲解

深度 Qlearning：深度Qlearning VS DQN

VLM-RL：用于安全自动驾驶的统一视觉语言模型和强化学习框架——论文阅读

基于强化学习的自我完善聊天机器人

强化学习机器人模拟器——GridWorld：一个用于强化学习的 Python 环境

《Unitree RL Gym 从 0 到 1 全解析》宇树G1机器人rl_gym、legged_game 与 rsl_rl 开源项目代码详解&&逻辑梳理

动手学强化学习第10章-Actor-Critic 算法训练代码

生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤

九章云极发布九章智算云Alaya NeW Cloud 2.0，开创Serverless+RL技术趋势

动手学强化学习第 11 章 TRPO 算法(TRPOContinuous) 训练代码