强化学习

强化学习之 DQN、Double DQN、PPO

文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN（DeepQ-Network，深度Q网络），就像教小朋友学打游戏一样：先理解基础概念：Q学习（Q-Learning）想象你在教一只小狗玩电子游戏（比如打砖块）。小狗每做一个动作（比如“向左移动”或“发射球”），游戏会给出一个奖励（比如得分增加）或惩罚（比如球掉了）。小狗的目标是通过不断尝试，

JNU freshman·2025-07-11 22:16

Python 强化学习算法实用指南（三）

：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习

绝不原创的飞龙·2025-07-11 12:07

Python 强化学习算法实用指南（二）

annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法

·2025-07-11 11:59

【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架

quintus0505·2025-07-11 00:16

【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem

论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，

Booksort·2025-07-10 18:12

四、Actor-Critic Methods

沈夢昂志·2025-07-10 14:14

语言模型 RLHF 实践指南（一）：策略网络、价值网络与 PPO 损失函数

在使用ProximalPolicyOptimization（PPO）对语言模型进行强化学习微调（如RLHF）时，大家经常会问：策略网络的动作概率是怎么来的？价值网络的得分是如何计算的？奖励从哪里来？

·2025-07-10 09:12

【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体

本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium

1989·2025-07-09 11:16

在Carla上应用深度强化学习实现自动驾驶（一）

carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据

寒霜似karry·2025-07-09 09:08

【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展

摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳

·2025-07-09 09:37

多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey

Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc

资源存储库·2025-07-08 17:48

r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯

r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec

杨_明·2025-07-08 17:47

ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL）

简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。

SugarPPig·2025-07-08 16:44

【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理

随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R

东临碣石82·2025-07-08 04:43

【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析

引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域

智算菩萨·2025-07-07 19:06

【机器学习笔记 Ⅱ】10 完整周期

关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC

·2025-07-07 12:24

大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2

一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分

Gravity!·2025-07-07 11:17

用强化学习让你的检索增强生成系统“开挂”——从小白到王者的实战指南

“RAG不准？RL来救场！”——一位被RAG气哭的AI工程师前言：RAG的烦恼与AI炼丹师的自我修养在AI圈混久了，大家都知道RAG（Retrieval-AugmentedGeneration，检索增强生成）是大模型落地的“万金油”方案。无论是企业知识库、智能问答，还是搜索引擎升级，RAG都能插上一脚。但你用过RAG就知道，理想很丰满，现实很骨感。明明知识库里啥都有，问个“量子比特的数学表达式”，

许泽宇的技术分享·2025-07-07 09:58

机器学习18-强化学习RLHF

机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法

坐吃山猪·2025-07-07 05:01

策略梯度在网络安全中的应用：AI如何防御网络攻击

策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。

AI智能探索者·2025-07-06 13:01

2024大模型秋招LLM相关面试题整理

强化学习：（ReinforcementLearning）一种机器学习的方法，

AGI大模型资料分享官·2025-07-06 04:55

【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析

强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based

烟锁池塘柳0·2025-07-05 19:49

返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘

返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！

·2025-07-05 18:12

农业物联网平台中的灌溉系统研究

系统将采用Python作为主要开发语言，结合MySQL数据库进行数据存储与管理，利用ECharts.js实现数据可视化展示，并引入机器学习和强化学习算法优化灌溉决策。

sj52abcd·2025-07-05 07:28

用于人形机器人强化学习运动的神经网络架构分析

1.引言：人形机器人运动强化学习中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。

·2025-07-05 04:08

人形机器人运动控制技术演进：从强化学习到神经微分方程的前沿解析

1.引言：人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作，其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法（如基于模型的预测控制MPC）依赖精确的动力学建模，但在实际系统中面临以下瓶颈：模型失配：复杂接触动力学（如足-地交互）难以显式建模；计算瓶颈：高维非线性优化难以满足实时性需求；环境扰动敏感：传统控制器对未知干扰的鲁棒性不足。近年来，以强

·2025-07-05 00:15

NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）

系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2

强化学习与机器人控制仿真·2025-07-05 00:15

强化学习：Deep Deterministic Policy Gradient (DDPG) 学习笔记

一、DDPG是什么？1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep：使用深度神经网络和类似DQN的技术（经验回放、目标网络）Deterministic：输出确定的动作（而不是概率分布）PolicyGradient：基于策略梯度的方法，优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值（如方向盘角度、机器人关节扭矩）离线学

烨川南·2025-07-04 22:00

提升自动驾驶导航能力：基于深度学习的场景理解技术

本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解

星辰和大海都需要门票·2025-07-04 21:21

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

本文目录如下：目录1概述一、微能源网能量管理的基本概念与核心需求二、深度强化学习（DRL）在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向

·2025-07-04 19:41

强化学习贝尔曼方程推导

引言强化学习中贝尔曼方程的重要性就不说了，本文利用高中生都能看懂的数学知识推导贝尔曼方程。

愤怒的可乐·2025-07-04 01:07

强化学习RLHF详解

RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数

贝塔西塔·2025-07-04 01:36

强化学习【chapter0】-学习路线图

前言：主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段

明朝百晓生·2025-07-03 22:48

讯飞星火深度推理模型X1，为教育医疗带来革新

它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面

·2025-07-03 21:42

Instrct-GPT 强化学习奖励模型 Reward modeling 的训练过程原理实例化详解

Instrct-GPT强化学习奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质：共享上下文的比较对捆绑（1）为什么同一prompt的比较对必须捆绑？

John_今天务必休息一天·2025-07-03 06:19

（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等）

1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现

weisian151·2025-07-02 16:38

Keras环境复现代码（三）

DQN雅达利Breakout强化学习实验要求明确实验目的：学习和实现深度Q学习（DQN），这是一种结合了Q学习和深度神经网络的强化学习算法，用于解决复杂的决策问题。

yanyiche_·2025-07-02 10:52

Keras环境复现代码（二）

清楚实验原理：PPO算法是一种基于策略梯度的强化学习算法，它旨在解决传统策略梯度方法（如REINFORCE算法）在训练过程中可能出现的策略更新不稳定问题。

yanyiche_·2025-07-02 10:52

行为正则化与顺序策略优化结合的离线多智能体学习算法

离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。

·2025-07-01 08:22

利用视觉-语言模型搭建机器人灵巧操作的支架

虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。

三谷秋水·2025-07-01 07:21

常见的强化学习算法分类及其特点

强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。

ywfwyht·2025-06-30 01:29

星际争霸多智能体挑战赛（SMAC）

TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3多智能体强化学习

资源存储库·2025-06-29 16:55

AlphaStar 星际首秀，人工智能走向星辰大海

文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。

谷歌开发者·2025-06-29 16:23

Deepoc大模型在半导体设计优化与自动化

通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降

Deepoch·2025-06-29 13:32

【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1

两者是强化学习的核心算法，但在设计理念、适用场景和实现机制上有显著差异：graphTDA[对比维度]-->B[算法类型]A-->C[策略表示]A-->D[动作空间]A-->E[学习机制]A-->F[探索方式

行云流水AI笔记·2025-06-29 07:55

PettingZoo:多智能体强化学习的标准API

PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1

资源存储库·2025-06-29 02:46

神经网络架构搜索

1.神经网络架构搜索方法分类当前，神经网络架构搜索的方法主要可以归纳为以下三类：a.基于强化学习的NAS方法

IJCAST主编·2025-06-28 23:49

强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】

根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/

行云流水AI笔记·2025-06-28 19:19

大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1

一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action

Gravity!·2025-06-28 18:10

LLMs基础学习（八）强化学习专题（7）

LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com

汤姆和佩琦·2025-06-28 08:03

推荐频道