reinforcement

多智能体深度强化学习：一项综述 Multi-agent deep reinforcement learning: a survey

Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress

资源存储库·2025-07-08 17:48

ReAct (Reason and Act) OR 强化学习（Reinforcement Learning, RL）

这个问题触及了现代AI智能体（Agent）构建的两种核心思想。简单来说，ReAct是一种“调用专家”的模式，而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解，我们从一个生动的比喻开始，然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务，比如“策划一场完美的生日派对”。ReAct的方式（像一位经验丰富的活动策划师）你是一位知识渊博的专家（大语言模型LLM）。你首先会思考

SugarPPig·2025-07-08 16:44

【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理

随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R

东临碣石82·2025-07-08 04:43

机器学习18-强化学习RLHF

机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法

坐吃山猪·2025-07-07 05:01

2024大模型秋招LLM相关面试题整理

强化学习：（ReinforcementLearning）一种机器学习的方法，

AGI大模型资料分享官·2025-07-06 04:55

【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析

强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based

烟锁池塘柳0·2025-07-05 19:49

返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘

为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通

·2025-07-05 18:12

强化学习RLHF详解

RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数

贝塔西塔·2025-07-04 01:36

常见的强化学习算法分类及其特点

强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。

ywfwyht·2025-06-30 01:29

星际争霸多智能体挑战赛（SMAC）

目录TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3

资源存储库·2025-06-29 16:55

PettingZoo:多智能体强化学习的标准API

PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1

资源存储库·2025-06-29 02:46

强化学习实战：从 Q-Learning 到 PPO 全流程

1引言随着人工智能的快速发展，强化学习（ReinforcementLearning,RL）凭借其在复杂决策与控制问题上的卓越表现，已成为研究与应用的前沿热点。

荣华富贵8·2025-06-26 07:04

强化学习（Reinforcement Learning, RL）概览

一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支，研究智能体（Agent）在动态环境中通过与环境交互，以最大化累积奖励为目标的学习机制。与监督学习（有标注数据）和无监督学习（无目标）不同，强化学习通过“试错”学习，不依赖先验知识，适合解决动态决策问题。2.核心要素智能体（Agent）：执行决策的主体，如游戏AI、机器人。环境（Environment）：智能体之外的一切，如棋盘、物理世界

MzKyle·2025-06-24 10:39

基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架

本文创新性地提出一种深度融合分布式部分可观测马尔可夫决策过程（Dec-POMDP）与联邦强化学习（FederatedReinforcementLearning,FRL）

pk_xz123456·2025-06-23 21:20

强化学习-K臂老虎机

强化学习强化学习（ReinforcementLearning，RL）是一种机器学习方法，强化学习的基础框架是马尔可夫决策过程，它允许智能体（Agent）能够在与环境（Environment）的交互中通过试错来学习最优策略

·2025-06-16 19:06

预训练、指令微调与RLHF如何塑造LLM

理解这个训练过程的核心环节——大规模无监督预训练（Pre-training）、指令微调（InstructionFine-Tuning,IFT）以及从人类反馈中强化学习（ReinforcementLearningfromHumanFeedback

由数入道·2025-06-15 16:15

人工智能-SFT（Supervised Fine-Tuning）、RLHF 和 GRPO

以下是SFT（SupervisedFine-Tuning）、RLHF（ReinforcementLearningfromHumanFeedback）和GRPO群体相对策略优化(GRPO，GroupRelativePolicyOptimization

高效匠人·2025-06-10 21:54

登上Nature封面！强化学习+卡尔曼滤波上大分

这种结合创新十分有前景，目前多篇成果被顶会顶刊录用，例如"Champion-leveldroneracingusingdeepreinforcementlearning”这篇登上Nature封面的文章详细描述了

Ai多利·2025-06-09 12:30

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1：通过强化学习激励大语言模型的推理能力0.论文摘要我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，没有经过监督微调（SFT）作为初步步骤，展现了卓越的推理能力。通过RL，DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而，它也面临诸如可读性差

量子-Alex·2025-06-08 18:51

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

1.强化学习核心概念强化学习（reinforcementlearning，RL）：智能体可以在与复杂且不确定的环境进行交互时，尝试使所获得的奖励最大化的算法。

小城哇哇·2025-06-08 07:03

【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

VideoChat-R1:EnhancingSpatio-TemporalPerceptionviaReinforcementFine-Tuning原文摘要研究现状：强化学习有关方法在视频理解任务中的应用仍未被充分探索

s1ckrain·2025-06-04 17:41

强化学习-深度学习和强化学习领域

在深度学习和强化学习领域，SFT（SupervisedFine-Tuning）和GRPO（可能指Gradient-basedPolicyOptimization或ReinforcementLearningwithPolicyOptimization

高效匠人·2025-06-03 04:38

强化学习Reinforcement Learning与逆强化学习：理论与实践

强化学习，逆强化学习，强化学习算法，逆强化学习算法，深度强化学习，应用场景1.背景介绍在人工智能领域，强化学习(ReinforcementLearning,RL)作为一种模仿人类学习的智能算法，近年来取得了显著进展

AGI大模型与大数据研究院·2025-06-01 16:16

Med-R1论文阅读理解-1

论文总结：Med-R1:ReinforcementLearningforGeneralizableMedicalReasoninginVision-LanguageModels论文写了什么？

要努力啊啊啊·2025-05-30 10:19

REINFORCE蒙特卡罗策略梯度算法详解：python从零实现

以下是翻译后的Markdown文档：引言强化学习（ReinforcementLearning,RL）的目标是训练智能体（agent

AI仙人掌·2025-05-29 17:40

IPPO算法

而如果环境中还有其他智能体做交互和学习，那么任务则上升为多智能体强化学习(multi-agentreinforcementlearning，MARL)

后厂村路小狗蛋·2025-05-26 20:25

使用MATLAB和Simulink进行基于强化学习的双足机器人步态控制仿真

Simulink并创建新模型2.构建双足机器人简化模型3.设计强化学习环境强化学习环境概述4.实现强化学习控制器5.训练强化学习代理6.增加示波器观察输出7.配置仿真参数8.运行仿真并分析结果注意事项强化学习（ReinforcementLearning

xiaoheshang_123·2025-05-25 14:47

强化学习：第三方库【TRL - Transformer Reinforcement Learning】

OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT),ProximalPolicyOptimization(PPO),andDirectPreferenceOptimization(DPO).Buil

u013250861·2025-05-22 14:21

强化学习算法复现（三）：蒙特卡洛方法_21点游戏

保护我方vivian·2025-05-18 14:12

INTELLECT-2大模型论文速读：通过全局分散强化学习训练的推理模型

INTELLECT-2:AReasoningModelTrainedThroughGloballyDecentralizedReinforcementLearning1.引言文章介绍INTELLECT-

Open-source-AI·2025-05-17 08:08

【强化学习】强化学习算法 - 马尔可夫决策过程

2.MDP建模/实现步骤3.MDP示例：简单网格世界(GridWorld)马尔可夫决策过程(MarkovDecisionProcess,MDP)1.MDP原理介绍马尔可夫决策过程(MDP)是强化学习(ReinforcementLearning

人类发明了工具·2025-05-17 06:23

深度确定性策略梯度(DDPG)：连续动作空间的探索者

1.背景介绍1.1强化学习与连续动作空间强化学习(ReinforcementLearning,RL)已经成为人工智能领域中最具前景的研究方向之一，它关注的是智能体如何在与环境的交互中学习到最优策略，从而最大化长期累积奖励

AGI大模型与大数据研究院·2025-05-17 02:31

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

主要内容研究背景：强化学习（RL）虽能提升大语言模型（LLMs）文本推理能力，但在数值计算和符号操作任务中仍存在局限，计算工具如代码解释器（CI）可弥补这一不足。已有研究探索为LLMs赋予工具使用能力，但存在局限性，RL为解决这些问题提供了方案。方法：提出ReTool，一种工具增强的强化学习框架。先通过数据构建管道整理高质量冷启动数据集，进行监督微调，让模型学习调用代码解释器的基础能力；再采用工具

UnknownBody·2025-05-15 10:43

强化学习算法：深度 Q 网络 (DQN) 原理与代码实例讲解

)原理与代码实例讲解关键词：强化学习,深度Q网络(DQN),深度神经网络,动作策略,奖励函数,探索-利用平衡,经验回放(ExperienceReplay),多智能体1.背景介绍1.1问题由来强化学习(ReinforcementLearning

AI大模型应用实战·2025-05-12 13:08

深度 Qlearning：深度Qlearning VS DQN

深度Q-learning：深度Q-learningVSDQN1.背景介绍1.1问题由来深度强化学习（DeepReinforcementLearning,DRL）是近年来人工智能领域的重要研究方向，旨在通过深度神经网络来学习和优化强化学习

SuperAGI2025·2025-05-12 13:07

VLM-RL：用于安全自动驾驶的统一视觉语言模型和强化学习框架——论文阅读

《VLM-RL:AUnifiedVisionLanguageModelsandReinforcementLearningFrameworkforSafeAutonomousDriving》2024年12

一点.点·2025-05-12 12:29

解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs-1

解密企业级大模型智能体AgenticAI关键技术：MCP、A2A、ReasoningLLMs-1关键词：MCP、A2A、ADK、DeepSeek、ReasoningLLMs、ReinforcementLearning

·2025-05-11 15:37

基于强化学习的自我完善聊天机器人

ElenaRicciardelli,DebmalyaBiswas埃琳娜·里恰德利(ElenaRicciardelli)Abstract.WepresentaReinforcementLearning(RL

weixin_26641709·2025-05-10 05:30

强化学习机器人模拟器——GridWorld：一个用于强化学习的 Python 环境

GridWorld是一个为强化学习（ReinforcementLearning,RL）实验设计的多功能Python环境。

LIUDAN'S WORLD·2025-05-10 04:56

强化学习机器人模拟器——RobotApp：一个交互式强化学习模拟器

RobotApp是一个基于Python和Tkinter的交互式强化学习（ReinforcementLearning,RL）模拟器，集成了GridWorld环境和QAgent智能体，支持Q-learning

LIUDAN'S WORLD·2025-05-10 04:56

【强化学习】基于 Ray 的强化学习分布式训练

基于Ray的强化学习分布式训练引言强化学习(ReinforcementLearning,RL)是一种强大的机器学习方法，广泛应用于游戏AI、机器人控制和自动化决策等领域。

浪啦里格朗·2025-05-09 23:23

半监督学习与强化学习的结合：新兴的智能训练模式

随着人工智能技术的迅猛发展，半监督学习（Semi-SupervisedLearning,SSL）与强化学习（ReinforcementLearning,RL）作为两种重要

字节旅行·2025-05-07 07:30

详解trl中的GRPOTrainer和GRPOConfig

HuggingFace的TRL(TransformerReinforcementLearning)库通过GRPOTrainer和GRPOConfig提供了该算法的开箱即用实现。

几道之旅·2025-05-07 06:56

一个深度强化学习航路规划（路径规划）github项目

UAV_Obstacle_Avoiding_DRL对应毕业设计论文：https://download.csdn.net/download/weixin_43145941/89025980READMEThisisaprojectaboutdeepreinforcementlearningautonomousobstacleav

iπ弟弟·2025-05-04 00:09

强化学习研究进展：在工业过程控制中的介绍与应用

AreviewOnreinforcementlearning:Introductionandapplicationsinindustrialprocesscontrol强化学习研究进展：在工业过程控制中的介绍与应用

资源存储库·2025-05-03 12:50

深度强化学习在机器人控制中的应用与优化

```html深度强化学习在机器人控制中的应用与优化深度强化学习在机器人控制中的应用与优化随着人工智能技术的快速发展，深度强化学习（DeepReinforcementLearning,DRL）逐渐成为机器人控制领域的热门研究方向

书香浓·2025-05-03 12:17

强化学习：策略迭代与价值迭代

1.背景介绍1.1问题由来强化学习（ReinforcementLearning,RL）是一种从环境到行为的序列决策模型。

杭州大厂Java程序媛·2025-05-03 12:47

TTRL：实时强化学习，开启无标签数据推理新篇章

TTRL：实时强化学习，开启无标签数据推理新篇章TTRLTTRL:Test-TimeReinforcementLearning项目地址:https://gitcode.com/gh_mirrors/tt

沈菱嫱Marie·2025-05-02 20:58

强化学习入门指南 - Python实现

强化学习入门指南-Python实现强化学习（ReinforcementLearning）是一种解决机器智能问题的方法，通过智能体与环境的交互学习最优策略，最终使得智能体能够在环境中获得最大的回报。

CodeWG·2025-04-30 14:33

深度强化学习实战：探索与行动的交响曲

深度强化学习实战：探索与行动的交响曲DeepReinforcementLearningInActionCodefromtheDeepReinforcementLearninginActionbookfromManning

宗津易Philip·2025-04-28 02:15

推荐频道