E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
reinforcement
多智能体深度强化学习:一项综述 Multi-agent deep
reinforcement
learning: a survey
Abstract抽象Theadvancesin
reinforcement
learninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress
资源存储库
·
2025-07-08 17:48
笔记
ReAct (Reason and Act) OR 强化学习(
Reinforcement
Learning, RL)
这个问题触及了现代AI智能体(Agent)构建的两种核心思想。简单来说,ReAct是一种“调用专家”的模式,而强化学习(RL)是一种“从零试错”的模式。为了让你更清晰地理解,我们从一个生动的比喻开始,然后进行详细的对比。一个生动的比喻想象一下你要完成一项复杂的任务,比如“策划一场完美的生日派对”。ReAct的方式(像一位经验丰富的活动策划师)你是一位知识渊博的专家(大语言模型LLM)。你首先会思考
SugarPPig
·
2025-07-08 16:44
人工智能
人工智能
【AI论文】GLM-4.1V-思考:借助可扩展强化学习实现通用多模态推理
随后,借助课程采样强化学习(
Reinforcement
LearningwithCurriculumSampling,R
东临碣石82
·
2025-07-08 04:43
人工智能
机器学习18-强化学习RLHF
机器学习18-强化学习RLHF1-什么是RLHFRLHF(
Reinforcement
LearningfromHumanFeedback)即基于人类反馈的强化学习算法,以下是详细介绍:基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法
坐吃山猪
·
2025-07-07 05:01
机器学习
机器学习
人工智能
2024大模型秋招LLM相关面试题整理
强化学习:(
Reinforcement
Learning)一种机器学习的方法,
AGI大模型资料分享官
·
2025-07-06 04:55
人工智能
深度学习
机器学习
自然语言处理
语言模型
easyui
【深度学习】强化学习(
Reinforcement
Learning, RL)主流架构解析
强化学习(
Reinforcement
Learning,RL)主流架构解析摘要:本文将带你深入了解强化学习(
Reinforcement
Learning,RL)的几种核心架构,包括基于价值(Value-Based
烟锁池塘柳0
·
2025-07-05 19:49
机器学习与深度学习
深度学习
人工智能
机器学习
返利佣金最高软件的技术壁垒:基于强化学习的动态佣金算法架构揭秘
为了突破这一技术瓶颈,我们引入了强化学习(
Reinforcement
Learning,RL),通
·
2025-07-05 18:12
强化学习RLHF详解
RLHF(
Reinforcement
LearningfromHumanFeedback)模型详解一、背景1.传统强化学习的局限性传统的强化学习(
Reinforcement
Learning,RL)依赖于预定义的奖励函数
贝塔西塔
·
2025-07-04 01:36
强化学习
大模型
人工智能
深度学习
机器学习
算法
语言模型
常见的强化学习算法分类及其特点
强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,通过智能体(Agent)与环境(Environment)的交互来学习如何采取行动以最大化累积奖励。
ywfwyht
·
2025-06-30 01:29
人工智能
算法
分类
人工智能
星际争霸多智能体挑战赛(SMAC)
目录TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-Agent
Reinforcement
Learning3
资源存储库
·
2025-06-29 16:55
多智能体强化学习
人工智能
PettingZoo:多智能体强化学习的标准API
PettingZoo:AStandardAPIforMulti-Agent
Reinforcement
LearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1
资源存储库
·
2025-06-29 02:46
多智能体强化学习
人工智能
深度学习
强化学习实战:从 Q-Learning 到 PPO 全流程
1引言随着人工智能的快速发展,强化学习(
Reinforcement
Learning,RL)凭借其在复杂决策与控制问题上的卓越表现,已成为研究与应用的前沿热点。
荣华富贵8
·
2025-06-26 07:04
程序员的知识储备2
程序员的知识储备3
人工智能
算法
机器学习
强化学习(
Reinforcement
Learning, RL)概览
一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支,研究智能体(Agent)在动态环境中通过与环境交互,以最大化累积奖励为目标的学习机制。与监督学习(有标注数据)和无监督学习(无目标)不同,强化学习通过“试错”学习,不依赖先验知识,适合解决动态决策问题。2.核心要素智能体(Agent):执行决策的主体,如游戏AI、机器人。环境(Environment):智能体之外的一切,如棋盘、物理世界
MzKyle
·
2025-06-24 10:39
人工智能
人工智能
强化学习
机器学习
机器人
基于分布式部分可观测马尔可夫决策过程与联邦强化学习的低空经济智能协同决策框架
本文创新性地提出一种深度融合分布式部分可观测马尔可夫决策过程(Dec-POMDP)与联邦强化学习(Federated
Reinforcement
Learning,FRL)
pk_xz123456
·
2025-06-23 21:20
算法
无人机
分布式
算法
matlab
人工智能
制造
开发语言
强化学习-K臂老虎机
强化学习强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,强化学习的基础框架是马尔可夫决策过程,它允许智能体(Agent)能够在与环境(Environment)的交互中通过试错来学习最优策略
·
2025-06-16 19:06
预训练、指令微调与RLHF如何塑造LLM
理解这个训练过程的核心环节——大规模无监督预训练(Pre-training)、指令微调(InstructionFine-Tuning,IFT)以及从人类反馈中强化学习(
Reinforcement
LearningfromHumanFeedback
由数入道
·
2025-06-15 16:15
人工智能
提示词工程
交互
人工智能-SFT(Supervised Fine-Tuning)、RLHF 和 GRPO
以下是SFT(SupervisedFine-Tuning)、RLHF(
Reinforcement
LearningfromHumanFeedback)和GRPO群体相对策略优化(GRPO,GroupRelativePolicyOptimization
高效匠人
·
2025-06-10 21:54
人工智能
人工智能
登上Nature封面!强化学习+卡尔曼滤波上大分
这种结合创新十分有前景,目前多篇成果被顶会顶刊录用,例如"Champion-leveldroneracingusingdeep
reinforcement
learning”这篇登上Nature封面的文章详细描述了
Ai多利
·
2025-06-09 12:30
卡尔曼滤波
强化学习
【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning
DeepSeek-R1:通过强化学习激励大语言模型的推理能力0.论文摘要我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,没有经过监督微调(SFT)作为初步步骤,展现了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而,它也面临诸如可读性差
量子-Alex
·
2025-06-08 18:51
LLM大模型
人工智能
语言模型
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
1.强化学习核心概念强化学习(
reinforcement
learning,RL):智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。
小城哇哇
·
2025-06-08 07:03
人工智能
语言模型
ai
深度学习
机器学习
强化学习
agi
【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via
Reinforcement
Fine-Tuning
VideoChat-R1:EnhancingSpatio-TemporalPerceptionvia
Reinforcement
Fine-Tuning原文摘要研究现状:强化学习有关方法在视频理解任务中的应用仍未被充分探索
s1ckrain
·
2025-06-04 17:41
强化学习
AIGC
计算机视觉
论文阅读
多模态大模型
强化学习
强化学习-深度学习和强化学习领域
在深度学习和强化学习领域,SFT(SupervisedFine-Tuning)和GRPO(可能指Gradient-basedPolicyOptimization或
Reinforcement
LearningwithPolicyOptimization
高效匠人
·
2025-06-03 04:38
人工智能
深度学习
人工智能
强化学习
Reinforcement
Learning与逆强化学习:理论与实践
强化学习,逆强化学习,强化学习算法,逆强化学习算法,深度强化学习,应用场景1.背景介绍在人工智能领域,强化学习(
Reinforcement
Learning,RL)作为一种模仿人类学习的智能算法,近年来取得了显著进展
AGI大模型与大数据研究院
·
2025-06-01 16:16
AI大模型应用开发实战
java
python
javascript
kotlin
golang
架构
人工智能
Med-R1论文阅读理解-1
论文总结:Med-R1:
Reinforcement
LearningforGeneralizableMedicalReasoninginVision-LanguageModels论文写了什么?
要努力啊啊啊
·
2025-05-30 10:19
大模型论文阅读
论文阅读
人工智能
深度学习
REINFORCE蒙特卡罗策略梯度算法详解:python从零实现
以下是翻译后的Markdown文档:引言强化学习(
Reinforcement
Learning,RL)的目标是训练智能体(agent
AI仙人掌
·
2025-05-29 17:40
复现强化学习RL算法
算法
python
开发语言
IPPO算法
而如果环境中还有其他智能体做交互和学习,那么任务则上升为多智能体强化学习(multi-agent
reinforcement
learning,MARL)
后厂村路小狗蛋
·
2025-05-26 20:25
UCAS强化学习算法
算法
人工智能
机器人
使用MATLAB和Simulink进行基于强化学习的双足机器人步态控制仿真
Simulink并创建新模型2.构建双足机器人简化模型3.设计强化学习环境强化学习环境概述4.实现强化学习控制器5.训练强化学习代理6.增加示波器观察输出7.配置仿真参数8.运行仿真并分析结果注意事项强化学习(
Reinforcement
Learning
xiaoheshang_123
·
2025-05-25 14:47
MATLAB
开发项目实例
1000
例专栏
手把手教你学
MATLAB
专栏
simulink
强化学习:第三方库【TRL - Transformer
Reinforcement
Learning】
OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(SFT),ProximalPolicyOptimization(PPO),andDirectPreferenceOptimization(DPO).Buil
u013250861
·
2025-05-22 14:21
RL/强化学习
transformer
深度学习
人工智能
强化学习算法复现(三):蒙特卡洛方法_21点游戏
相关知识结构如下:参考资料:https://oneraynyday.github.io/ml/2018/05/24/
Reinforcement
-Learning-Monte-Carlo/#first-visit-monte-carlo
保护我方vivian
·
2025-05-18 14:12
强化学习
python
强化学习
算法
INTELLECT-2大模型论文速读:通过全局分散强化学习训练的推理模型
INTELLECT-2:AReasoningModelTrainedThroughGloballyDecentralized
Reinforcement
Learning1.引言文章介绍INTELLECT-
Open-source-AI
·
2025-05-17 08:08
前沿
人工智能
深度学习
大模型
【强化学习】强化学习算法 - 马尔可夫决策过程
2.MDP建模/实现步骤3.MDP示例:简单网格世界(GridWorld)马尔可夫决策过程(MarkovDecisionProcess,MDP)1.MDP原理介绍马尔可夫决策过程(MDP)是强化学习(
Reinforcement
Learning
人类发明了工具
·
2025-05-17 06:23
RL强化学习分享
算法
数学建模
强化学习
马尔可夫决策
深度确定性策略梯度(DDPG):连续动作空间的探索者
1.背景介绍1.1强化学习与连续动作空间强化学习(
Reinforcement
Learning,RL)已经成为人工智能领域中最具前景的研究方向之一,它关注的是智能体如何在与环境的交互中学习到最优策略,从而最大化长期累积奖励
AGI大模型与大数据研究院
·
2025-05-17 02:31
AI大模型应用开发实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
ReTool:
Reinforcement
Learning for Strategic Tool Use in LLMs
主要内容研究背景:强化学习(RL)虽能提升大语言模型(LLMs)文本推理能力,但在数值计算和符号操作任务中仍存在局限,计算工具如代码解释器(CI)可弥补这一不足。已有研究探索为LLMs赋予工具使用能力,但存在局限性,RL为解决这些问题提供了方案。方法:提出ReTool,一种工具增强的强化学习框架。先通过数据构建管道整理高质量冷启动数据集,进行监督微调,让模型学习调用代码解释器的基础能力;再采用工具
UnknownBody
·
2025-05-15 10:43
LLM
Daily
LLM
RL
人工智能
机器学习
深度学习
强化学习算法:深度 Q 网络 (DQN) 原理与代码实例讲解
)原理与代码实例讲解关键词:强化学习,深度Q网络(DQN),深度神经网络,动作策略,奖励函数,探索-利用平衡,经验回放(ExperienceReplay),多智能体1.背景介绍1.1问题由来强化学习(
Reinforcement
Learning
AI大模型应用实战
·
2025-05-12 13:08
java
python
javascript
kotlin
golang
架构
人工智能
深度 Qlearning:深度Qlearning VS DQN
深度Q-learning:深度Q-learningVSDQN1.背景介绍1.1问题由来深度强化学习(Deep
Reinforcement
Learning,DRL)是近年来人工智能领域的重要研究方向,旨在通过深度神经网络来学习和优化强化学习
SuperAGI2025
·
2025-05-12 13:07
AI大模型应用开发宝典
java
python
javascript
kotlin
golang
架构
人工智能
VLM-RL:用于安全自动驾驶的统一视觉语言模型和强化学习框架——论文阅读
《VLM-RL:AUnifiedVisionLanguageModelsand
Reinforcement
LearningFrameworkforSafeAutonomousDriving》2024年12
一点.点
·
2025-05-12 12:29
#
自动驾驶
语言模型
论文阅读
解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-1
解密企业级大模型智能体AgenticAI关键技术:MCP、A2A、ReasoningLLMs-1关键词:MCP、A2A、ADK、DeepSeek、ReasoningLLMs、
Reinforcement
Learning
·
2025-05-11 15:37
基于强化学习的自我完善聊天机器人
ElenaRicciardelli,DebmalyaBiswas埃琳娜·里恰德利(ElenaRicciardelli)Abstract.Wepresenta
Reinforcement
Learning(RL
weixin_26641709
·
2025-05-10 05:30
人工智能
强化学习
python
强化学习机器人模拟器——GridWorld:一个用于强化学习的 Python 环境
GridWorld是一个为强化学习(
Reinforcement
Learning,RL)实验设计的多功能Python环境。
LIUDAN'S WORLD
·
2025-05-10 04:56
人形机器人系统:理论与实践
机器人
人工智能
数据库
强化学习机器人模拟器——RobotApp:一个交互式强化学习模拟器
RobotApp是一个基于Python和Tkinter的交互式强化学习(
Reinforcement
Learning,RL)模拟器,集成了GridWorld环境和QAgent智能体,支持Q-learning
LIUDAN'S WORLD
·
2025-05-10 04:56
人形机器人系统:理论与实践
机器人
【强化学习】基于 Ray 的强化学习分布式训练
基于Ray的强化学习分布式训练引言强化学习(
Reinforcement
Learning,RL)是一种强大的机器学习方法,广泛应用于游戏AI、机器人控制和自动化决策等领域。
浪啦里格朗
·
2025-05-09 23:23
强化学习
分布式
机器学习
人工智能
半监督学习与强化学习的结合:新兴的智能训练模式
随着人工智能技术的迅猛发展,半监督学习(Semi-SupervisedLearning,SSL)与强化学习(
Reinforcement
Learning,RL)作为两种重要
字节旅行
·
2025-05-07 07:30
学习
人工智能
详解trl中的GRPOTrainer和GRPOConfig
HuggingFace的TRL(Transformer
Reinforcement
Learning)库通过GRPOTrainer和GRPOConfig提供了该算法的开箱即用实现。
几道之旅
·
2025-05-07 06:56
人工智能
智能体及数字员工
#
强化学习篇
人工智能
强化学习
一个深度强化学习航路规划(路径规划)github项目
UAV_Obstacle_Avoiding_DRL对应毕业设计论文:https://download.csdn.net/download/weixin_43145941/89025980READMEThisisaprojectaboutdeep
reinforcement
learningautonomousobstacleav
iπ弟弟
·
2025-05-04 00:09
强化学习
轨迹规划
深度学习
强化学习研究进展:在工业过程控制中的介绍与应用
AreviewOn
reinforcement
learning:Introductionandapplicationsinindustrialprocesscontrol强化学习研究进展:在工业过程控制中的介绍与应用
资源存储库
·
2025-05-03 12:50
笔记
深度强化学习在机器人控制中的应用与优化
```html深度强化学习在机器人控制中的应用与优化深度强化学习在机器人控制中的应用与优化随着人工智能技术的快速发展,深度强化学习(Deep
Reinforcement
Learning,DRL)逐渐成为机器人控制领域的热门研究方向
书香浓
·
2025-05-03 12:17
机器人
强化学习:策略迭代与价值迭代
1.背景介绍1.1问题由来强化学习(
Reinforcement
Learning,RL)是一种从环境到行为的序列决策模型。
杭州大厂Java程序媛
·
2025-05-03 12:47
java
python
javascript
kotlin
golang
架构
人工智能
TTRL:实时强化学习,开启无标签数据推理新篇章
TTRL:实时强化学习,开启无标签数据推理新篇章TTRLTTRL:Test-Time
Reinforcement
Learning项目地址:https://gitcode.com/gh_mirrors/tt
沈菱嫱Marie
·
2025-05-02 20:58
强化学习入门指南 - Python实现
强化学习入门指南-Python实现强化学习(
Reinforcement
Learning)是一种解决机器智能问题的方法,通过智能体与环境的交互学习最优策略,最终使得智能体能够在环境中获得最大的回报。
CodeWG
·
2025-04-30 14:33
python
开发语言
深度强化学习实战:探索与行动的交响曲
深度强化学习实战:探索与行动的交响曲Deep
Reinforcement
LearningInActionCodefromtheDeep
Reinforcement
LearninginActionbookfromManning
宗津易Philip
·
2025-04-28 02:15
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他