E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ADP&RL
常见的强化学习算法分类及其特点
强化学习(ReinforcementLearning,
RL
)是一种机器学习方法,通过智能体(Agent)与环境(Environment)的交互来学习如何采取行动以最大化累积奖励。
ywfwyht
·
2025-06-30 01:29
人工智能
算法
分类
人工智能
ROS2 强化学习:案例与代码实战
一、引言在机器人技术不断发展的今天,强化学习(
RL
)作为一种强大的机器学习范式,为机器人的智能决策和自主控制提供了新的途径。
芯动大师
·
2025-06-27 21:56
ROS2学习
目标检测
人工智能
DeepSeek打破AI天花板:MoE架构+
RL
推理,效率提升5倍的底层逻辑
文章目录一、引言二、MoE架构:高效计算的核心支撑(一)MoE架构概述(二)DeepSeekMoE架构的创新点(三)MoE架构的代码实现示例三、
RL
推理:智能提升的关键驱动(一)
RL
推理概述(二)R1的训练流程
泡泡Java
·
2025-06-27 02:13
AI大模型
人工智能
架构
强化学习实战:从 Q-Learning 到 PPO 全流程
1引言随着人工智能的快速发展,强化学习(ReinforcementLearning,
RL
)凭借其在复杂决策与控制问题上的卓越表现,已成为研究与应用的前沿热点。
荣华富贵8
·
2025-06-26 07:04
程序员的知识储备2
程序员的知识储备3
人工智能
算法
机器学习
强化学习(Reinforcement Learning,
RL
)概览
一、强化学习的核心概念与定位1.定义强化学习是机器学习的分支,研究智能体(Agent)在动态环境中通过与环境交互,以最大化累积奖励为目标的学习机制。与监督学习(有标注数据)和无监督学习(无目标)不同,强化学习通过“试错”学习,不依赖先验知识,适合解决动态决策问题。2.核心要素智能体(Agent):执行决策的主体,如游戏AI、机器人。环境(Environment):智能体之外的一切,如棋盘、物理世界
MzKyle
·
2025-06-24 10:39
人工智能
人工智能
强化学习
机器学习
机器人
动手学强化学习 第10章-Actor-Critic 算法 训练代码
基于Hands-on-
RL
/第10章-Actor-Critic算法.ipynbatmain·boyu-ai/Hands-on-
RL
·GitHub理论Actor-Critic算法修改了警告和报错运行环境DebianGNU
zhqh100
·
2025-06-23 06:08
算法
深度学习
pytorch
人工智能
生成本地 微调 +强化学习 qwen3-4b 研究搭建流程步骤
在本地微调并应用强化学习(
RL
)对Qwen-3-4B模型进行研究和搭建,是一个复杂但可行的过程。以下是一个详细的流程步骤,涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。
行云流水AI笔记
·
2025-06-21 11:54
人工智能
【无标题】
在本地对Qwen-3-4B模型进行微调,并结合强化学习(
RL
)以提高其从自然语言(TXT)到结构化查询语言(SQL)的转换能力(即TXT2SQL),是一个复杂但非常有价值的任务。
行云流水AI笔记
·
2025-06-21 11:54
人工智能
Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting
现有方法如强化学习(
RL
)单独使用或LLM辅助
RL
的方式,仍依赖token预测范式,缺乏结构化推理和快速适应性。
UnknownBody
·
2025-06-20 10:09
LLM
Daily
Causal
and
Reasoning
语言模型
人工智能
自然语言处理
训练成本降低2000倍: 直接将推理能力注入LLM
arxiv.org/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作(带CoT的
RL
大模型最新论文
·
2025-06-18 13:20
深度学习
人工智能
语言模型
自然语言处理
llama
【论文解读】s3: 仅 2.4K 数据即可
RL
训练Search Agent
1stauthro:PatrickJiangpaper:[2505.14146]s3:YouDon’tNeedThatMuchDatatoTrainaSearchAgentviaRLcode:pat-jj/s3:s3-EfficientYetEffectiveSearchAgentTrainingviaRLforRAG5.总结(结果先行)s3框架以其“解耦搜索与生成、仅训练搜索代理、采用GBR奖励
·
2025-06-18 04:50
强化学习-K臂老虎机
强化学习强化学习(ReinforcementLearning,
RL
)是一种机器学习方法,强化学习的基础框架是马尔可夫决策过程,它允许智能体(Agent)能够在与环境(Environment)的交互中通过试错来学习最优策略
·
2025-06-16 19:06
九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+
RL
技术趋势
2025年6月16日北京讯——AI独角兽企业九章云极DataCanvas在“九章云极智能计算论坛”上正式发布新一代全栈智能计算云平台——九章智算云AlayaNeWCloud2.0,并同步启动全球首个强化学习智算服务。该平台基于Serverless技术架构与强化学习技术的深度融合,成功突破“秒级生成百万token级”的性能瓶颈,旨在为全球AI创新企业及研发机构提供智能计算基础设施级服务。九章智算
·
2025-06-16 15:42
编辑文章 - 题解:P11557 [ROIR 2016] 有趣数字 (Day 2)
题目要求计算区间l∼
rl
\simrl∼r内有趣的数字的数量。那么1∼r1\simr1∼r的有趣数字的数量减去1∼l−11\siml-11∼l−1的数量就是区间内有趣数字的数量。
lhschris
·
2025-06-14 22:40
算法
深度优先
图论
限流电阻的选择
其原理是:电阻
RL
是负载电阻,R为稳压调整电阻(也称为限流电阻),D为稳压管。按稳压电路设计准则,在输入电压基本不变时,
RL
变小时,流过
RL
的电流增加,但流过
XTao EmbedLogs
·
2025-06-11 03:35
电路设计
单片机
嵌入式硬件
电路设计
pcb工艺
嵌入式
人工智能-SFT(Supervised Fine-Tuning)、RLHF 和 GRPO
RLHF(ReinforcementLearningfromHumanFeedback)和GRPO群体相对策略优化(GRPO,GroupRelativePolicyOptimization)是一种强化学习(
RL
高效匠人
·
2025-06-10 21:54
人工智能
人工智能
【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1-Zero是一个通过大规模强化学习(
RL
)训练而成的模型,没有经过监督微调(SFT)作为初步步骤,展现了卓越的推理能力。
量子-Alex
·
2025-06-08 18:51
LLM大模型
人工智能
语言模型
强化学习从基础到进阶-常见问题和面试必知必答[1]:强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验
1.强化学习核心概念强化学习(reinforcementlearning,
RL
):智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。
小城哇哇
·
2025-06-08 07:03
人工智能
语言模型
ai
深度学习
机器学习
强化学习
agi
论文速读|RP1M:用于双手灵巧机械手弹奏钢琴的大规模运动数据集
这些专家轨迹是通过为每首歌曲训练一个强化学习(
RL
)代理,并使用不同的随机种
·
2025-06-08 02:30
【速写】TRL:Trainer的细节与思考(PPO/DPO+LoRA可行性)
另一个问题就是奖励函数的设置,这个是
RL
从诞生以来一直存在的一个老大难问题。现在有很多方案,但是我始终觉得
囚生CY
·
2025-06-06 07:08
速写
人工智能
DexArt Benchmarking Generalizable Dexterous Manipulation with Articulated Objects
文章目录概述概述accepted:CVPR2023项目主页文章解读参考:
RL
的工作,很清晰的idea,后续可以读代码项目仓库
好气呀
·
2025-06-03 02:23
具身智能
铰接物体
机器人
强化学习Reinforcement Learning与逆强化学习:理论与实践
强化学习,逆强化学习,强化学习算法,逆强化学习算法,深度强化学习,应用场景1.背景介绍在人工智能领域,强化学习(ReinforcementLearning,
RL
)作为一种模仿人类学习的智能算法,近年来取得了显著进展
AGI大模型与大数据研究院
·
2025-06-01 16:16
AI大模型应用开发实战
java
python
javascript
kotlin
golang
架构
人工智能
Med-R1论文阅读理解-1
本文提出了一种名为Med-R1的新框架,旨在通过强化学习(ReinforcementLearning,
RL
)提升视觉-语言模型(Vision-LanguageModels,VLMs)在医疗领域的推理能力与泛化能
要努力啊啊啊
·
2025-05-30 10:19
大模型论文阅读
论文阅读
人工智能
深度学习
REINFORCE蒙特卡罗策略梯度算法详解:python从零实现
以下是翻译后的Markdown文档:引言强化学习(ReinforcementLearning,
RL
)的目标是训练智能体(agent
AI仙人掌
·
2025-05-29 17:40
复现强化学习RL算法
算法
python
开发语言
动手学强化学习 第 11 章 TRPO 算法(TRPOContinuous) 训练代码
基于Hands-on-
RL
/第11章-TRPO算法.ipynbatmain·boyu-ai/Hands-on-
RL
·GitHub理论TRPO算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2
zhqh100
·
2025-05-27 22:30
算法
人工智能
强化学习
pytorch
DeepSeek本地私有部署(基于Ollama)
DeepSeek在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括DeepSeekCoder、DeepSeekLLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-
Rl
奶羊cnk
·
2025-05-26 04:21
人工智能
deepseek
使用MATLAB和Simulink进行基于强化学习的双足机器人步态控制仿真
3.设计强化学习环境强化学习环境概述4.实现强化学习控制器5.训练强化学习代理6.增加示波器观察输出7.配置仿真参数8.运行仿真并分析结果注意事项强化学习(ReinforcementLearning,
RL
xiaoheshang_123
·
2025-05-25 14:47
MATLAB
开发项目实例
1000
例专栏
手把手教你学
MATLAB
专栏
simulink
OpenManus-
RL
使用教程
OpenManus-
RL
使用教程OpenManus-RLAlivestreamdevelopmentofRLtunningforLLMagents项目地址:https://gitcode.com/gh_mirrors
戚逸玫Silas
·
2025-05-24 18:09
3中AI领域的主流方向:预测模型、强化学习和世界模型
其中,预测模型(如大语言模型)、强化学习(
RL
)和世界模型(WorldModels)代表了三种较大影响力的研究方向。本文将从技术原理、应用场景和未来趋势三个维度,对比分析这三种方向的核心差异与互补性。
pang企鹅
·
2025-05-22 04:46
人工智能
机器学习
语言模型
强化学习_置信域算法&
RL
1置信域算法到TRPO置信域算法核心:找到更新参数θ\thetaθ和θold\theta_{old}θold相关的近似目标函数,邻域N(θold)N(\theta_{old})N(θold)内寻找最大值近似(approximation):L(θ∣θold)L(\theta|\theta_{old})L(θ∣θold)最大化(Maximation):arg maxθ∈N(θold)L(θ∣θold
Scc_hy
·
2025-05-21 14:09
强化学习
算法
强化学习
人工智能
深度学习
【强化学习】强化学习算法 - 马尔可夫决策过程
简单网格世界(GridWorld)马尔可夫决策过程(MarkovDecisionProcess,MDP)1.MDP原理介绍马尔可夫决策过程(MDP)是强化学习(ReinforcementLearning,
RL
人类发明了工具
·
2025-05-17 06:23
RL强化学习分享
算法
数学建模
强化学习
马尔可夫决策
深度确定性策略梯度(DDPG):连续动作空间的探索者
1.背景介绍1.1强化学习与连续动作空间强化学习(ReinforcementLearning,
RL
)已经成为人工智能领域中最具前景的研究方向之一,它关注的是智能体如何在与环境的交互中学习到最优策略,从而最大化长期累积奖励
AGI大模型与大数据研究院
·
2025-05-17 02:31
AI大模型应用开发实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
低功耗实现方法思路总结
1.硬件选型最重要,比如stm8l,MSP430,瑞萨
rl
78,lpc11等2.开发仿真务必使用高精度万用表如fluke3.在整体规划层面,避免引脚未配置的浮空状态a)在设计开发层面,对于使用的信号,使用上下拉电阻或者推挽输出
Xueqian E
·
2025-05-16 13:57
单片机
嵌入式硬件
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
主要内容研究背景:强化学习(
RL
)虽能提升大语言模型(LLMs)文本推理能力,但在数值计算和符号操作任务中仍存在局限,计算工具如代码解释器(CI)可弥补这一不足。
UnknownBody
·
2025-05-15 10:43
LLM
Daily
LLM
RL
人工智能
机器学习
深度学习
强化学习算法:深度 Q 网络 (DQN) 原理与代码实例讲解
网络(DQN),深度神经网络,动作策略,奖励函数,探索-利用平衡,经验回放(ExperienceReplay),多智能体1.背景介绍1.1问题由来强化学习(ReinforcementLearning,
RL
AI大模型应用实战
·
2025-05-12 13:08
java
python
javascript
kotlin
golang
架构
人工智能
深度 Qlearning:深度Qlearning VS DQN
问题由来深度强化学习(DeepReinforcementLearning,DRL)是近年来人工智能领域的重要研究方向,旨在通过深度神经网络来学习和优化强化学习(ReinforcementLearning,
RL
SuperAGI2025
·
2025-05-12 13:07
AI大模型应用开发宝典
java
python
javascript
kotlin
golang
架构
人工智能
VLM-
RL
:用于安全自动驾驶的统一视觉语言模型和强化学习框架——论文阅读
《VLM-
RL
:AUnifiedVisionLanguageModelsandReinforcementLearningFrameworkforSafeAutonomousDriving》2024年12
一点.点
·
2025-05-12 12:29
#
自动驾驶
语言模型
论文阅读
基于强化学习的自我完善聊天机器人
ElenaRicciardelli,DebmalyaBiswas埃琳娜·里恰德利(ElenaRicciardelli)Abstract.WepresentaReinforcementLearning(
RL
weixin_26641709
·
2025-05-10 05:30
人工智能
强化学习
python
强化学习机器人模拟器——GridWorld:一个用于强化学习的 Python 环境
GridWorld是一个为强化学习(ReinforcementLearning,
RL
)实验设计的多功能Python环境。
LIUDAN'S WORLD
·
2025-05-10 04:56
人形机器人系统:理论与实践
机器人
人工智能
数据库
强化学习机器人模拟器——RobotApp:一个交互式强化学习模拟器
RobotApp是一个基于Python和Tkinter的交互式强化学习(ReinforcementLearning,
RL
)模拟器,集成了GridWorld环境和QAgent智能体,支持Q-learning
LIUDAN'S WORLD
·
2025-05-10 04:56
人形机器人系统:理论与实践
机器人
【强化学习】基于 Ray 的强化学习分布式训练
基于Ray的强化学习分布式训练引言强化学习(ReinforcementLearning,
RL
)是一种强大的机器学习方法,广泛应用于游戏AI、机器人控制和自动化决策等领域。
浪啦里格朗
·
2025-05-09 23:23
强化学习
分布式
机器学习
人工智能
半监督学习与强化学习的结合:新兴的智能训练模式
随着人工智能技术的迅猛发展,半监督学习(Semi-SupervisedLearning,SSL)与强化学习(ReinforcementLearning,
RL
)作为两种重要
字节旅行
·
2025-05-07 07:30
学习
人工智能
DPO(Direct Preference Optimization,直接偏好优化)
它通过直接利用人类对模型输出的偏好数据(例如,“输出A比输出B更好”)来优化模型,而无需依赖传统的强化学习(
RL
)框架,尤其是基于人类反馈的强化学习(RLHF)中的复杂奖励模型。
爱看烟花的码农
·
2025-05-06 02:33
RL
AIGC
DPO
强化学习
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
文章目录摘要1引言2背景:长思维链推理模型与过度思考现象2.1思维链(CoT)推理2.2长CoT推理模型中的过度思考问题3基于模型的高效推理3.1基于长度奖励设计的强化学习(
RL
)3.2使用可变长度CoT
绒绒毛毛雨
·
2025-05-04 18:00
搜索推荐
语言模型
人工智能
自然语言处理
强化学习:策略迭代与价值迭代
1.背景介绍1.1问题由来强化学习(ReinforcementLearning,
RL
)是一种从环境到行为的序列决策模型。
杭州大厂Java程序媛
·
2025-05-03 12:47
java
python
javascript
kotlin
golang
架构
人工智能
小米开源Xiaomi-MiMo-7B 详情
目前多数成功的强化学习(
RL
)工作,尤其是提升代码推理能力的研究,都依赖于大型基础模型(如32B模型)。通常认为,小型模型难以同时在数学和代码推理能力上取得均衡提升。
Panesle
·
2025-05-02 23:49
前沿
人工智能
大模型
文本生成
TTRL:实时强化学习,开启无标签数据推理新篇章
gh_mirrors/tt/TTRL项目介绍TTRL(Test-TimeReinforcementLearning)是一个开源项目,致力于探索在不具备显式标签的数据上进行推理任务的大规模语言模型(LLMs)的强化学习(
RL
沈菱嫱Marie
·
2025-05-02 20:58
PyTorch 深度学习实战(23):多任务强化学习(Multi-Task
RL
)之扩展
之前的PyTorch深度学习实战(23):多任务强化学习(Multi-TaskRL)总结扩展运用代码如下:importtorchimporttorch.nnasnnimporttorch.optimasoptimimportnumpyasnpfromtorch.distributionsimportNormalfromtorch.ampimportautocast,GradScalerfromme
进取星辰
·
2025-05-02 04:11
PyTorch
深度学习实战
深度学习
pytorch
人工智能
【大模型开发解惑】DeepSeek-R1 强化学习(
RL
)步骤与方法解析
DeepSeek-R1强化学习(
RL
)步骤与方法解析目录DeepSeek-R1的
RL
框架概述1.1核心算法:GRPO(GroupRelativePolicyOptimization)1.2奖励机制设计
RL
云博士的AI课堂
·
2025-04-30 08:27
大模型技术开发与实践
哈佛博后带你玩转机器学习
深度学习
python
pytorch
deepseek
强化学习
深度学习
RL
机器学习
深度对比:DeepSeek与ChatGPT的技术差异与范式演进
具体而言,其决策模块可分解为:M(x)=σ(
RL
(x)⊕Symbolic_Reasoning(x))M(x)=σ(
RL
(x)⊕Symbolic_Reasoning(x))其中⊕⊕表示张量拼接操作,σσ为门控激活函数
张家铭02
·
2025-04-29 07:21
人工智能
chatgpt
人工智能
deepseek
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他