E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ReinForcement
深度强化学习实战:探索与行动的交响曲
深度强化学习实战:探索与行动的交响曲Deep
Reinforcement
LearningInActionCodefromtheDeep
Reinforcement
LearninginActionbookfromManning
宗津易Philip
·
2025-04-28 02:15
1)强化学习入门
bilibili初探强化学习GitHub-XinJingHao/DRL-Pytorch:Clean,Robust,andUnifiedPyTorchimplementationofpopularDeep
Reinforcement
Learning
SLAM必须dunk
·
2025-04-27 05:27
强化学习
机器学习
论文阅读:2023 ICLR Safe RLHF: Safe
Reinforcement
Learning from Human Feedback
总目录大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328SafeRLHF:Safe
Reinforcement
LearningfromHumanFeedback
CSPhD-winston-杨帆
·
2025-04-22 15:51
论文阅读
论文翻译
论文阅读
多智能体深度强化学习(MADRL)开源项目安装与使用指南
多智能体深度强化学习(MADRL)开源项目安装与使用指南MADRLRepocontainingcodeformulti-agentdeep
reinforcement
learning(MADRL).项目地址
叶展冰Guy
·
2025-04-22 04:42
强化学习系统学习路径与实践方法
一、学习路径规划1.基础巩固阶段(1-2个月)必读教材:《
Reinforcement
Learning:AnIntroduction》(Sutton&Barto)第1-6章重点掌握:马尔可夫决策过程(MDP
豆芽819
·
2025-04-21 23:43
tip
学习
人工智能
机器学习
深度学习
强化学习
论文阅读:2023 arxiv A Survey of
Reinforcement
Learning from Human Feedback
ASurveyof
Reinforcement
LearningfromHumanFeedbackhttps://arxiv.org/pdf/2312.14925https://www.doubao.com
CSPhD-winston-杨帆
·
2025-04-21 12:42
论文阅读
人工智能
第九章:强化学习(RL)赋能 AI Agents:潜力、挑战与问题建模
强化学习(
Reinforcement
Learning,RL)正是这样一条充满希望的道路。
(initial)
·
2025-04-18 18:08
AI
Agents
构建实战
人工智能
agent
从指令到聊天:LLM社区的重要发展
RLHF(
Reinforcement
LearningfromHumanFeedback)是一种通过人类反馈进行强化学习的技术,它在提高模型的有用性、诚实性和无害性方面起到了关键作用。
元楼
·
2025-04-18 06:47
RLHF
ChatML
大型语言模型
API变迁
指令模型与聊天模型
DeepSeek R1 简易指南:架构、本地部署和硬件要求
该研究突破性地采用强化学习(
Reinforcement
Learning)作为核心训练范式,在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。
m0_74825003
·
2025-04-14 19:43
面试
学习路线
阿里巴巴
架构
人工智能
强化学习原理python篇01——基本概念
trajectories,returns,andepisodesMDPs(Markovdecisionprocesses)Ref本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-
Reinforcement
-LearningBasicConcepts
WuRobb
·
2025-04-10 10:51
强化学习
机器学习
了解强化学习
#REINFORCEDSERIES(#REINFORCEDSERIES)“
Reinforcement
learning(RL)isanareaofmachinelearningconcernedwithhowsoftwareagentsoughttotakeactionsinanenvironmentinordertomaximizethenotionofcumulativereward
weixin_26704853
·
2025-04-10 10:20
python
强化学习
人工智能
强化学习原理一
强化学习原理,
Reinforcement
Learning简称RL。
jcc3120
·
2025-04-10 09:17
RL
深度学习
大模型论文速读DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning2025.1
全文摘要本文介绍了DeepSeek-R1及其两个版本:DeepSeek-R1-Zero和DeepSeek-R1。通过大规模强化学习(RL)训练的DeepSeek-R1-Zero具有出色的推理能力,并且自然地出现了许多强大的推理行为。然而,它也存在一些问题,如可读性差和语言混合等。为了解决这些问题并进一步提高推理性能,作者引入了DeepSeek-R1,该模型在多阶段训练和冷启动数据之前进行RL训练。
黛玛日孜
·
2025-04-06 22:20
大模型
#
大语言模型
人工智能
深度学习
解密强化学习心脏:从动态规划到Q-Learning的价值函数进化史
Q-Learning的崛起方法大比拼:DPvsMCvsTDvsQ-Learning实战演练:Q-Learning征服山地车总结与展望在人工智能的星辰大海中,强化学习(
Reinforcement
Learning
海棠AI实验室
·
2025-04-06 22:49
“智理探索“
-
深入AI理论与学术创新
动态规划
代理模式
算法
Q-Learning
Deep
Reinforcement
Learning for Robotics翻译解读2
1四足机器人行走控制(QuadrupedLocomotion)四足机器人是DRL在现实世界中应用较为成熟的领域之一。已有多家机器人公司(如ANYbotics、Swiss-Mile与BostonDynamics)将DRL集成到其四足控制系统中,应用场景包括工业巡检、末端配送和救援任务。DRL首先被用于“盲走”任务,即机器人完全依赖自身本体传感器(如关节角、IMU)在室内平坦地面上行走。这些策略通常通
MobiCetus
·
2025-04-05 22:38
数据挖掘
计算机视觉
机器学习
人工智能
深度学习
神经网络
生成对抗网络
小白入门机器学习概述
机器学习的类型(1)监督学习(SupervisedLearning)(2)无监督学习(UnsupervisedLearning)(3)半监督学习(Semi-SupervisedLearning)(4)强化学习(
Reinforcement
Learning
码事漫谈
·
2025-04-01 21:46
AI
机器学习
人工智能
AI Agent: AI的下一个风口 智能体与未来的关系
AIAgent:AI的下一个风口智能体与未来的关系关键词:智能体(Agent)、强化学习(
Reinforcement
Learning,RL)、神经网络(NeuralNetwork)、分布式系统(DistributedSystem
杭州大厂Java程序媛
·
2025-03-31 19:14
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
基于深度强化学习的智能机器人路径规划技术研究
近年来,深度强化学习(Deep
Reinforcement
Learning,DRL)技术为机器人路径规划带来了新的突破。
Blossom.118
·
2025-03-30 03:38
分布式系统与高性能计算领域
机器人
深度学习
强化学习
动态规划
路径规划
制造
人机交互
强化学习中循环神经网络在序列决策中的应用研究
I.引言强化学习(
Reinforcement
Learning,RL)是一种通过与环境交互学习最优策略的方法。
数字扫地僧
·
2025-03-28 21:39
计算机视觉
rnn
深度学习
神经网络
关于强化学习小记
强化学习(
Reinforcement
Learning,RL)详解1.什么是强化学习?
文弱_书生
·
2025-03-27 22:24
乱七八糟
神经网络
人工智能
强化学习
马尔科夫决策
SFT和RLHF是什么意思?
环境:SFTRLHF问题描述:SFT和RLHF是什么意思解决方案:SFT(SupervisedFine-Tuning,监督微调)和RLHF(
Reinforcement
LearningfromHumanFeedback
玩人工智能的辣条哥
·
2025-03-25 00:15
人工智能
人工智能
深度学习
机器学习
TicTacToe Module
/2025CONTENTS1TicTacToe12Contents32.1TicTacToeModule............................................32.2
Reinforcement
LearningPlayer
W_X_99515681
·
2025-03-23 19:03
python
开发语言
强化学习中策略网络模型设计与优化技巧
I.引言强化学习(
Reinforcement
Learning,RL)是一种通过与环境交互,学习如何采取行动以最大化累积奖励的机器学习方法。
数字扫地僧
·
2025-03-23 07:57
计算机视觉
深度学习
强化学习中的深度卷积神经网络设计与应用实例
I.引言强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,通过与环境的交互来学习最优策略。
数字扫地僧
·
2025-03-22 01:40
计算机视觉
cnn
人工智能
神经网络
推测未来Agentic形态:Dynamic Cognitive Contextual Agent with
Reinforcement
Learning (DCCA-RL)
在AIAgent设计模式领域,我们见证了从简单的ReAct到复杂的LATS的演进,这些模式通过反思、工具使用、规划和多代理协作,极大地提升了AI的自主性和智能性。然而,随着任务复杂度和动态性需求的增加,现有模式逐渐显现出局限性——多Agent协作带来的联合误差和单Agent设计的适应性不足。为此,我们基于对现有模式的全面分析,提出了一个更先进的单Agent框架:DynamicCognitiveCo
weixin_40941102
·
2025-03-20 21:40
语言模型
一切皆是映射:DQN训练加速技术:分布式训练与GPU并行
1.背景介绍1.1深度强化学习的兴起近年来,深度强化学习(Deep
Reinforcement
Learning,DRL)在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。
AI天才研究院
·
2025-03-20 18:45
计算
AI大模型企业级应用开发实战
ChatGPT
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
人工智能机器学习算法分类全解析
目录一、引言二、机器学习算法分类概述(一)基于学习方式的分类1.监督学习(SupervisedLearning)2.无监督学习(UnsupervisedLearning)3.强化学习(
Reinforcement
Learning
power-辰南
·
2025-03-12 07:08
人工智能
人工智能
机器学习
算法
python
【大模型学习】第八章 深入理解机器学习技术细节
SupervisedLearning)1.定义与工作原理2.常见任务3.应用场景示例:房价预测二、无监督学习(UnsupervisedLearning)1.定义与工作原理2.常见任务3.应用场景示例:客户细分三、强化学习(
Reinforcement
Learning
好多渔鱼好多
·
2025-03-06 16:57
AI大模型
机器学习
AI
大模型
人工智能
强化学习是否能够在完全不确定的环境中找到一个合理的策略,还是说它只能在已知规则下生效?
强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。
concisedistinct
·
2025-03-05 12:58
人工智能
人工智能
强化学习
PyTorch 中结合迁移学习和强化学习的完整实现方案
结合迁移学习(TransferLearning)和强化学习(
Reinforcement
Learning,RL)是解决复杂任务的有效方法。
小赖同学啊
·
2025-03-05 07:54
人工智能
pytorch
迁移学习
人工智能
【机器学习】
Reinforcement
Learning-强化学习基本概念
1、Q值与V值1.1Q值和V值的定义Q值:也称为动作价值函数,评估动作的价值,它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望,表示为Q(s,a),其中s是状态,a是动作。V值:评估状态的价值,也称为状态价值函数,表示为V(s),其中s是状态。它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的,都是衡量在马可洛夫树上某一个节点
长相忆兮长相忆
·
2025-03-05 02:42
深度学习
人工智能
算法
机器学习
强化学习与网络安全资源-论文和环境
TableofContentsRL-EnvironmentsPapersBooksBlogpostsTalksMiscellaneous↑EnvironmentsPentestingTrainingFrameworkfor
Reinforcement
LearningAgents
AI拉呱
·
2025-03-03 14:03
web安全
安全
强化学习——基本概念
何为强化学习机器学习的一大分支强化学习(
Reinforcement
Learning)是机器学习的一种,它通过与环境不断地交互,借助环境的反馈来调整自己的行为,使得累计回报最大。
AI大模型探索者
·
2025-03-01 17:06
人工智能
ai
深度学习
机器学习
语言模型
深入详解人工智能机器学习:强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习(
Reinforcement
Learning
猿享天开
·
2025-02-28 15:58
人工智能基础知识学习
人工智能
机器学习
强化学习
机器学习:强化学习的epsilon贪心算法
强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,旨在通过与环境交互,使智能体(Agent)学习如何采取最优行动,以最大化某种累积奖励。
田乐蒙
·
2025-02-28 15:25
Python
ML
机器学习
贪心算法
人工智能
【人工智能算法】人工智能算法都包括什么?请详细列出和解释
请详细列出和解释1.机器学习算法(MachineLearningAlgorithms)监督学习算法(SupervisedLearning)无监督学习算法(UnsupervisedLearning)强化学习算法(
Reinforcement
Learning
资源存储库
·
2025-02-27 22:08
算法
强化学习
人工智能
算法
ThinkJSON:通过强化学习让大型语言模型(LLM)严格遵守JSON模式
标题:ThinkInsidetheJSON:
Reinforcement
StrategyforStrictLLMSchemaAdherence作者:BhavikAgarwal,IshanJoshi,ViktoriaRojkova
AI仙人掌
·
2025-02-26 20:17
人工智能
深度学习
DeepSeek强化学习(
Reinforcement
Learning)基础与实践
引言强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,专注于训练智能体(Agent)在环境中通过试错来学习最优策略。
Evaporator Core
·
2025-02-25 23:44
强化学习
#
DeepSeek快速入门
人工智能
python
数据库
tornado
强化学习
deepseek
深入浅出机器学习:概念、算法与实践
目录引言机器学习的基本概念什么是机器学习机器学习的基本要素机器学习的主要类型监督学习(SupervisedLearning)无监督学习(UnsupervisedLearning)强化学习(
Reinforcement
Learning
倔强的小石头_
·
2025-02-23 11:43
AI
机器学习
算法
人工智能
强化学习:原理、概念与代码实践
一、引言强化学习(
Reinforcement
Learning)作为机器学习的一个重要分支,旨在通过智能体(agent)与环境的交互,学习到最优的行为策略,以最大化长期累积奖励。
AndrewHZ
·
2025-02-19 01:07
深度学习新浪潮
人工智能
深度学习
强化学习
机器学习
算法
deepseek
SFT(监督微调)和RLHF(基于人类反馈的强化学习)的区别
SFT(监督微调)和RLHF(基于人类反馈的强化学习)的区别STF(SupervisedFine-Tuning)和RLHF(
Reinforcement
LearningfromHumanFeedback)
钟小宇
·
2025-02-18 18:11
LLM
人工智能
语言模型
强化学习原理与代码实战案例讲解
强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,它关注的是智能体(Agent)如何在环境中通过与环境交互来学习最优的行为策略。
AI天才研究院
·
2025-02-18 05:53
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
强化学习在连续动作空间的应用:DDPG与TD3
1.背景介绍1.1强化学习简介强化学习(
Reinforcement
Learning,简称RL)是一种机器学习方法,它通过让智能体(Agent)在环境(Environment)中与环境进行交互,学习如何根据观察到的状态
AI天才研究院
·
2025-02-18 00:02
计算
AI大模型应用入门实战与进阶
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
计算
AI大模型应用
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning
DeepSeek-R1论文解析1.论文基本信息标题:DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning作者
大表哥汽车人
·
2025-02-15 02:40
人工智能
大语言模型学习笔记
论文阅读
人工智能
deepseek
书籍-《强化学习数学基础》
书籍:MathematicalFoundationsof
Reinforcement
Learning作者:赵世钰出版:Springer编辑:陈萍萍的公主@一点人工一点智能下载:书籍下载-《强化学习数学基础
·
2025-02-13 20:48
强化学习数学人工智能
强化学习算法:蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解
强化学习算法:蒙特卡洛树搜索(MonteCarloTreeSearch)原理与代码实例讲解关键词:蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习(
Reinforcement
Learning
杭州大厂Java程序媛
·
2025-02-13 07:02
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
deepseek学习笔记
1、deepseek的论文deepseek的论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning》于
wsnzou
·
2025-02-11 10:40
学习
笔记
一切皆是映射:域适应在DQN中的研究进展与挑战
1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(Deep
Reinforcement
Learning,DRL)在近年来取得了瞩目的成就,从Atari游戏到围棋,再到机器人控制,其强大的学习能力令人惊叹
AI天才研究院
·
2025-02-10 00:33
计算
AI大模型企业级应用开发实战
ChatGPT
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning论文解读
贡献后训练:基础模型的大规模强化学习蒸馏:较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2.DeepSeek-R1-Zero:
Reinforcement
LearningontheBaseModel
Reinforcement
LearningAlgorithm
tangjunjun-owen
·
2025-02-09 23:54
paper解读
DeepSeek
R1
DeepSeek
zero
大语言模型
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
本文将深入探讨LLMs的训练过程,特别是强化学习(
Reinforcement
Learning,RL)(深度解析DeepSeekR1:强化学习与知识蒸馏的协同力量)在这一领域的应用,从TRP
大模型之路
·
2025-02-08 20:03
强化学习
大模型(LLM)
人工智能
LLM
强化学习
deepseek
GRPO
TRPO
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他