E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ReinForcement
【大模型学习】第八章 深入理解机器学习技术细节
SupervisedLearning)1.定义与工作原理2.常见任务3.应用场景示例:房价预测二、无监督学习(UnsupervisedLearning)1.定义与工作原理2.常见任务3.应用场景示例:客户细分三、强化学习(
Reinforcement
Learning
好多渔鱼好多
·
2025-03-06 16:57
AI大模型
机器学习
AI
大模型
人工智能
强化学习是否能够在完全不确定的环境中找到一个合理的策略,还是说它只能在已知规则下生效?
强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。
concisedistinct
·
2025-03-05 12:58
人工智能
人工智能
强化学习
PyTorch 中结合迁移学习和强化学习的完整实现方案
结合迁移学习(TransferLearning)和强化学习(
Reinforcement
Learning,RL)是解决复杂任务的有效方法。
小赖同学啊
·
2025-03-05 07:54
人工智能
pytorch
迁移学习
人工智能
【机器学习】
Reinforcement
Learning-强化学习基本概念
1、Q值与V值1.1Q值和V值的定义Q值:也称为动作价值函数,评估动作的价值,它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望,表示为Q(s,a),其中s是状态,a是动作。V值:评估状态的价值,也称为状态价值函数,表示为V(s),其中s是状态。它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的,都是衡量在马可洛夫树上某一个节点
长相忆兮长相忆
·
2025-03-05 02:42
深度学习
人工智能
算法
机器学习
强化学习与网络安全资源-论文和环境
TableofContentsRL-EnvironmentsPapersBooksBlogpostsTalksMiscellaneous↑EnvironmentsPentestingTrainingFrameworkfor
Reinforcement
LearningAgents
AI拉呱
·
2025-03-03 14:03
web安全
安全
强化学习——基本概念
何为强化学习机器学习的一大分支强化学习(
Reinforcement
Learning)是机器学习的一种,它通过与环境不断地交互,借助环境的反馈来调整自己的行为,使得累计回报最大。
AI大模型探索者
·
2025-03-01 17:06
人工智能
ai
深度学习
机器学习
语言模型
深入详解人工智能机器学习:强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习(
Reinforcement
Learning
猿享天开
·
2025-02-28 15:58
人工智能基础知识学习
人工智能
机器学习
强化学习
机器学习:强化学习的epsilon贪心算法
强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,旨在通过与环境交互,使智能体(Agent)学习如何采取最优行动,以最大化某种累积奖励。
田乐蒙
·
2025-02-28 15:25
Python
ML
机器学习
贪心算法
人工智能
【人工智能算法】人工智能算法都包括什么?请详细列出和解释
请详细列出和解释1.机器学习算法(MachineLearningAlgorithms)监督学习算法(SupervisedLearning)无监督学习算法(UnsupervisedLearning)强化学习算法(
Reinforcement
Learning
资源存储库
·
2025-02-27 22:08
算法
强化学习
人工智能
算法
ThinkJSON:通过强化学习让大型语言模型(LLM)严格遵守JSON模式
标题:ThinkInsidetheJSON:
Reinforcement
StrategyforStrictLLMSchemaAdherence作者:BhavikAgarwal,IshanJoshi,ViktoriaRojkova
AI仙人掌
·
2025-02-26 20:17
人工智能
深度学习
DeepSeek强化学习(
Reinforcement
Learning)基础与实践
引言强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,专注于训练智能体(Agent)在环境中通过试错来学习最优策略。
Evaporator Core
·
2025-02-25 23:44
强化学习
#
DeepSeek快速入门
人工智能
python
数据库
tornado
强化学习
deepseek
深入浅出机器学习:概念、算法与实践
目录引言机器学习的基本概念什么是机器学习机器学习的基本要素机器学习的主要类型监督学习(SupervisedLearning)无监督学习(UnsupervisedLearning)强化学习(
Reinforcement
Learning
倔强的小石头_
·
2025-02-23 11:43
AI
机器学习
算法
人工智能
强化学习:原理、概念与代码实践
一、引言强化学习(
Reinforcement
Learning)作为机器学习的一个重要分支,旨在通过智能体(agent)与环境的交互,学习到最优的行为策略,以最大化长期累积奖励。
AndrewHZ
·
2025-02-19 01:07
深度学习新浪潮
人工智能
深度学习
强化学习
机器学习
算法
deepseek
SFT(监督微调)和RLHF(基于人类反馈的强化学习)的区别
SFT(监督微调)和RLHF(基于人类反馈的强化学习)的区别STF(SupervisedFine-Tuning)和RLHF(
Reinforcement
LearningfromHumanFeedback)
钟小宇
·
2025-02-18 18:11
LLM
人工智能
语言模型
强化学习原理与代码实战案例讲解
强化学习(
Reinforcement
Learning,RL)是机器学习的一个重要分支,它关注的是智能体(Agent)如何在环境中通过与环境交互来学习最优的行为策略。
AI天才研究院
·
2025-02-18 05:53
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
强化学习在连续动作空间的应用:DDPG与TD3
1.背景介绍1.1强化学习简介强化学习(
Reinforcement
Learning,简称RL)是一种机器学习方法,它通过让智能体(Agent)在环境(Environment)中与环境进行交互,学习如何根据观察到的状态
AI天才研究院
·
2025-02-18 00:02
计算
AI大模型应用入门实战与进阶
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
计算
AI大模型应用
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning
DeepSeek-R1论文解析1.论文基本信息标题:DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning作者
大表哥汽车人
·
2025-02-15 02:40
人工智能
大语言模型学习笔记
论文阅读
人工智能
deepseek
书籍-《强化学习数学基础》
书籍:MathematicalFoundationsof
Reinforcement
Learning作者:赵世钰出版:Springer编辑:陈萍萍的公主@一点人工一点智能下载:书籍下载-《强化学习数学基础
·
2025-02-13 20:48
强化学习数学人工智能
强化学习算法:蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解
强化学习算法:蒙特卡洛树搜索(MonteCarloTreeSearch)原理与代码实例讲解关键词:蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习(
Reinforcement
Learning
杭州大厂Java程序媛
·
2025-02-13 07:02
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
deepseek学习笔记
1、deepseek的论文deepseek的论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning》于
wsnzou
·
2025-02-11 10:40
学习
笔记
一切皆是映射:域适应在DQN中的研究进展与挑战
1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(Deep
Reinforcement
Learning,DRL)在近年来取得了瞩目的成就,从Atari游戏到围棋,再到机器人控制,其强大的学习能力令人惊叹
AI天才研究院
·
2025-02-10 00:33
计算
AI大模型企业级应用开发实战
ChatGPT
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning论文解读
贡献后训练:基础模型的大规模强化学习蒸馏:较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2.DeepSeek-R1-Zero:
Reinforcement
LearningontheBaseModel
Reinforcement
LearningAlgorithm
tangjunjun-owen
·
2025-02-09 23:54
paper解读
DeepSeek
R1
DeepSeek
zero
大语言模型
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
本文将深入探讨LLMs的训练过程,特别是强化学习(
Reinforcement
Learning,RL)(深度解析DeepSeekR1:强化学习与知识蒸馏的协同力量)在这一领域的应用,从TRP
大模型之路
·
2025-02-08 20:03
强化学习
大模型(LLM)
人工智能
LLM
强化学习
deepseek
GRPO
TRPO
【论文阅读】DeepSeek-R1:通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
LearningDeepSeek-R1:通过强化学习激励LLMs的推理能力
AI天才研究院
·
2025-02-07 22:05
DeepSeek
R1
&
大数据AI人工智能大模型
DeepSeek
计算
论文阅读
deepseek
agi
ai
llm
agent
cot
gym-anytrading
参考:https://github.com/upb-lea/gym-electric-motorAnyTrading是一组基于
reinforcement
learning(RL)的tradingalgorithms
AAA客服小高
·
2025-02-06 07:16
人工智能
LLM 算法工程师的速成指南:微调、强化学习微调与偏好微调
OpenAI近期在直播中,提到了两个新的概念:①强化学习微调(
Reinforcement
Fine-Tuning):仅需少量高质量数据(数十到数千个),模型即可通过强化学习处理复杂任务。
大模型玩家
·
2025-02-05 16:24
算法
机器学习
深度学习
chatgpt
人工智能
ai
大模型
Reinforcement
Learning 通过强化学习激励大型语言模型的推理能力
论文链接:[2501.12948]DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning实在太长,自行扔到Model
davenian
·
2025-02-03 18:56
评论
语言模型
人工智能
深度学习
DeepSeek
AI模型升级版0.02
同时,我会结合最新的技术趋势,例如强化微调(
Reinforcement
Fine-Tuning),来提升模型的性能。步骤1:安装必要的库首先,确保您的Windows系统上安装了Python(推荐Pyth
pps-key
·
2025-02-03 02:51
python
AI写作
学习
gpt
【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记
High-DimensionalContinuousControlUsingGeneralizedAdvantageEstimation摘要Policygradientmethods在
reinforcement
learning
songyuc
·
2025-02-02 06:50
笔记
DeepSeek R1 简易指南:架构、培训、本地部署和硬件要求
该研究突破性地采用强化学习(
Reinforcement
Learning)作为核心训练范式,在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。
·
2025-02-01 16:49
前端javascript
强化学习在自动驾驶中的实现与挑战
而强化学习(
Reinforcement
Learning,RL),作为机器学习的一大分支,在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程,为车辆提供动态、灵活的导航与控制能力。
Echo_Wish
·
2025-01-31 20:55
人工智能
前沿技术
自动驾驶
人工智能
机器学习
AI:263-强化学习在自动驾驶领域的应用与前沿挑战
强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向,而强化学习(
Reinforcement
Learning,RL)因其在复杂动态环境中的决策能力,成为推动自动驾驶技术的重要工具
一键难忘
·
2025-01-31 20:24
精通AI实战千例专栏合集
自动驾驶汽车
强化学习
人工智能
论文笔记(七十)DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning(二)
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning(二)文章概括摘要:2.方法2.3.DeepSeek-R1
墨绿色的摆渡人
·
2025-01-31 07:01
文章
论文阅读
Rust中奖励函数的实现与应用
禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词:Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域,特别是在强化学习(
Reinforcement
Learning
AI天才研究院
·
2025-01-30 07:45
计算
AI大模型企业级应用开发实战
大数据AI人工智能
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
【DL】神经网络与机器学习基础知识介绍(一)
文章目录基本通用概念梯度下降算法数据工程训练技术偏差与方差防止过拟合评估指标决策树基本通用概念机器学习的类型:监督学习(SupervisedLearning):分类,回归无监督学习(UnsupervisedLearning):聚类,降维强化学习(
Reinforcement
Learn
MengWoods
·
2025-01-30 01:01
深度学习
机器学习
神经网络
人工智能
强化学习中,为什么用AC架构
AC架构的工作原理AC架构的优缺点优点:缺点:相关算法:基于AC架构的算法总结强化学习中,为什么用AC架构在强化学习(
Reinforcement
Learning,RL)中,AC架构(即Actor-Critic
资源存储库
·
2025-01-29 01:25
算法
强化学习
算法
【llm对话系统】RL强化学习的技术演进与RLHF
一、强化学习基础知识强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward
kakaZhui
·
2025-01-28 00:47
人工智能
chatgpt
llama
智能推理的革命:DeepSeek-R1 深度解析其算法与实现
DeepSeek-R1的出现,正是为了解决这一问题,通过强化学习(
Reinforcement
Learning,RL)赋予语言模型更强大的推理能力,开创了LLMs
步子哥
·
2025-01-26 04:26
算法
人工智能
深度强化学习(DRL)原理与代码实战案例讲解
1.2强化学习:智能体与环境的互动强化学习(
Reinforcement
Lea
AI大模型应用之禅
·
2025-01-19 09:27
AI大模型与大数据
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
【机器学习:三十二、强化学习:理论与应用】
1.强化学习概述**强化学习(
Reinforcement
Learning,RL)**是一种机器学习方法,旨在通过试验与反馈的交互,使智能体(Agent)在动态环境中学习决策策略,以最大化累积奖励(CumulativeReward
KeyPan
·
2025-01-19 09:19
机器学习
机器学习
机器人
人工智能
深度学习
数据挖掘
学习日志6
关于量子强化学习:论文Variational_Quantum_Circuits_for_Deep_
Reinforcement
_Learning:变分量子电路在深度强化学习中的应用论文主要内容:将经典深度强化学习算法
Simon#0209
·
2024-09-02 22:21
学习
探索智能边缘计算:Game-Theoretic-Deep-
Reinforcement
-Learning
探索智能边缘计算:Game-Theoretic-Deep-
Reinforcement
-LearningGame-Theoretic-Deep-
Reinforcement
-LearningCodeofPaper"JointTaskOffloadingandResourceOptimizationinNOMA-basedVehicularEdgeComputing
瞿旺晟
·
2024-09-02 06:41
深度学习学习经验——强化学习(rl)
强化学习强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,主要用于让智能体(agent)通过与环境的互动,逐步学习如何在不同情况下采取最佳行动,以最大化其获得的累积回报。
Linductor
·
2024-08-27 06:32
深度学习学习经验
深度学习
学习
人工智能
你的DDPG/RDPG为何不收敛?
去年11月份左右,因为研究需要,了解了一下强化学习(
Reinforcement
lea
Mario-Chao
·
2024-03-22 23:00
强化学习笔记
强化学习笔记-简介本文是根据Sutton的经典书籍«
Reinforcement
Learning:AnIntroduction»前三章内容整理的笔记。
小新0077
·
2024-02-20 03:10
强化学习
机器学习
马尔科夫决策过程
Q学习
交通流优化的一种强化学习方法
文章信息《Trafficflowoptimization:A
reinforcement
learningapproach》是2016年发表在EngineeringApplicationsofArtificialIntelligence
当交通遇上机器学习
·
2024-02-13 14:40
算法
大数据
编程语言
python
计算机视觉
「自然语言处理(NLP)」自然语言生成(NLG)论文速递(1)
ShuYini时间:2020-02-27引言:下面是作者整理的关于自然语言生成(NLG)相关的论文文章,能找到源码的作者也直接贴出来了,如果你对NLG感兴趣或者也在找一些相关的文章,希望能够帮助你~~TILE:
Reinforcement
LearningBasedGraph-to-SequenceModelforNatural
Shu灬下雨天
·
2024-02-13 08:56
强化学习中的无模型控制
Model-FreeControlin
Reinforcement
Learning 在modelfreecontrol中的第一个概念就是on-policy和off-policy,在现实中的很多问题
小小何先生
·
2024-02-12 16:17
王树森:学 DRL 走过的弯路太多,想让大家避开(文末赠送福利)
大家都知道,深度强化学习(Deep
Reinforcement
Learning,DRL)就是应用了神经网络的强化学习。而强化学习是机器学习的一个分支,研究如何基于对环境的观测做出决策,以最大化长期回报。
人工智能与算法学习
·
2024-02-12 15:43
使用强化学习快速让AI学会玩贪食蛇游戏(轻量级二十分钟训练+代码)
玩会贪食蛇,甚至比你厉害概述构建问题(强化学习求解的一般步骤)环境动作定义状态定义奖励设计训练奖励值收敛图采用第4种状态定义方法初步训练效果最终训练效果模型泛化迁移能力代码概述所用技术:强化学习(Deep
Reinforcement
Learning
Y. F. Zhang
·
2024-02-08 09:24
强化学习
强化学习
算法
游戏
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他