E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
ReinForcement
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning
DeepSeek-R1论文解析1.论文基本信息标题:DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning作者
大表哥汽车人
·
2025-02-15 02:40
人工智能
大语言模型学习笔记
论文阅读
人工智能
deepseek
书籍-《强化学习数学基础》
书籍:MathematicalFoundationsof
Reinforcement
Learning作者:赵世钰出版:Springer编辑:陈萍萍的公主@一点人工一点智能下载:书籍下载-《强化学习数学基础
·
2025-02-13 20:48
强化学习数学人工智能
强化学习算法:蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解
强化学习算法:蒙特卡洛树搜索(MonteCarloTreeSearch)原理与代码实例讲解关键词:蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习(
Reinforcement
Learning
杭州大厂Java程序媛
·
2025-02-13 07:02
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
deepseek学习笔记
1、deepseek的论文deepseek的论文《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning》于
wsnzou
·
2025-02-11 10:40
学习
笔记
一切皆是映射:域适应在DQN中的研究进展与挑战
1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(Deep
Reinforcement
Learning,DRL)在近年来取得了瞩目的成就,从Atari游戏到围棋,再到机器人控制,其强大的学习能力令人惊叹
AI天才研究院
·
2025-02-10 00:33
计算
AI大模型企业级应用开发实战
ChatGPT
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning论文解读
贡献后训练:基础模型的大规模强化学习蒸馏:较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2.DeepSeek-R1-Zero:
Reinforcement
LearningontheBaseModel
Reinforcement
LearningAlgorithm
tangjunjun-owen
·
2025-02-09 23:54
paper解读
DeepSeek
R1
DeepSeek
zero
大语言模型
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
本文将深入探讨LLMs的训练过程,特别是强化学习(
Reinforcement
Learning,RL)(深度解析DeepSeekR1:强化学习与知识蒸馏的协同力量)在这一领域的应用,从TRP
大模型之路
·
2025-02-08 20:03
强化学习
大模型(LLM)
人工智能
LLM
强化学习
deepseek
GRPO
TRPO
【论文阅读】DeepSeek-R1:通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
LearningDeepSeek-R1:通过强化学习激励LLMs的推理能力
AI天才研究院
·
2025-02-07 22:05
DeepSeek
R1
&
大数据AI人工智能大模型
DeepSeek
计算
论文阅读
deepseek
agi
ai
llm
agent
cot
gym-anytrading
参考:https://github.com/upb-lea/gym-electric-motorAnyTrading是一组基于
reinforcement
learning(RL)的tradingalgorithms
AAA客服小高
·
2025-02-06 07:16
人工智能
LLM 算法工程师的速成指南:微调、强化学习微调与偏好微调
OpenAI近期在直播中,提到了两个新的概念:①强化学习微调(
Reinforcement
Fine-Tuning):仅需少量高质量数据(数十到数千个),模型即可通过强化学习处理复杂任务。
大模型玩家
·
2025-02-05 16:24
算法
机器学习
深度学习
chatgpt
人工智能
ai
大模型
Reinforcement
Learning 通过强化学习激励大型语言模型的推理能力
论文链接:[2501.12948]DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning实在太长,自行扔到Model
davenian
·
2025-02-03 18:56
评论
语言模型
人工智能
深度学习
DeepSeek
AI模型升级版0.02
同时,我会结合最新的技术趋势,例如强化微调(
Reinforcement
Fine-Tuning),来提升模型的性能。步骤1:安装必要的库首先,确保您的Windows系统上安装了Python(推荐Pyth
pps-key
·
2025-02-03 02:51
python
AI写作
学习
gpt
【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记
High-DimensionalContinuousControlUsingGeneralizedAdvantageEstimation摘要Policygradientmethods在
reinforcement
learning
songyuc
·
2025-02-02 06:50
笔记
DeepSeek R1 简易指南:架构、培训、本地部署和硬件要求
该研究突破性地采用强化学习(
Reinforcement
Learning)作为核心训练范式,在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。
·
2025-02-01 16:49
前端javascript
强化学习在自动驾驶中的实现与挑战
而强化学习(
Reinforcement
Learning,RL),作为机器学习的一大分支,在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程,为车辆提供动态、灵活的导航与控制能力。
Echo_Wish
·
2025-01-31 20:55
人工智能
前沿技术
自动驾驶
人工智能
机器学习
AI:263-强化学习在自动驾驶领域的应用与前沿挑战
强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向,而强化学习(
Reinforcement
Learning,RL)因其在复杂动态环境中的决策能力,成为推动自动驾驶技术的重要工具
一键难忘
·
2025-01-31 20:24
精通AI实战千例专栏合集
自动驾驶汽车
强化学习
人工智能
论文笔记(七十)DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement
Learning(二)
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsvia
Reinforcement
Learning(二)文章概括摘要:2.方法2.3.DeepSeek-R1
墨绿色的摆渡人
·
2025-01-31 07:01
文章
论文阅读
Rust中奖励函数的实现与应用
禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词:Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域,特别是在强化学习(
Reinforcement
Learning
AI天才研究院
·
2025-01-30 07:45
计算
AI大模型企业级应用开发实战
大数据AI人工智能
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
【DL】神经网络与机器学习基础知识介绍(一)
文章目录基本通用概念梯度下降算法数据工程训练技术偏差与方差防止过拟合评估指标决策树基本通用概念机器学习的类型:监督学习(SupervisedLearning):分类,回归无监督学习(UnsupervisedLearning):聚类,降维强化学习(
Reinforcement
Learn
MengWoods
·
2025-01-30 01:01
深度学习
机器学习
神经网络
人工智能
强化学习中,为什么用AC架构
AC架构的工作原理AC架构的优缺点优点:缺点:相关算法:基于AC架构的算法总结强化学习中,为什么用AC架构在强化学习(
Reinforcement
Learning,RL)中,AC架构(即Actor-Critic
资源存储库
·
2025-01-29 01:25
算法
强化学习
算法
【llm对话系统】RL强化学习的技术演进与RLHF
一、强化学习基础知识强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward
kakaZhui
·
2025-01-28 00:47
人工智能
chatgpt
llama
智能推理的革命:DeepSeek-R1 深度解析其算法与实现
DeepSeek-R1的出现,正是为了解决这一问题,通过强化学习(
Reinforcement
Learning,RL)赋予语言模型更强大的推理能力,开创了LLMs
步子哥
·
2025-01-26 04:26
算法
人工智能
深度强化学习(DRL)原理与代码实战案例讲解
1.2强化学习:智能体与环境的互动强化学习(
Reinforcement
Lea
AI大模型应用之禅
·
2025-01-19 09:27
AI大模型与大数据
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
【机器学习:三十二、强化学习:理论与应用】
1.强化学习概述**强化学习(
Reinforcement
Learning,RL)**是一种机器学习方法,旨在通过试验与反馈的交互,使智能体(Agent)在动态环境中学习决策策略,以最大化累积奖励(CumulativeReward
KeyPan
·
2025-01-19 09:19
机器学习
机器学习
机器人
人工智能
深度学习
数据挖掘
学习日志6
关于量子强化学习:论文Variational_Quantum_Circuits_for_Deep_
Reinforcement
_Learning:变分量子电路在深度强化学习中的应用论文主要内容:将经典深度强化学习算法
Simon#0209
·
2024-09-02 22:21
学习
探索智能边缘计算:Game-Theoretic-Deep-
Reinforcement
-Learning
探索智能边缘计算:Game-Theoretic-Deep-
Reinforcement
-LearningGame-Theoretic-Deep-
Reinforcement
-LearningCodeofPaper"JointTaskOffloadingandResourceOptimizationinNOMA-basedVehicularEdgeComputing
瞿旺晟
·
2024-09-02 06:41
深度学习学习经验——强化学习(rl)
强化学习强化学习(
Reinforcement
Learning,RL)是一种机器学习方法,主要用于让智能体(agent)通过与环境的互动,逐步学习如何在不同情况下采取最佳行动,以最大化其获得的累积回报。
Linductor
·
2024-08-27 06:32
深度学习学习经验
深度学习
学习
人工智能
你的DDPG/RDPG为何不收敛?
去年11月份左右,因为研究需要,了解了一下强化学习(
Reinforcement
lea
Mario-Chao
·
2024-03-22 23:00
强化学习笔记
强化学习笔记-简介本文是根据Sutton的经典书籍«
Reinforcement
Learning:AnIntroduction»前三章内容整理的笔记。
小新0077
·
2024-02-20 03:10
强化学习
机器学习
马尔科夫决策过程
Q学习
交通流优化的一种强化学习方法
文章信息《Trafficflowoptimization:A
reinforcement
learningapproach》是2016年发表在EngineeringApplicationsofArtificialIntelligence
当交通遇上机器学习
·
2024-02-13 14:40
算法
大数据
编程语言
python
计算机视觉
「自然语言处理(NLP)」自然语言生成(NLG)论文速递(1)
ShuYini时间:2020-02-27引言:下面是作者整理的关于自然语言生成(NLG)相关的论文文章,能找到源码的作者也直接贴出来了,如果你对NLG感兴趣或者也在找一些相关的文章,希望能够帮助你~~TILE:
Reinforcement
LearningBasedGraph-to-SequenceModelforNatural
Shu灬下雨天
·
2024-02-13 08:56
强化学习中的无模型控制
Model-FreeControlin
Reinforcement
Learning 在modelfreecontrol中的第一个概念就是on-policy和off-policy,在现实中的很多问题
小小何先生
·
2024-02-12 16:17
王树森:学 DRL 走过的弯路太多,想让大家避开(文末赠送福利)
大家都知道,深度强化学习(Deep
Reinforcement
Learning,DRL)就是应用了神经网络的强化学习。而强化学习是机器学习的一个分支,研究如何基于对环境的观测做出决策,以最大化长期回报。
人工智能与算法学习
·
2024-02-12 15:43
使用强化学习快速让AI学会玩贪食蛇游戏(轻量级二十分钟训练+代码)
玩会贪食蛇,甚至比你厉害概述构建问题(强化学习求解的一般步骤)环境动作定义状态定义奖励设计训练奖励值收敛图采用第4种状态定义方法初步训练效果最终训练效果模型泛化迁移能力代码概述所用技术:强化学习(Deep
Reinforcement
Learning
Y. F. Zhang
·
2024-02-08 09:24
强化学习
强化学习
算法
游戏
人工智能
【RL】Basic Concepts in
Reinforcement
Learning
Lecture1:BasicConceptsin
Reinforcement
LearningMDP(MarkovDecisionProcess)KeyElementsofMDPSetState:ThesetofstatesS
大白菜~
·
2024-02-07 04:24
人工智能
机器学习
算法
人工智能
深度学习
DQN的理论研究回顾
DQN的理论研究回顾1.DQN简介强化学习(RL)(
Reinforcement
learning:Anintroduction,2nd,
Reinforcement
LearningandOptimalControl
Jay Morein
·
2024-02-06 12:50
强化学习与多智能体
深度学习
学习
论文阅读-一种用于大规模分布式文件系统中基于深度强化学习的自适应元数据管理方案
名称:AnAdaptiveMetadataManagementSchemeBasedonDeep
Reinforcement
LearningforLarge-ScaleDistributedFileSystemsI
向来痴_
·
2024-02-03 17:59
论文阅读
Python 实战人工智能数学基础:强化学习
1.背景介绍强化学习(
Reinforcement
Learning,简称RL)是一种人工智能技术,它旨在让计算机代理在与环境的交互中学习如何执行行动,以最大化累积奖励。
Python人工智能大数据
·
2024-02-02 20:46
Python入门实战
Java入门实战
React入门实战
大数据
人工智能
语言模型
Java
Python
React
架构设计
【具身智能】论文系列解读-RL-ViGen & ArrayBot & USEEK
1.RL-ViGen:视觉泛化的强化学习基准RL-ViGen:A
Reinforcement
LearningBenchmarkforVisualGeneralization0摘要与总结视觉强化学习(VisualRL
JackCrum
·
2024-02-01 22:05
具身智能
LLM
神经网络
人工智能
深度强化学习(王树森)笔记11
参考链接Deep
Reinforcement
Learning官方链接:https://github.com/wangshusen/DRL源代码链接:https://github.com/DeepRLChinese
阿正的梦工坊
·
2024-02-01 20:38
Reinforcement
Learning
强化学习
强化学习-论文调研-泛化性能力增强和度量
[ICML2019]QuantifyingGeneralizationin
Reinforcement
Learning文章提出16000多个单智能体闯关游戏CoinRun,通过智能体在分割开的训练环境和测试环境上表现的性能作为
BIT龙超越
·
2024-01-31 18:38
人工智能
深度学习
AAAI 2020多智能体强化论文
强化学习最新论文汇总如有错误,欢迎指正所引用内容链接Multi-AgentRL1.PartnerSelectionfortheEmergenceofCooperationinMulti‐AgentSystemsusing
Reinforcement
Learning2
rockray21
·
2024-01-31 18:08
强化学习
强化学习
icra2021
reinforcement
learning paper list
reinforcement
learningAutonomousVehicleNavigationDeep
Reinforcement
LearningforMaplessNavigationofaHybridAerialUnderwaterVehiclewithMediumTransition
吃醋不吃辣的雷儿
·
2024-01-31 08:09
深度强化学习(王树森)笔记09
参考链接Deep
Reinforcement
Learning官方链接:https://github.com/wangshusen/DRL源代码链接:https://github.com/DeepRLChinese
阿正的梦工坊
·
2024-01-30 09:19
Reinforcement
Learning
强化学习
深度强化学习(王树森)笔记07
参考链接Deep
Reinforcement
Learning官方链接:https://github.com/wangshusen/DRL源代码链接:https://github.com/DeepRLChinese
阿正的梦工坊
·
2024-01-30 00:53
Reinforcement
Learning
强化学习
深度强化学习(王树森)笔记06
参考链接Deep
Reinforcement
Learning官方链接:https://github.com/wangshusen/DRL源代码链接:https://github.com/DeepRLChinese
阿正的梦工坊
·
2024-01-29 12:01
Reinforcement
Learning
强化学习
人工智能时代的十大核心技术:重塑未来的无限可能 - 第八章 - 深度增强学习,开启AI智能新篇章
其中,深度增强学习(Deep
Reinforcement
Learning,DRL)作为AI领域的一颗璀璨明星,正引领着AI系统在复杂环境中实现更高的智能水平。那么,深度增强学习究竟是什么呢?
百家峰会
·
2024-01-29 12:59
人工智能
深度学习
人工智能
深度强化学习之策略学习-王树森课程笔记
学习资料深度强化学习课程-王树森目录一、Policy-basedlearning二、PolicyNetwork三、Policy-Based
Reinforcement
Learning(策略学习)1.用神经网络近似状态价值函数
淀粉爱好者
·
2024-01-29 03:23
学习
神经网络
深度学习
机器学习
深度强化学习(王树森)笔记04
参考链接Deep
Reinforcement
Learning官方链接:https://github.com/wangshusen/DRL源代码链接:https://github.com/DeepRLChinese
阿正的梦工坊
·
2024-01-29 03:19
Reinforcement
Learning
强化学习
【机器学习】强化学习(八)-深度确定性策略梯度(DDPG)算法及LunarLanderContinuous-v2环境训练示例...
训练效果DDPG算法是一种基于演员-评论家(Actor-Critic)框架的深度强化学习(Deep
Reinforcement
Learning)算法,它可以处理连续动作空间的问题。
十年一梦实验室
·
2024-01-28 09:53
机器学习
算法
python
pytorch
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他