E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
rl
Android仿人人客户端(v5(2)
@OverrideprotectedvoidsetupView(){mTopNavbar=(TopNavbar)findViewById(R.id.
rl
_top_navbar);mWebView=(WebView
2401_87555477
·
2025-02-24 04:42
android
harmonyos
华为
通俗理解Test time Scaling Law、
RL
Scaling Law和预训练Scaling Law
一、ScalingLaw解释1、预训练阶段的ScalingLaw(打地基阶段)通俗解释:就像建房子时,地基越大、材料越多、施工时间越长,房子就能盖得越高越稳。核心:通过堆资源(算力、数据、模型参数)让AI变得更聪明。具体含义:在预训练阶段(比如训练GPT这种大模型),模型的表现取决于三个核心因素:模型参数(房子的“大小”):神经元越多,模型越“聪明”。数据量(砖头的“数量”):喂给模型的文本越多,
老A的AI实验室
·
2025-02-23 16:12
#
【LLM】
人工智能
chatgpt
深度学习
LLM
agi
算法
RL
deepseek和ChatGPT 4o比较
后训练+
RL
/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”(后训练+SFT/
RL
/RLHF),使其不仅知道得多还用得好
调皮的芋头
·
2025-02-19 02:46
chatgpt
人工智能
强化学习原理与代码实战案例讲解
强化学习(ReinforcementLearning,
RL
)是机器学习的一个重要分支,它关注的是智能体(Agent)如何在环境中通过与环境交互来学习最优的行为策略。
AI天才研究院
·
2025-02-18 05:53
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
强化学习在连续动作空间的应用:DDPG与TD3
1.背景介绍1.1强化学习简介强化学习(ReinforcementLearning,简称
RL
)是一种机器学习方法,它通过让智能体(Agent)在环境(Environment)中与环境进行交互,学习如何根据观察到的状态
AI天才研究院
·
2025-02-18 00:02
计算
AI大模型应用入门实战与进阶
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
计算
AI大模型应用
DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析
DeepSeek-R1-Zero与DeepSeek-R1的异同与优劣分析一、相同点核心训练方法:两者均基于强化学习(
RL
),采用GroupRelativePolicyOptimization(GRPO)
AI生成曾小健
·
2025-02-16 04:34
Deepseek原理与使用
人工智能
Deepseek背后的强化学习
RL
入门理解和Python脚本实现
强化学习简单原理强化学习是一种让智能体通过与环境的交互来学习最优行为策略的方法。想象一下,你有一只小狗,你想让它学会自己找到回家的路。你可以给小狗一些奖励(比如小零食),当它做出正确的动作(比如向家的方向走)时,就给它奖励;当它走错方向时,就不给奖励。小狗会逐渐学会哪些动作能获得奖励,从而找到回家的路。强化学习中的智能体就像是这只小狗,环境就是小狗所处的世界,奖励就是你给它的零食。在强化学习中,智
大F的智能小课
·
2025-02-14 12:54
人工智能
【必看】凭啥?DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能
其核心策略包括减少监督微调(SFT)步骤,仅依赖强化学习(
RL
)技术。DeepSeek-R1-Zero版本完全跳过SFT,仅通过
RL
进行训练。
大F的智能小课
·
2025-02-13 21:51
人工智能
算法
强化学习算法:蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解
MonteCarloTreeSearch)原理与代码实例讲解关键词:蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习(ReinforcementLearning,
RL
杭州大厂Java程序媛
·
2025-02-13 07:02
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
mnist数据集下载及使用
#mnist数据集在百度云盘里#链接:https://pan.baidu.com/s/1ca2
rL
2-0_JLtnH1YQ3otvA#提取码:uq3d#pytorch自带数据集的使用importtorchvisionfromtorchvision.datasetsimportMNISTmnist
小句
·
2025-02-12 21:21
pytorch
机器学习
AI分支知识之机器学习,深度学习,强化学习的关系
机器学习,深度学习,强化学习的关系这一篇文章我们来探讨下AI领域中机器学习(ML)、深度学习(DL)和强化学习(
RL
)的关系。
王钧石的技术博客
·
2025-02-11 08:55
大模型
人工智能
机器学习
深度学习
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
本文将深入探讨LLMs的训练过程,特别是强化学习(ReinforcementLearning,
RL
)(深度解析DeepSeekR1:强化学习与知识蒸馏的协同力量)在这一领域的应用,从TRP
大模型之路
·
2025-02-08 20:03
强化学习
大模型(LLM)
人工智能
LLM
强化学习
deepseek
GRPO
TRPO
DeepSeek-R1深度报告:基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享
强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享】配合此文章使用,效果更佳:DeepSeek-R1深度报告——50道相关面试题——深刻理解相关概念(DeepSeek-R1大模型+强化学习(
RL
快撑死的鱼
·
2025-02-08 05:19
算法工程师面试宝典(面试必备)
python
搜索引擎
开发语言
DeepSeek模型与OpenAI模型原理和技术架构的异同分析
DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理(一)DeepSeekR1DeepSeekR1的核心原理是基于强化学习(
RL
)的训练方式,其创新之处在于不依赖任何监督微调(SFT
程序猿000001号
·
2025-02-08 04:10
DeepSeek
大模型
【论文阅读】DeepSeek-R1:通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
RL
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-R1:通过强化学习激励LLMs的推理能力DeepSeek-AIresearch@deepseek.com目录DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcem
AI天才研究院
·
2025-02-07 22:05
DeepSeek
R1
&
大数据AI人工智能大模型
DeepSeek
计算
论文阅读
deepseek
agi
ai
llm
agent
cot
SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架
在人工智能(AI)和强化学习(
RL
)领域的发展进程中,长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性,这显著制约了其在复杂动态环境中的应用效果。
·
2025-02-07 13:28
[论文笔记] Deepseek技术报告
1.总体概述背景与目标报告聚焦于利用强化学习(
RL
)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。
心心喵
·
2025-02-06 22:53
论文笔记
论文阅读
人工智能
gym-anytrading
参考:https://github.com/upb-lea/gym-electric-motorAnyTrading是一组基于reinforcementlearning(
RL
)的tradingalgorithms
AAA客服小高
·
2025-02-06 07:16
人工智能
机器学习,深度学习,神经网络,深度神经网络
深度学习的算法又分很多种,比较典型的四种:卷积神经网络—CNN,循环神经网络—RNN,生成对抗网络—GANs,深度强化学习—
RL
。机器学习和深度学习的
武昌库里写JAVA
·
2025-02-05 12:52
面试题汇总与解析
java
学习
开发语言
课程设计
spring
boot
DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新
OpenAI早期专注于强化学习(
RL
),但在Transformer结构问世后,迅速调整方向,借助Google的开源研究开发出强大的LLM。然而,尽
·
2025-02-05 02:16
前端javascript
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模强化学习(
RL
)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。
·
2025-02-04 14:27
后端java
DeepSeek- R1 原理介绍
DeepSeek-R1是由DeepSeek公司推出的一款基于强化学习(
RL
)的开源推理模型,其核心原理和特点如下:1.核心技术与架构强化学习驱动:DeepSeek-R1是首个完全通过强化学习训练的大型语言模型
kcarly
·
2025-02-04 08:50
大模型知识乱炖
杂谈
DeepSeek
R1
原理介绍
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模强化学习(
RL
)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。
老马啸西风
·
2025-02-04 06:04
java
构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统
传统的单智能体强化学习(
RL
)模型难以直接适用于这种场景,因此需要多智能体强化学习(MARL)的方法。1.2将问题转化为部分可观测马尔可夫决策过
由数入道
·
2025-02-04 05:30
分布式
强化学习
智能体
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模强化学习(
RL
)训练的模型,且在此过程中未使用监督微调(SFT)作为预处理步骤,展现出了显著的推理能力。
·
2025-02-03 20:09
后端java
DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力
主要技术:1.强化学习(
RL
)核心是强化学习技术,像训练小狗一样,当模型做出正确的推理步骤或得到正确的
davenian
·
2025-02-03 18:56
评论
语言模型
人工智能
深度学习
DeepSeek
kimi o1和deepseek o1对比,非常直观!
目前各家用的方案看起来更像是sft+
rl
的加强版,把推理过程内含进生成,而不是用结构去引导生成。两家效果看报告比较接近,个
AI生成曾小健
·
2025-02-03 02:46
LLM大语言模型
人工智能
物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入
RL
黄金时代
物理测试暴击AI圈,DeepSeekR1稳超o1、Claude,我们已进入
RL
黄金时代原创关注大模型的机器之心2025年01月25日12:06北京机器之心报道我们都没预料到,AI领域的2025年是这样开始的
AI生成曾小健
·
2025-02-02 21:38
LLM大语言模型
人工智能
【Legged Gym】Legged Gym训练参数详解与自定义任务实现
同时,也会解释
rl
_device和sim_device的赋值方法及其区别。1.参数详解1.1.任务与实验配置--task:指定训练任务的类型,如an
啵啵啵啵哲
·
2025-02-02 19:28
人工智能
isaac gym 和 legged gym 环境搭建记录
今天使用fanziqi大佬的
rl
_docker搭建了一个isaacgym下的四足机器人训练环境,成功运行leggedgym项目下的例子,记录一下搭建流程基础配置OperatingSystem:Ubuntu22.04.5LTSKernel
咋学都不累zgc
·
2025-02-02 19:24
ubuntu
「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了
多阶段训练:创新的模型架构DeepSeek-R1的训练方式采用了多阶段循环的策略,具体包括基础训练、强化学习(
RL
)、微调等多个阶段。这
人工智能学家
·
2025-02-01 06:23
人工智能
强化学习在自动驾驶中的实现与挑战
而强化学习(ReinforcementLearning,
RL
),作为机器学习的一大分支,在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程,为车辆提供动态、灵活的导航与控制能力。
Echo_Wish
·
2025-01-31 20:55
人工智能
前沿技术
自动驾驶
人工智能
机器学习
AI:263-强化学习在自动驾驶领域的应用与前沿挑战
强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向,而强化学习(ReinforcementLearning,
RL
)因其在复杂动态环境中的决策能力,成为推动自动驾驶技术的重要工具
一键难忘
·
2025-01-31 20:24
精通AI实战千例专栏合集
自动驾驶汽车
强化学习
人工智能
Rust中奖励函数的实现与应用
ZenandtheArtofComputerProgramming关键词:Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域,特别是在强化学习(ReinforcementLearning,
RL
AI天才研究院
·
2025-01-30 07:45
计算
AI大模型企业级应用开发实战
大数据AI人工智能
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
强化学习中,为什么用AC架构
AC架构的工作原理AC架构的优缺点优点:缺点:相关算法:基于AC架构的算法总结强化学习中,为什么用AC架构在强化学习(ReinforcementLearning,
RL
)中,AC架构(即Actor-Critic
资源存储库
·
2025-01-29 01:25
算法
强化学习
算法
Linux Commands&Tips
www.cnblogs.com/Baron-Lu/p/6991269.htmlfind/home/lijiajia/-name‘*elm’批量替换文件中的字符串:sed-i“s/len/size/g”`greplen-
rl
hilgc000
·
2025-01-28 16:44
Linux
find
linux
DeepSeek R1:中国AI黑马的崛起与挑战
文章目录技术突破:从零开始的推理能力进化DeepSeekR1-Zero:纯
RL
训练的“自我觉醒”DeepSeekR1:冷启动与多阶段训练的平衡之道实验验证:推理能力的全方位跃升基准测试:超越顶尖闭源模型蒸馏技术
码事漫谈
·
2025-01-28 16:13
AI
人工智能
[补题]G2. Ruler (hard version)
如果是7次,可以用类似于三分的方法,查询l×
rl
\timesrl×r的矩形的结果q:若q=lm∗rq=lm*rq=lm∗r则x>rmx>rmx>rm若q=lm∗(rm+1)q=lm*(rm+1)q=lm
Flower#
·
2025-01-28 13:49
题解/补题
c++
算法
c语言
NVIDIA Isaac Lab 入门教程(一)
系列文章目录前言IsaacLab是一个用于机器人学习的统一模块化框架,旨在简化机器人研究中的常见工作流程(如
RL
、从演示中学习和运动规划)。
kuan_li_lyg
·
2025-01-28 05:56
机器人最优控制工具
人工智能
机器人
开发语言
python
强化学习
模仿学习
Isaac
【llm对话系统】
RL
强化学习的技术演进与RLHF
一、强化学习基础知识强化学习(ReinforcementLearning,
RL
)是一种机器学习方法,它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward
kakaZhui
·
2025-01-28 00:47
人工智能
chatgpt
llama
智能推理的革命:DeepSeek-R1 深度解析其算法与实现
DeepSeek-R1的出现,正是为了解决这一问题,通过强化学习(ReinforcementLearning,
RL
)赋予语言模型更强大的推理能力,开创了LLMs
步子哥
·
2025-01-26 04:26
算法
人工智能
【AI论文】迈向大型推理模型:大型语言模型增强推理综述
近期,一种新兴的学习推理趋势采用强化学习(
RL
)来训练LLM掌握推理过程。这种方法通过试错搜索算法自动生成
东临碣石82
·
2025-01-20 19:09
人工智能
语言模型
自然语言处理
【强化学习】PyTorch-
RL
框架
、框架简介二、核心功能三、学习环境配置四、学习资源五、实践与应用六、常见问题与解决方案七、深入理解强化学习概念八、构建自己的强化学习环境九、调试与优化十、参与社区与持续学习一、框架简介PyTorch-
RL
大雨淅淅
·
2025-01-20 05:52
人工智能
pytorch
人工智能
python
深度学习
机器学习
蓝桥杯真题 - 子树的大小 - 题解
:难度2星(满星:5)前置知识:无整体思路整体将节点编号−1-1−1,通过找规律可以发现,节点iii下一层最左边的节点编号是im+1im+1im+1,最右边的节点编号是im+mim+mim+m;用l,
rl
ExRoc
·
2025-01-19 21:04
蓝桥杯
算法
c++
【机器学习:三十二、强化学习:理论与应用】
1.强化学习概述**强化学习(ReinforcementLearning,
RL
)**是一种机器学习方法,旨在通过试验与反馈的交互,使智能体(Agent)在动态环境中学习决策策略,以最大化累积奖励(CumulativeReward
KeyPan
·
2025-01-19 09:19
机器学习
机器学习
机器人
人工智能
深度学习
数据挖掘
《AI语言模型的关键技术探析:系统提示、评估方法与提示工程》
定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(
RL
XianxinMao
·
2025-01-18 17:16
人工智能
语言模型
自然语言处理
【深度强化学习】DQN:深度Q网络算法——从理论讲解到源码解析
竞争深度Q网络(DuelingDQN)优先级经验回放(PER)噪声网络(noisy)本文图片与源码均来自《EasyRL》:https://github.com/datawhalechina/easy-
rl
视觉萌新、
·
2025-01-17 15:17
深度强化学习
深度Q网络
DQN
css 在div左上角添加类似书签的标记
CSS.mark{float:left;margin:06rpx;position:relative;padding:0;width:24px;color:#fff;writing-mode:sideways-
rl
嗬呜阿花
·
2025-01-16 19:22
STYLE
LIST
css
前端
html
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享:关于OpenAI o1新范式的深度思考
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及
RL
的Scalinglaw。
光剑书架上的书
·
2024-09-15 13:21
ChatGPT
大数据AI人工智能
计算
人工智能
算法
机器学习
缩小模拟与现实之间的差距:使用 NVIDIA Isaac Lab 训练 Spot 四足动物运动
目录在IsaacLab中训练四足动物的运动能力目标观察和行动空间域随机化网络架构和
RL
算法细节先决条件用法训练策略执行训练好的策略结果使用JetsonOrin在Spot上部署经过训练的
RL
策略先决条件JetsonOrin
AI人工智能集结号
·
2024-09-12 06:05
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他