E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
rl
AI Agent: AI的下一个风口 智能体与未来的关系
AIAgent:AI的下一个风口智能体与未来的关系关键词:智能体(Agent)、强化学习(ReinforcementLearning,
RL
)、神经网络(NeuralNetwork)、分布式系统(DistributedSystem
杭州大厂Java程序媛
·
2025-03-31 19:14
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
seacmsv9注入管理员账号密码+orderby+limit
seacmsv9联合注入数据functionReadrlist($ids,$page,$size){global$dsql,$type;$
rl
=array();$sql="SELECTid,uid,username
wxhxmj
·
2025-03-29 22:35
网络
强化学习中循环神经网络在序列决策中的应用研究
I.引言强化学习(ReinforcementLearning,
RL
)是一种通过与环境交互学习最优策略的方法。
数字扫地僧
·
2025-03-28 21:39
计算机视觉
rnn
深度学习
神经网络
【矩阵快速幂】B3646 数列前缀和 3|普及+
本文涉及知识点【矩阵快速幂】封装类及测试用例及样例B3646数列前缀和3题目描述给定模质数ppp域上的kkk阶非奇异矩阵列aaa,给定qqq次询问,每次给出l,
rl
,
rl
,r,求∏i=lrai\prod
软件架构师何志丹
·
2025-03-28 16:03
#
洛谷普及+
线性代数
c++
洛谷
数学
矩阵快速幂
关于强化学习小记
强化学习(ReinforcementLearning,
RL
)详解1.什么是强化学习?
文弱_书生
·
2025-03-27 22:24
乱七八糟
神经网络
人工智能
强化学习
马尔科夫决策
deepseek(1)——deepseek 整体架构
deepseek-v3,671B,通用模型,用于常见日常问题推理模型deepseek-r1,671B,推理模型,擅长处理复杂、需要多步思考的问题,适合做深度研究、解决代码/数学问题DeepSeek-R1是首个验证了仅通过
RL
哦豁灬
·
2025-03-27 20:14
学习笔记
深度学习
大模型
deepseek
LLM
大模型
具身系列——NLP工程师切入机器人和具身智能方向
职位高频词汇:VLM调优经验、核心算法(Diffusion、
RL
、VIT)、pytorch、仿真环境(IsaacGym、Mujoco、webots)基于当前具身智能行业发展趋势和岗位需求,以下是为NLP
music&movie
·
2025-03-25 21:47
多模态
Agent
自然语言处理
机器人
人工智能
Genesis仿真环境
RL
训练四足配置方法
目前官方文档功能写的比较详细,基本的机器人
RL
也都能开始训,有一些比较炫酷的demo还没有实用的案例。先介绍一下怎么用genesis环境
RL
训四足,官方给了宇树go2的训练案例,需要一点环境基础。
小bai22
·
2025-03-25 18:26
人工智能
经验分享
python
机器学习
ubuntu
github
linux
DeepSeek关键
RL
算法GRPO,有人从头跑通了,贡献完整代码
DeepSeek关键
RL
算法GRPO,有人从头跑通了,贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者:AndriyBurkov机器之心编译GRPO(GroupRelativePolicyOptimization
强化学习曾小健2
·
2025-03-23 11:27
大语言模型LLM
算法
强化学习中策略网络模型设计与优化技巧
I.引言强化学习(ReinforcementLearning,
RL
)是一种通过与环境交互,学习如何采取行动以最大化累积奖励的机器学习方法。
数字扫地僧
·
2025-03-23 07:57
计算机视觉
深度学习
01年实习生被曝负责字节
RL
核心算法!系字节LLM攻坚小组成员
一个超越DeepSeekGRPO的关键
RL
算法出现了!
·
2025-03-22 22:24
量子位
LLM-Agent方法评估与效果分析
1.引言近年来,随着大型语言模型(LLM)的快速发展,基于强化学习(
RL
)对LLM进行微调以使其具备代理(Agent)能力成为研究热点。
·
2025-03-22 18:50
agent人工智能ai开发
强化学习中的深度卷积神经网络设计与应用实例
I.引言强化学习(ReinforcementLearning,
RL
)是机器学习的一个重要分支,通过与环境的交互来学习最优策略。
数字扫地僧
·
2025-03-22 01:40
计算机视觉
cnn
人工智能
神经网络
推测未来Agentic形态:Dynamic Cognitive Contextual Agent with Reinforcement Learning (DCCA-
RL
)
在AIAgent设计模式领域,我们见证了从简单的ReAct到复杂的LATS的演进,这些模式通过反思、工具使用、规划和多代理协作,极大地提升了AI的自主性和智能性。然而,随着任务复杂度和动态性需求的增加,现有模式逐渐显现出局限性——多Agent协作带来的联合误差和单Agent设计的适应性不足。为此,我们基于对现有模式的全面分析,提出了一个更先进的单Agent框架:DynamicCognitiveCo
weixin_40941102
·
2025-03-20 21:40
语言模型
人工智能(AI)系统化学习路线
❌方向模糊:对CV/NLP/
RL
等细分领域缺乏认知,难以针对性提升。正确的学习姿势:“金字塔式”分层学习(理论→算法→框架→应用→工程化),逐步构建完整的AI知识体系。二、人工智能学习路线
xiaoyu❅
·
2025-03-20 00:44
python
人工智能
学习
AtCoder Beginner Contest 370 A-E 题解
A.RaiseBothHands题意给你L,R(0≤L,R≤1)L,R\(0\leL,R\le1)L,R(0≤L,R≤1),分别代表举左手和右手,若只举左手输出Yes,只举右手输出No,否则输出Invalid思路若L=
RL
AKDreamer_HeXY
·
2025-03-16 05:57
AtCoder
Beginner
Contests
题解
算法
c++
数据结构
贪心算法
大型语言模型与强化学习的融合:迈向通用人工智能的新范式——基于基础复现的实验平台构建
强化学习(
RL
)作为一种通过与环境交互学习最优策略的方法,在智能体训练中发挥着重要作用。本文旨在探索LLM与
RL
的深度融合,分析LLM如何赋能
RL
,并阐述这种融合对于迈向通用人工智能(AGI)的意义。
(initial)
·
2025-03-15 16:17
大模型科普
人工智能
强化学习
【开源代码解读】AI检索系统R1-Searcher通过强化学习
RL
激励大模型LLM的搜索能力
关于R1-Searcher的报告:第一章:引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中,信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计,2023年全球数据总量已突破120ZB,其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战:语义歧义消除:如何准确理解"A
accurater
·
2025-03-15 11:37
人工智能
深度学习
R1-Searcher
Chebykan wx 文章阅读
全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合
RL
-GAN
やっはろ
·
2025-03-13 02:44
深度学习
用物理信息神经网络(PINN)解决实际优化问题:全面解析与实践
实验表明,PINN相比传统数值方法及强化学习(
RL
)/遗传算法(GA),在收敛速度、解的稳定性及物理保真度上均实现突破性提升。关键词:物理信息神经网络;优化任务;深度学习;强化学习;航天器轨道一、
青橘MATLAB学习
·
2025-03-12 14:23
深度学习网络设计
人工智能
深度学习
物理信息神经网络
强化学习
怎么定义世界模型,Sora/Genie/JEPA 谁是世界模型呢?(1)
其实世界模型在ML领域不是什么新概念,远远早于Transfomer这些东西被提出来,因为它最早是强化学习
RL
领域的,在20世纪90年代由JuergenSchmiduber实验室给提出来的。
周博洋K
·
2025-03-11 23:52
分布式
人工智能
深度学习
自然语言处理
机器学习
RTS5765DL量产工具下载,金士顿NV2 2TB假固态硬盘抢救记,
RL
6577/RTS5765DL量产工具,RTS5765DL+B47R扩容开卡修复
之前因为很长时间不买固态硬盘,没注意到NVME的固态盘也有了假货和扩容盘,花200多块买了个2TB的金士顿NV2固态硬盘,我原本以为NV1的假货最多是用黑片冒充正片,结果没想到NV2居然有扩容的。后来发现是扩容盘的时候,已经过了自动收货期限了。最后只能尝试重新开卡,尽量降低损失。首先感谢一下量产部落网,兜兜转转一直找不到量产工具,最后终于从量产部落网找到了,这里分享一下我的金士顿NV22TB假固态
SM2259XT3
·
2025-03-09 13:56
经验分享
就在刚刚!马斯克决定将“地球上最聪明的人工智能”Grok-3免费了!
Grok-3的核心优势在于其大规模强化学习(
RL
)优化,能够在几秒到几分钟内进行深度推理,适应复杂任务的需求。配备的D
源代码杀手
·
2025-03-08 12:16
AI技术快讯
人工智能
python
阿里深夜开源QwQ-32B模型,仅需1/10的成本即可比肩R1满血版
大规模强化学习(
RL
)有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明,强化学习可以显著提高模型的推理能力。
伪_装
·
2025-03-07 13:45
LLM
python
大模型
LLM
瑞萨微控制器 R5F100FEAFP#10 适用于各种嵌入式应用 提供样品测试+数据资料 常备现货
瑞萨电子的R5F100FEAFP#10是一款基于
RL
78/G13系列的16位微控制器,适用于各种嵌入式应用。其主要参数如下:核心处理器:
RL
78,16位架构,最高工作频率32MHz。
li15817260414
·
2025-03-06 16:26
云计算
电视盒子
物联网
智能家居
强化学习是否能够在完全不确定的环境中找到一个合理的策略,还是说它只能在已知规则下生效?
强化学习(ReinforcementLearning,
RL
)是机器学习的一个重要分支,广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。
concisedistinct
·
2025-03-05 12:58
人工智能
人工智能
强化学习
PyTorch 中结合迁移学习和强化学习的完整实现方案
结合迁移学习(TransferLearning)和强化学习(ReinforcementLearning,
RL
)是解决复杂任务的有效方法。
小赖同学啊
·
2025-03-05 07:54
人工智能
pytorch
迁移学习
人工智能
DeepSeek-R1:通过强化学习激励大型语言模型的推理能力
DeepSeek-R1-Zero是一个通过大规模强化学习(
RL
)训练而成的模型,无需监督微调(SFT)作为初步步骤,展示了卓越的推理能力。
AI专题精讲
·
2025-03-03 22:05
大模型专题系列
语言模型
人工智能
自然语言处理
DeepSeek-R1 技术报告解读:用强化学习激发大模型的推理潜能
文章目录1.背景2.DeepSeek-R1训练流程2.1DeepSeek-R1-Zero:纯强化学习2.2DeepSeek-R1:冷启动+多阶段训练3.蒸馏小模型3.1蒸馏流程与优势3.2蒸馏vs.直接
RL
4
跑起来总会有风
·
2025-03-03 14:04
ai
AI编程
论文阅读
模型优化之强化学习(
RL
)与监督微调(SFT)的区别和联系
强化学习(
RL
)与监督微调(SFT)是机器学习中两种重要的模型优化方法,它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。
搏博
·
2025-03-02 10:08
深度学习
人工智能
机器学习
架构
transformer
深入详解人工智能机器学习:强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习(ReinforcementLearning,
RL
猿享天开
·
2025-02-28 15:58
人工智能基础知识学习
人工智能
机器学习
强化学习
机器学习:强化学习的epsilon贪心算法
强化学习(ReinforcementLearning,
RL
)是一种机器学习方法,旨在通过与环境交互,使智能体(Agent)学习如何采取最优行动,以最大化某种累积奖励。
田乐蒙
·
2025-02-28 15:25
Python
ML
机器学习
贪心算法
人工智能
DeepSeek R1 简单指南:架构、训练、本地部署和硬件要求
DeepSeek推出的LLM推理新策略DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法,通过强化学习(
RL
)提升大型语言模型(LLM)的推理能力。
爱喝白开水a
·
2025-02-28 07:52
人工智能
AI大模型
DeepSeek
R1
DeepSeek
算法
人工智能训练
大模型部署
微调 LLM (RLHF + DPO)
微调LLM(RLHF+DPO)使用强化学习(
RL
)根据人类反馈微调大语言模型(即RLHF)的方法,以及一种更有效的改进方法(即DPO)。
·
2025-02-27 21:56
人工智能
深入解析 DeepSeek R1:强化学习如何驱动大模型推理能力的进化
引言在AI竞赛日益激烈的时代,DeepSeek-AI推出了DeepSeekR1,试图以强化学习(
RL
)直接训练推理能力,而非仅依赖传统的监督微调(SFT)。
海棠AI实验室
·
2025-02-26 23:07
智元启示录
人工智能
deep
learning
DeepSeek-R1
解读 DeepSeek 关键
RL
算法 GRPO
DeepSeekGRPO:面向超大规模RLHF的梯度正则化策略优化算法引言在当下人工智能蓬勃发展的浪潮里,DeepSeek无疑是一颗耀眼的明星,频繁出现在各类科技前沿讨论中,热度持续攀升。从惊艳的模型表现,到不断拓展的应用场景,DeepSeek正以强劲之势重塑着行业格局。大家不难发现,无论是复杂的自然语言处理任务,还是充满挑战的智能推理难题,DeepSeek都能展现出卓越的性能。而这斐然成绩的背后
进一步有进一步的欢喜
·
2025-02-26 08:16
LLM
算法
DeepSeek
GRPO
DeepSeek强化学习(Reinforcement Learning)基础与实践
引言强化学习(ReinforcementLearning,
RL
)是机器学习的一个重要分支,专注于训练智能体(Agent)在环境中通过试错来学习最优策略。
Evaporator Core
·
2025-02-25 23:44
强化学习
#
DeepSeek快速入门
人工智能
python
数据库
tornado
强化学习
deepseek
DeepSeek 和 Qwen 模型快速部署指南
模型大小总参数量6710亿(671B),MoE架构,每个token激活370亿参数总参数量与V3相当,基于DeepSeek-V3-Base,采用类似的MoE架构训练方法包含预训练、监督微调(SFT)和强化学习(
RL
moton2017
·
2025-02-24 18:47
深度学习
运维
模型部署
DeepSeek
Qwen
大型语言模型
LLM
人工智能
AI
Android仿人人客户端(v5(2)
@OverrideprotectedvoidsetupView(){mTopNavbar=(TopNavbar)findViewById(R.id.
rl
_top_navbar);mWebView=(WebView
2401_87555477
·
2025-02-24 04:42
android
harmonyos
华为
通俗理解Test time Scaling Law、
RL
Scaling Law和预训练Scaling Law
一、ScalingLaw解释1、预训练阶段的ScalingLaw(打地基阶段)通俗解释:就像建房子时,地基越大、材料越多、施工时间越长,房子就能盖得越高越稳。核心:通过堆资源(算力、数据、模型参数)让AI变得更聪明。具体含义:在预训练阶段(比如训练GPT这种大模型),模型的表现取决于三个核心因素:模型参数(房子的“大小”):神经元越多,模型越“聪明”。数据量(砖头的“数量”):喂给模型的文本越多,
老A的AI实验室
·
2025-02-23 16:12
#
【LLM】
人工智能
chatgpt
深度学习
LLM
agi
算法
RL
deepseek和ChatGPT 4o比较
后训练+
RL
/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”(后训练+SFT/
RL
/RLHF),使其不仅知道得多还用得好
调皮的芋头
·
2025-02-19 02:46
chatgpt
人工智能
强化学习原理与代码实战案例讲解
强化学习(ReinforcementLearning,
RL
)是机器学习的一个重要分支,它关注的是智能体(Agent)如何在环境中通过与环境交互来学习最优的行为策略。
AI天才研究院
·
2025-02-18 05:53
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
强化学习在连续动作空间的应用:DDPG与TD3
1.背景介绍1.1强化学习简介强化学习(ReinforcementLearning,简称
RL
)是一种机器学习方法,它通过让智能体(Agent)在环境(Environment)中与环境进行交互,学习如何根据观察到的状态
AI天才研究院
·
2025-02-18 00:02
计算
AI大模型应用入门实战与进阶
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
计算
AI大模型应用
DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析
DeepSeek-R1-Zero与DeepSeek-R1的异同与优劣分析一、相同点核心训练方法:两者均基于强化学习(
RL
),采用GroupRelativePolicyOptimization(GRPO)
AI生成曾小健
·
2025-02-16 04:34
Deepseek原理与使用
人工智能
Deepseek背后的强化学习
RL
入门理解和Python脚本实现
强化学习简单原理强化学习是一种让智能体通过与环境的交互来学习最优行为策略的方法。想象一下,你有一只小狗,你想让它学会自己找到回家的路。你可以给小狗一些奖励(比如小零食),当它做出正确的动作(比如向家的方向走)时,就给它奖励;当它走错方向时,就不给奖励。小狗会逐渐学会哪些动作能获得奖励,从而找到回家的路。强化学习中的智能体就像是这只小狗,环境就是小狗所处的世界,奖励就是你给它的零食。在强化学习中,智
大F的智能小课
·
2025-02-14 12:54
人工智能
【必看】凭啥?DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能
其核心策略包括减少监督微调(SFT)步骤,仅依赖强化学习(
RL
)技术。DeepSeek-R1-Zero版本完全跳过SFT,仅通过
RL
进行训练。
大F的智能小课
·
2025-02-13 21:51
人工智能
算法
强化学习算法:蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解
MonteCarloTreeSearch)原理与代码实例讲解关键词:蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习(ReinforcementLearning,
RL
杭州大厂Java程序媛
·
2025-02-13 07:02
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
mnist数据集下载及使用
#mnist数据集在百度云盘里#链接:https://pan.baidu.com/s/1ca2
rL
2-0_JLtnH1YQ3otvA#提取码:uq3d#pytorch自带数据集的使用importtorchvisionfromtorchvision.datasetsimportMNISTmnist
小句
·
2025-02-12 21:21
pytorch
机器学习
AI分支知识之机器学习,深度学习,强化学习的关系
机器学习,深度学习,强化学习的关系这一篇文章我们来探讨下AI领域中机器学习(ML)、深度学习(DL)和强化学习(
RL
)的关系。
王钧石的技术博客
·
2025-02-11 08:55
大模型
人工智能
机器学习
深度学习
Deepseek成功启示:从 TRPO 到 GRPO训练LLM
本文将深入探讨LLMs的训练过程,特别是强化学习(ReinforcementLearning,
RL
)(深度解析DeepSeekR1:强化学习与知识蒸馏的协同力量)在这一领域的应用,从TRP
大模型之路
·
2025-02-08 20:03
强化学习
大模型(LLM)
人工智能
LLM
强化学习
deepseek
GRPO
TRPO
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他