E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习薄荷糖
技术解构麦萌短剧《命运旋涡》:从「时间序列的因果重构」到「对抗性干预的
强化学习
」
《命运旋涡》以「时间回溯」为技术内核,揭示了高维因果推理与对抗性干预的算法博弈。本文将通过机器学习视角,拆解这场时空防御战的底层逻辑。1.时间序列重构:循环神经网络中的记忆觉醒许晴(Agent_Xu)的重生可建模为时间序列的对抗性重采样:pythonclassTimeLoop(nn.Module):def__init__(self,init_step=24):#初始化至求婚前24小时的关键时间窗s
短剧萌
·
2025-03-26 13:18
重构
python
机器学习
嵌入式领域机器学习入门指南
强化学习
:通过与环境交互,采取行动以最大化某种累积奖励。深度学习:一种特殊的机器学习方法,通过使用具有
AI嵌入式
·
2025-03-26 05:47
Python
机器学习
机器学习
人工智能
嵌入式驱动开发方向的基础
强化学习
计划
基础强化阶段以下是针对嵌入式驱动开发方向的基础强化阶段详细计划,结合大厂技术需求与您的学习目标,提供量化成果、行动指南及学习路线:---一、基础强化阶段核心目标1.技术能力-掌握C语言核心语法与系统编程(指针、内存管理、多线程)。-理解ARM架构基础与通信协议(SPI/I2C/UART)。-熟悉Linux开发环境与Git协作流程。2.知识体系-构建嵌入式开发的知识框架(硬件-协议-驱动-操作系统)
BuffaloBit
·
2025-03-25 20:12
Learning
path
驱动开发
嵌入式硬件
使用Carsim和MATLAB/Simulink进行
强化学习
的解决办法
本人之前一直想通过
强化学习
控制车辆进行自动驾驶,但是一直存在carsim报错或者MATLAB崩溃的现象,后经不断尝试,发现Carsim2022和MATLAB2023b联仿能够正常实现
强化学习
。
DAY走玩
·
2025-03-25 19:28
深度学习
matlab
自动驾驶
SFT和RLHF是什么意思?
SFT和RLHF是什么意思解决方案:SFT(SupervisedFine-Tuning,监督微调)和RLHF(ReinforcementLearningfromHumanFeedback,基于人类反馈的
强化学习
玩人工智能的辣条哥
·
2025-03-25 00:15
人工智能
人工智能
深度学习
机器学习
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理
关键要点研究表明,PPO(近端策略优化)是一种稳定高效的
强化学习
算法,适用于单代理或多代理场景,重点是最大化绝对奖励。
释迦呼呼
·
2025-03-24 17:46
AI一千问
人工智能
深度学习
机器学习
语言模型
算法
神经网络
计算机视觉
第三十九个问题-详细讲讲PPO & GRPO原理
PPO(ProximalPolicyOptimization)原理详解PPO(近端策略优化)是OpenAI于2017年提出的
强化学习
算法,旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。
释迦呼呼
·
2025-03-24 17:45
AI一千问
人工智能
深度学习
机器学习
语言模型
自然语言处理
算法
基于推理的
强化学习
智能体设计与开发
1.理论基础与核心概念1.1推理
强化学习
(Reasoning-EnhancedRL)定义核心思想:在传统
强化学习
的马尔可夫决策过程(MDP)基础上,引入符号推理、因果推断和知识引导机制,解决复杂环境中的长程依赖和稀疏奖励问题
由数入道
·
2025-03-24 17:45
人工智能
人工智能
多智能体
强化学习
知识推理
英伟达开源超强模型Nemotron-70B;OpenAI推出Windows版ChatGPT桌面客户端
该模型在多项基准测试中表现优异,采用混合训练方法和人类反馈
强化学习
,模型权重已在HuggingFace发布。Niemotron-70B的开发基于Llama-3.1,且开源数据集加强其训练效果。
go2coding
·
2025-03-24 14:55
AI日报
chatgpt
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025)
4月22-24日地点:中国-重庆简介2025年第二届机器学习与神经网络国际学术会议(MLNN2025)围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论,涵盖深度学习、计算机视觉、自然语言处理、
强化学习
等多个子领域
分享学术科研与论文的禁小默
·
2025-03-24 14:19
机器学习
神经网络
人工智能
深度讨论Python for循环
作者的其他文章推荐:
强化学习
再受关注!
观智能
·
2025-03-24 12:35
python
开发语言
嵌入式Linux驱动开发:从基础知识到实践精通
本课程从基础知识点出发,详细介绍了内核接口理解、设备树编程、I/O操作、字符与块设备驱动、网络驱动、电源管理、调试技巧、硬件抽象层、设备模型和模块化编程等关键技能,并通过实际操作实践来
强化学习
,帮助开发者成长为嵌入式
坚持坚持那些年
·
2025-03-23 21:21
强化学习
中策略网络模型设计与优化技巧
I.引言
强化学习
(ReinforcementLearning,RL)是一种通过与环境交互,学习如何采取行动以最大化累积奖励的机器学习方法。
数字扫地僧
·
2025-03-23 07:57
计算机视觉
深度学习
LLM-Agent方法评估与效果分析
1.引言近年来,随着大型语言模型(LLM)的快速发展,基于
强化学习
(RL)对LLM进行微调以使其具备代理(Agent)能力成为研究热点。
·
2025-03-22 18:50
agent人工智能ai开发
强化学习
Reward
在
强化学习
中,奖励(Reward)是智能体(Agent)与环境(Environment)交互过程中获得的重要反馈信号。
百态老人
·
2025-03-22 13:31
算法
强化学习
中的深度卷积神经网络设计与应用实例
I.引言
强化学习
(ReinforcementLearning,RL)是机器学习的一个重要分支,通过与环境的交互来学习最优策略。
数字扫地僧
·
2025-03-22 01:40
计算机视觉
cnn
人工智能
神经网络
PyTorch 深度学习实战(19):离线
强化学习
与 Conservative Q-Learning (CQL) 算法
在上一篇文章中,我们探讨了分布式
强化学习
与IMPALA算法,展示了如何通过并行化训练提升
强化学习
的效率。
进取星辰
·
2025-03-20 19:52
PyTorch
深度学习实战
深度学习
pytorch
算法
一切皆是映射:DQN训练加速技术:分布式训练与GPU并行
1.背景介绍1.1深度
强化学习
的兴起近年来,深度
强化学习
(DeepReinforcementLearning,DRL)在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。
AI天才研究院
·
2025-03-20 18:45
计算
AI大模型企业级应用开发实战
ChatGPT
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
实战LLM
强化学习
——使用GRPO(DeepSeek R1出圈算法)
引言近年来,深度
强化学习
(DRL)已经成为解决复杂决策问题的一个强有力工具,尤其是在自然语言处理(NLP)领域的广泛应用。
大富大贵7
·
2025-03-20 10:10
程序员知识储备1
程序员知识储备2
程序员知识储备3
经验分享
Ai时代初期全球不同纬度的层级辐射现象
大语言模型的训练方式(预训练→多任务学习→
强化学习
龙胥伯
·
2025-03-20 04:48
人工智能
PyTorch 深度学习实战(12):Actor-Critic 算法与策略优化
在上一篇文章中,我们介绍了
强化学习
的基本概念,并使用深度Q网络(DQN)解决了CartPole问题。
进取星辰
·
2025-03-18 19:17
PyTorch
深度学习实战
深度学习
pytorch
算法
PyTorch 深度学习实战(17):Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练
本文将介绍
强化学习
领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法,并展示如何利用PyTorch实现并行化训练来加速学习过程。
进取星辰
·
2025-03-18 19:17
PyTorch
深度学习实战
深度学习
pytorch
算法
DeepSeek在智慧物流管控中的全场景落地方案
一、智慧物流核心痛点与DeepSeek解决方案矩阵物流环节行业痛点DeepSeek技术方案价值增益仓储管理库存预测误差率>30%多模态时空预测模型库存周转率↑40%运输调度车辆空驶率35%
强化学习
动态调度引擎运输成本
猴的哥儿
·
2025-03-18 04:47
笔记
大数据
交通物流
python
数据仓库
微服务
探索DeepSeek:前端开发者不可错过的新一代AI技术实践指南
作为覆盖语言、代码、视觉的多模态技术矩阵,DeepSeek不仅实现了与ChatGPT相媲美的能力,还通过
强化学习
驱动的架构创新,解决了大模型落地中的成本与效率瓶颈。
formerlyai
·
2025-03-18 02:21
人工智能
前端
【sklearn 02】监督学习、非监督下学习、
强化学习
监督学习、非监督学习、
强化学习
**机器学习通常分为无监督学习、监督学习和
强化学习
三类。
@金色海岸
·
2025-03-17 09:54
sklearn
学习
人工智能
【人工智能基础2】机器学习、深度学习总结
基于学习模式,机器学习可以分为监督、无监督、
强化学习
roman_日积跬步-终至千里
·
2025-03-16 23:02
人工智能习题
人工智能
机器学习
深度学习
从过拟合到
强化学习
:机器学习核心知识全解析
Langchain系列文章目录01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块:四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain:从核心链条构建到动态任务分配的实战指南04-玩转LangChain:从文档加载到高效问答系统构建的全程实战05-玩转LangChain:深度评估问答系统的三种高效方法(示例生成、手
吴师兄大模型
·
2025-03-16 16:16
0基础实现机器学习入门到精通
机器学习
人工智能
过拟合
强化学习
python
LLM
scikit-learn
基于DeepSeek R1构建下一代Manus通用型AI智能体的技术实践
目录一、技术背景与目标定位1.1大模型推理能力演进趋势1.2DeepSeekR1核心特性解析-混合专家架构(MoE)优化-组相对策略优化(GRPO)原理-多阶段
强化学习
训练范式1.3Manus智能体框架设计理念
zhangjiaofa
·
2025-03-16 15:08
DeepSeek
R1&
AI人工智能大模型
DeepSeek
Manus
智能体
AI
强化学习
:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门
强化学习
(六)
目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言 前两期我们介绍了动态规划算法,还有蒙特卡洛算法,不过它们对于状态价值函数的估值都有其缺陷性,像动态规划,需要从最下面向上进行递推,而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值,有没有更直接的方法,智能体能边做动作,边估值一次,不断学习策略?答案是有的。这就是本期需要介绍的算法,时间差分法(TimeDi
wxchyy
·
2025-03-16 14:29
强化学习
算法
大型语言模型与
强化学习
的融合:迈向通用人工智能的新范式——基于基础复现的实验平台构建
强化学习
(RL)作为一种通过与环境交互学习最优策略的方法,在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合,分析LLM如何赋能RL,并阐述这种融合对于迈向通用人工智能(AGI)的意义。
(initial)
·
2025-03-15 16:17
大模型科普
人工智能
强化学习
强化学习
-Chapter2-贝尔曼方程
强化学习
-Chapter2-贝尔曼方程贝尔曼方程推导继续展开贝尔曼方程的矩阵形式状态值的求解动作价值函数与状态价值函数的关系贝尔曼方程推导Vπ(s)=E[Gt∣St=s]=E[rt+1+(γrt+2+…
Rsbs
·
2025-03-15 16:47
算法
机器学习
概率论
【开源代码解读】AI检索系统R1-Searcher通过
强化学习
RL激励大模型LLM的搜索能力
关于R1-Searcher的报告:第一章:引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中,信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计,2023年全球数据总量已突破120ZB,其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战:语义歧义消除:如何准确理解"A
accurater
·
2025-03-15 11:37
人工智能
深度学习
R1-Searcher
PyTorch 深度学习实战(13):Proximal Policy Optimization (PPO) 算法
一、PPO算法基础PPO是OpenAI提出的一种
强化学习
算法,旨在解决策略梯度方法中的训练不稳定问题。PPO通过
进取星辰
·
2025-03-14 19:47
PyTorch
深度学习实战
深度学习
pytorch
算法
院士领衔、IEEE Fellow 坐镇,清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会
新型
强化学习
技术如何赋能智能体?围绕这些关键问题,由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。
CSDN资讯
·
2025-03-14 18:03
机器学习
人工智能
推理大模型:技术解析与未来趋势全景
ReasoningLLMs)是专门针对复杂多步推理任务优化的大型语言模型,具备以下核心特性:输出形式创新展示完整逻辑链条(如公式推导、多阶段分析)任务类型聚焦擅长数学证明、编程挑战、多模态谜题等深度逻辑任务训练方法升级融合
强化学习
时光旅人01号
·
2025-03-14 15:10
深度学习
人工智能
python
pytorch
神经网络
一文读懂
强化学习
:从基础到应用
强化学习
是什么
强化学习
是人工智能领域的一种学习方法,简单来说,就是让一个智能体(比如机器人、电脑程序)在一个环境里不断尝试各种行为。
LHTZ
·
2025-03-14 08:51
算法
时序数据库
大数据
数据库架构
动态规划
QwQ-32B企业级本地部署:结合XInference与Open-WebUI使用
QwQ-32B是阿里巴巴Qwen团队推出的一款推理模型,拥有320亿参数,基于Transformer架构,采用大规模
强化学习
方法训练而成。
大势下的牛马
·
2025-03-14 00:56
搭建本地gpt
RAG
知识库
人工智能
QwQ-32B
LLM Weekly(2025.03.03-03.09)
网络新闻QwQ-32B:拥抱
强化学习
的力量。研究人员推出了QwQ-32B,这是一个拥有320亿参数的模型,它利用
强化学习
来提升推理能力。
UnknownBody
·
2025-03-13 16:29
LLM
Daily
LLM
Weekly
语言模型
人工智能
Chebykan wx 文章阅读
sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN[9]
强化学习
やっはろ
·
2025-03-13 02:44
深度学习
用物理信息神经网络(PINN)解决实际优化问题:全面解析与实践
实验表明,PINN相比传统数值方法及
强化学习
(RL)/遗传算法(GA),在收敛速度、解的稳定性及物理保真度上均实现突破性提升。关键词:物理信息神经网络;优化任务;深度学习;
强化学习
;航天器轨道一、
青橘MATLAB学习
·
2025-03-12 14:23
深度学习网络设计
人工智能
深度学习
物理信息神经网络
强化学习
django allauth 自定义登录界面
起因,目的:为什么前几天还在写
强化学习
,今天又写django,问就是:客户需求>个人兴趣。问题来源:allauth默认的登录界面不好看,这里记录几个问题。
waterHBO
·
2025-03-12 13:19
django
python
django
数据库
sqlite
python
笔记
经验分享
人工智能机器学习算法分类全解析
目录一、引言二、机器学习算法分类概述(一)基于学习方式的分类1.监督学习(SupervisedLearning)2.无监督学习(UnsupervisedLearning)3.
强化学习
(ReinforcementLearning
power-辰南
·
2025-03-12 07:08
人工智能
人工智能
机器学习
算法
python
怎么定义世界模型,Sora/Genie/JEPA 谁是世界模型呢?(1)
其实世界模型在ML领域不是什么新概念,远远早于Transfomer这些东西被提出来,因为它最早是
强化学习
RL领域的,在20世纪90年代由JuergenSchmiduber实验室给提出来的。
周博洋K
·
2025-03-11 23:52
分布式
人工智能
深度学习
自然语言处理
机器学习
《Natural Actor-Critic》译读笔记
《NaturalActor-Critic》摘要本文提出了一种新型的
强化学习
架构,即自然演员-评论家(NaturalActor-Critic)。
songyuc
·
2025-03-11 11:21
笔记
LLM Weekly(2025.02.17-02.23)
Grok发布了Grok3Beta,通过
强化学习
、扩展计算和多模态理解提供卓越的推理能力。Grok3和Grok3mini在学术基准上取得了高分,其中Grok3在AIME’25上获得了93.3%的分数。
UnknownBody
·
2025-03-11 01:59
LLM
Daily
LLM
Weekly
人工智能
自然语言处理
大话机器学习三大门派:监督、无监督与
强化学习
以武侠江湖为隐喻,系统阐述了机器学习的三大范式:监督学习(少林派)凭借标注数据精准建模,擅长图像分类等预测任务;无监督学习(逍遥派)通过数据自组织发现隐藏规律,在生成对抗网络(GAN)等场景大放异彩;
强化学习
安意诚Matrix
·
2025-03-10 15:44
机器学习笔记
机器学习
人工智能
使用DeepSeek来构建LangGraph Agent
随着DeepseekR1的发布,我们不得不把目光聚焦在这个能赶超多个顶流大模型的模型身上,它主要是其在后训练阶段大规模使用了
强化学习
技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
乔巴先生24
·
2025-03-09 21:59
人工智能
python
人机交互
当深度学习遇见禅宗:用东方智慧重新诠释DQN算法
引言:代码与禅的碰撞♂️在某个调试代码到凌晨三点的夜晚,我突然意识到:
强化学习
的过程,竟与佛家修行惊人地相似。智能体在环境中探索
带上一无所知的我
·
2025-03-09 21:28
智能体的自我修炼:强化学习指南
深度学习
算法
人工智能
DQN
就在刚刚!马斯克决定将“地球上最聪明的人工智能”Grok-3免费了!
Grok-3的核心优势在于其大规模
强化学习
(RL)优化,能够在几秒到几分钟内进行深度推理,适应复杂任务的需求。配备的D
源代码杀手
·
2025-03-08 12:16
AI技术快讯
人工智能
python
机器学习入门知识
二、机器学习的基本类型1.监督学习2.无监督学习3.半监督学习4.
强化学习
三、机器学习的工作流程四、常见的机器学习算法五、机器学习的评价指标六、机器学习中的过拟合与欠拟合七、机器学习的应用八、学习机器学习的资源前言随着人工智能的发展
十五境剑修
·
2025-03-08 09:33
机器学习
人工智能
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他