E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习(RL)
《Python星球日记》 第84天:Q-Learning 与 DQN
——屈原《离骚》创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder)目录一、
强化学习
基础回顾1.核心元素与术语二、Q-Learning算法详解1.Q表更新公式2.探索与利用(ExplorationvsExploitation
Code_流苏
·
2025-06-10 04:55
Python星球日记
python
Q-learning
DQN算法
经验回放
目标网络
代码实践
进阶应用
机器学习算法种类繁多以下是主要算法的详细描述、使用场景、经典案例、开源框架,以及学习和应用到实际场景的建议
机器学习算法种类繁多,根据任务类型主要分为监督学习、无监督学习、半监督学习和
强化学习
四大类。以下是对主要算法的详细描述、使用场景、经典案例、开源框架,以及学习和应用到实际场景的建议。
zhxup606
·
2025-06-09 19:21
数据结构与算法
.netcore
【深度学习】自编码器:数据压缩与特征学习的神经网络引擎
之前的文章参考下面的链接:【深度学习】线性因子模型:数据降维与结构解析的数学透镜【学习笔记】
强化学习
:实用方法论【学习笔记】序列建模:递归神经网络(RN
瑶光守护者
·
2025-06-09 17:41
深度学习
学习
神经网络
人工智能
机器学习
强化学习
JAVA资料,C#资料,人工智能资料,Python资料】全网最全编程学习文档合集
Java高级特性与框架Java项目实践与开发工具C#编程学习资源C#入门与基础面向对象编程(OOP)在C#中的应用C#开发中的常见库与框架C#项目开发与实践人工智能编程学习资源人工智能基础机器学习与深度学习
强化学习
与自然语言处理
wangjinjin180
·
2025-06-09 14:17
java
c#
人工智能
QwenLong-L1横空出世:
强化学习
让大模型“长记性”,长文档推理新王者?
各位AI圈的老铁们,今天咱们来聊点硬核又不失风趣的话题——长上下文推理大模型的新晋王者:QwenLong-L1。别急着划走,这不是广告,而是一次技术圈的“吃瓜”现场,瓜保熟,技术干货管够!一、长上下文推理?你以为是“大力出奇迹”?在AI大模型的江湖里,“上下文长度”一直是个绕不开的坎。你让ChatGPT、Claude、Qwen这帮大佬们聊个千八百字的短文,那是小菜一碟。但真要让它们啃下几万字的财报
许泽宇的技术分享
·
2025-06-09 14:47
人工智能
机器学习
强化学习
+卡尔曼滤波上大分
2024深度学习发论文&模型涨点之——
强化学习
+卡尔曼滤波
强化学习
与卡尔曼滤波的结合在提高导航精度、适应复杂环境以及优化资源利用方面显示出明显优势,并且已经在多个领域中得到应用和验证。
Ai多利
·
2025-06-09 12:30
卡尔曼滤波
强化学习
强化学习
之父告警:数据枯竭!AI狂飙突进“经验革命”新时代
1喧嚣背后的技术拐点2024年的AI竞技场硝烟弥漫。某顶尖实验室的千亿级文本模型刷新三榜战绩,某硅谷巨头的多模态系统实现单图生成3D场景,人形机器人公司估值半年暴涨600%。技术热榜的常驻话题已从"参数量"转向"推理能力",具身智能成为资本押注的新赛道。1.1繁荣幕布下的致命裂缝行业权威在智源大会现场展示了一组震颤人心的数据:全球高质量文本训练库更新速度骤降87%,图像数据重复利用率突破92%。当
TGITCIC
·
2025-06-09 09:40
AI-大模型的落地之道
人工智能
AI大模型
AI数据
AI训练
训练AI
深度
强化学习
实战:玩转 Atari 游戏
在人工智能技术蓬勃发展的当下,深度
强化学习
凭借其在复杂决策场景中的出色表现,成为众多研究人员和开发者关注的焦点。
谷雪_658
·
2025-06-09 06:49
游戏
python
开发语言
【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1:通过
强化学习
激励大语言模型的推理能力0.论文摘要我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。
量子-Alex
·
2025-06-08 18:51
LLM大模型
人工智能
语言模型
强化学习
基础概念图文版笔记
强化学习
基础概念图文版笔记1️⃣基本框架:Agent与Environment核心角色:Agent(智能体):做出决策的“大脑”,根据当前状态选择动作。
要努力啊啊啊
·
2025-06-08 15:29
大模型中的技术名词解析
深度学习
人工智能
语言模型
自然语言处理
论文阅读
笔记
HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding
实验表明,高质量测试用例对
强化学习
和自蒸馏等LLM后期训练过程
UnknownBody
·
2025-06-08 13:20
LLM
Daily
LLM
for
code
人工智能
强化学习
从基础到进阶-常见问题和面试必知必答[1]:
强化学习
概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym
强化学习
实验
1.
强化学习
核心概念
强化学习
(reinforcementlearning,
RL
):智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。
小城哇哇
·
2025-06-08 07:03
人工智能
语言模型
ai
深度学习
机器学习
强化学习
agi
论文速读|RP1M:用于双手灵巧机械手弹奏钢琴的大规模运动数据集
这些专家轨迹是通过为每首歌曲训练一个
强化学习
(
RL
)代理,并使用不同的随机种
·
2025-06-08 02:30
【推荐算法】推荐算法演进史:从协同过滤到深度
强化学习
推荐算法演进史:从协同过滤到深度
强化学习
一、传统推荐时代:协同过滤的奠基(1990s-2006)1.1算法背景:信息爆炸的挑战1.2核心算法:协同过滤1.3局限性二、深度学习黎明:神经网络初探(2010
白熊188
·
2025-06-08 00:17
推荐算法
推荐算法
算法
机器学习
对 `llamafactory-cli api -h` 输出的详细解读
llamafactory-cli是LlamaFactory项目提供的命令行接口工具,它允许用户通过命令行参数来配置和运行大型语言模型的各种任务,如预训练(PT)、有监督微调(SFT)、奖励模型训练(RM)、基于人类反馈的
强化学习
路人与大师
·
2025-06-07 13:36
人工智能
深度学习
【AI论文】超越80/20规则:高熵少数令牌驱动LLM推理的有效
强化学习
摘要:具有可验证奖励的
强化学习
(RLVR)已经成为一种增强大型语言模型(LLM)推理能力的强大方法,但其机制尚未得到很好的理解。
东临碣石82
·
2025-06-06 22:49
人工智能
深度
强化学习
赋能城市消防优化,中国科学院团队提出 DRL 新方法破解设施配置难题
近日,在中国地理学会地理模型与地理信息分析专业委员会2025年学术年会上,来自中国科学院空天信息创新研究院的梁浩健博士在「地理空间优化」这一专题下,以「基于分层深度
强化学习
的城市应急消防设施配置优化方法研究
·
2025-06-06 21:00
hyperai
【速写】TRL:Trainer的细节与思考(PPO/DPO+LoRA可行性)
另一个问题就是奖励函数的设置,这个是
RL
从诞生以来一直存在的一个老大难问题。现在有很多方案,但是我始终觉得
囚生CY
·
2025-06-06 07:08
速写
人工智能
AI赋能智能制造
以下是AI在智能制造中的关键应用与价值分析:一、AI驱动智能制造的核心场景智能设计与仿真优化生成式设计:基于AI算法(如GAN、
强化学习
)自动生成产品设计方案,满足性能、材料、成本等多目标优化。
程序猿学长
·
2025-06-05 04:32
人工智能
DeepSeek引爆AI工业应用之AI赋能AMHS
关键系统解析及AI赋能本文深入探讨了中国半导体工厂中AMHS(自动物料搬运系统)的关键技术架构,包括MCS/TCS/VCS控制系统、OHT小车、无线供电轨道等核心模块,并详细阐述了如何利用人工智能(如
强化学习
爱吃青菜的大力水手
·
2025-06-05 04:01
人工智能
自动化
持续部署
开源
语言模型
【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning
VideoChat-R1:EnhancingSpatio-TemporalPerceptionviaReinforcementFine-Tuning原文摘要研究现状:
强化学习
有关方法在视频理解任务中的应用仍未被充分探索
s1ckrain
·
2025-06-04 17:41
强化学习
AIGC
计算机视觉
论文阅读
多模态大模型
强化学习
大语言模型(LLM)入门 - (20) 人类反馈
强化学习
文章来自:大语言模型(LLM)小白入门自学项目-TiaoYu-1GitHub-tiaoyu1122/TiaoYu-1:ForPeople!ForFreedom!ForPeople!ForFreedom!Contributetotiaoyu1122/TiaoYu-1developmentbycreatinganaccountonGitHub.https://github.com/tiaoyu1122
小鸡吃石子
·
2025-06-03 18:47
语言模型
人工智能
自然语言处理
强化学习
-深度学习和
强化学习
领域
在深度学习和
强化学习
领域,SFT(SupervisedFine-Tuning)和GRPO(可能指Gradient-basedPolicyOptimization或ReinforcementLearningwithPolicyOptimization
高效匠人
·
2025-06-03 04:38
人工智能
深度学习
人工智能
DexArt Benchmarking Generalizable Dexterous Manipulation with Articulated Objects
文章目录概述概述accepted:CVPR2023项目主页文章解读参考:
RL
的工作,很清晰的idea,后续可以读代码项目仓库
好气呀
·
2025-06-03 02:23
具身智能
铰接物体
机器人
谈一谈我对
强化学习
的理解
1.Q_learning算法Q_learning算法是最基础
强化学习
算法,适用于离散状态和动作Q_laerning算法的本质是维护一张Q_table表,通过不断迭代,修正Q(s,a),然后根据s,推荐s
算法小菜鸟成长心得
·
2025-06-02 15:30
机器学习
人工智能
强化学习
的前世今生(四)— DDPG算法
接前三篇
强化学习
的前世今生(一)
强化学习
的前世今生(二)
强化学习
的前世今生(三)—PPO算法本文为大家介绍DDPG算法6DDPG前文所述方法存在两个问题,第一,因为得到的是随机性策略(StochasticPolicy
小于小于大橙子
·
2025-06-01 17:50
算法
人工智能
自动化
强化学习
学习
强化学习
Reinforcement Learning与逆
强化学习
:理论与实践
强化学习
,逆
强化学习
,
强化学习
算法,逆
强化学习
算法,深度
强化学习
,应用场景1.背景介绍在人工智能领域,
强化学习
(ReinforcementLearning,
RL
)作为一种模仿人类学习的智能算法,近年来取得了显著进展
AGI大模型与大数据研究院
·
2025-06-01 16:16
AI大模型应用开发实战
java
python
javascript
kotlin
golang
架构
人工智能
强化学习
的前世今生(五)— SAC算法
书接前四篇
强化学习
的前世今生(一)
强化学习
的前世今生(二)
强化学习
的前世今生(三)—PPO算法
强化学习
的前世今生(四)—DDPG算法本文为大家介绍SAC算法7SAC7.1最大熵
强化学习
在信息论中,熵(entropy
小于小于大橙子
·
2025-06-01 16:46
算法
概率论
强化学习
人工智能
自动驾驶
AI
[智能算法]蚁群算法原理与TSP问题示例
Python实现与可视化3.1算法核心类设计3.2参数敏感性实验3.3可视化分析四、关键参数调优指南4.1基准参数范围4.2动态调参策略4.3性能优化技巧五、扩展应用与前沿方向5.1多目标优化问题5.2深度
强化学习
融合
七刀
·
2025-06-01 00:23
智能算法
算法
注意力机制:通道注意力机制、空间注意力机制、CBAM(附有完整代码)
在深度学习中,注意力机制被广泛应用于各种任务,如自然语言处理、计算机视觉和
强化学习
等领域。注意力机制的核心
一个来路不明的吃货
·
2025-05-31 20:24
python
深度学习
人工智能
conda
pycharm
【自然语言处理与大模型】大模型(LLM)基础知识⑤
技术层面:技术手段描述
强化学习
与指令微调通过
强化学习
(如RLHF)或指令微调,让模型更倾向于生成合规、
小oo呆
·
2025-05-31 01:42
【自然语言处理与大模型】
自然语言处理
人工智能
中科院提出ConRFT:让机器人灵活穿针,
强化学习
微调!
从技术角度分析,传统
强化学习
在VLA模型中的应用也面临困境。尽管
强化学习
在
xwz小王子
·
2025-05-30 21:39
扩散策略
具身智能
强化学习及自动驾驶
机器人
Med-R1论文阅读理解-1
本文提出了一种名为Med-R1的新框架,旨在通过
强化学习
(ReinforcementLearning,
RL
)提升视觉-语言模型(Vision-LanguageModels,VLMs)在医疗领域的推理能力与泛化能
要努力啊啊啊
·
2025-05-30 10:19
大模型论文阅读
论文阅读
人工智能
深度学习
英伟达:LLM多任务和语言的偏好数据集
Preference:OpenHuman-AnnotatedPreferenceDataacrossDiverseTasksandLanguages来源:arXiv,2505.11475摘要偏好数据集对于使用人类反馈
强化学习
大模型任我行
·
2025-05-30 08:06
大模型-模型训练
人工智能
自然语言处理
语言模型
论文笔记
亚远景-AI 快速入门与ML-SPICE标准引入课程
课程内容:模块1:AI战略与基础1.AI驱动的商业价值机器学习在汽车/制造行业的核心应用场景企业AI转型的3大关键成功要素2.ML机器学习基础核心概念:监督学习/无监督学习/
强化学习
模型架构概览:CNN
亚远景aspice
·
2025-05-30 02:47
人工智能
REINFORCE蒙特卡罗策略梯度算法详解:python从零实现
以下是翻译后的Markdown文档:引言
强化学习
(ReinforcementLearning,
RL
)的目标是训练智能体(agent
AI仙人掌
·
2025-05-29 17:40
复现强化学习RL算法
算法
python
开发语言
[特殊字符] 基于深度
强化学习
的机器人路径规划优化方案:从理论到实战
摘要本文提出一种融合深度确定性策略梯度(DDPG)与图卷积网络(GCN)的混合架构,针对高动态环境下移动机器人路径规划问题展开研究。通过自研仿真平台验证,该方案在动态障碍物规避、路径平滑度等维度较传统A*算法提升显著,同时兼顾实时性要求。完整代码与训练日志已开源至GitHub,诚邀技术同仁共同探讨。一、核心痛点分析1.1传统算法局限性算法类型优势劣势Dijkstra理论最优性计算复杂度O(V²),
2506_92092175
·
2025-05-29 13:49
python
强化学习
实战:训练AI玩转OpenAI Gym
强化学习
实战:训练AI玩转OpenAIGym系统化学习人工智能网站(收藏):https://www.captainbed.cn/flu文章目录
强化学习
实战:训练AI玩转OpenAIGym摘要引言
强化学习
基础与算法分类
layneyao
·
2025-05-29 08:18
ai
人工智能
Gemini 前世今生全面的信息介绍
DeepMind在人工智能领域拥有深厚的积累,尤其是在
强化学习
和大型语言模型方面。G
视频砖家
·
2025-05-28 02:00
Gemini
Gemini
deepseek
Kimi工具
动手学
强化学习
第 11 章 TRPO 算法(TRPOContinuous) 训练代码
基于Hands-on-
RL
/第11章-TRPO算法.ipynbatmain·boyu-ai/Hands-on-
RL
·GitHub理论TRPO算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2
zhqh100
·
2025-05-27 22:30
算法
人工智能
强化学习
pytorch
IPPO算法
目录文章目录目录简介问题建模多智能体
强化学习
的基本求解范式IPPO算法IPPO代码实践总结参考资料简介之前介绍的算法都是单智能体
强化学习
算法,其基本假设是动态环境是稳态的(stationary),即状态转移概率和奖励函数不变
后厂村路小狗蛋
·
2025-05-26 20:25
UCAS强化学习算法
算法
人工智能
机器人
Missashe考研日记—Day44-Day50
Missashe考研日记—Day44-Day50写在面前本系列博客用于记录博主一周的学习进度,具体知识总结在目前已有的笔记中:1.高数
强化学习
笔记2.计网复习笔记3.新增:线代题型总结专业课408这周先是把计网第三章数据链路层剩下的局域网以及之后的内容学完了
LVerrrr
·
2025-05-26 17:40
考研备考
考研
学习
AI人工智能与自动驾驶的融合创新实践
AI人工智能与自动驾驶的融合创新实践关键词:人工智能、自动驾驶、深度学习、计算机视觉、传感器融合、路径规划、
强化学习
摘要:本文深入探讨了人工智能技术在自动驾驶领域的创新应用与实践。
AI智能探索者
·
2025-05-26 11:34
AI
Agent
智能体开发实战
人工智能
自动驾驶
机器学习
ai
强化学习
推动 AI 智能物流路径规划的智能化转型
强化学习
推动AI智能物流路径规划的智能化转型关键词:
强化学习
、智能物流、路径规划、Q-learning、深度
强化学习
、动态优化、仓储自动化摘要:本文探讨了
强化学习
技术在智能物流路径规划中的应用与创新。
AIGC应用创新大全
·
2025-05-26 04:54
人工智能
ai
DeepSeek本地私有部署(基于Ollama)
DeepSeek在短短一年多的时间里取得了显著的进展,推出了多个引人注目的开源模型,包括DeepSeekCoder、DeepSeekLLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-
Rl
奶羊cnk
·
2025-05-26 04:21
人工智能
deepseek
聚焦AI人工智能在自动驾驶的关键技术点
聚焦AI人工智能在自动驾驶的关键技术点关键词:自动驾驶、人工智能、感知算法、决策规划、深度学习、
强化学习
、多模态融合摘要:本文系统解析人工智能在自动驾驶中的核心技术体系,深度剖析环境感知、决策规划、控制执行三大核心模块的关键技术点
AI天才研究院
·
2025-05-25 15:53
计算
AI大模型应用入门实战与进阶
AI
Agent
应用开发
ai
强化学习
的前世今生(二)
接上篇
强化学习
的前世今生(一),本文主要介绍
强化学习
中的蒙特卡洛算法,TD算法,策略梯度算法以及Actor-Critic算法2蒙特卡洛和TD2.1蒙特卡洛方法在
强化学习
中,蒙特卡洛(MonteCarl0
小于小于大橙子
·
2025-05-25 14:50
人工智能
算法
自动化
学习
使用MATLAB和Simulink进行基于
强化学习
的双足机器人步态控制仿真
目录一、准备工作二、步骤详解1.启动Simulink并创建新模型2.构建双足机器人简化模型3.设计
强化学习
环境
强化学习
环境概述4.实现
强化学习
控制器5.训练
强化学习
代理6.增加示波器观察输出7.配置仿真参数
xiaoheshang_123
·
2025-05-25 14:47
MATLAB
开发项目实例
1000
例专栏
手把手教你学
MATLAB
专栏
simulink
秒懂基于人类反馈的
强化学习
(RLHF)
一、RLHF:AI界的"职场新人培训手册"想象一下,你刚入职一家公司,老板甩给你一堆文件说:“看懂了就能上岗”。这就是传统语言模型的日常——靠海量文本自学成才。结果呢?它可能把"写封面试邀请邮件"理解成列待办清单,把"5+5等于多少"回答成"建议买计算器"。这时候,RLHF就像HR部门推出的《职场生存指南》,手把手教AI理解人类社会的潜规则。它用三步魔法让AI从"代码社畜"进阶为"职场达人":二、
来自于狂人
·
2025-05-25 09:18
人工智能
AI“高情商”奥秘,LLM多轮情感对话新突破!
❝一句话概括,论文教你如何把ChatGPT调教成PUA大师:用
强化学习
给安慰话术标价,让每个’多喝热水’都经过长期回报精算第一阶段:识别核心概念论文的motivation分析情感支持对话(EmotionalSupportConversation
Python_金钱豹
·
2025-05-25 06:23
人工智能
chatgpt
知识图谱
语言模型
ui
机器学习
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他