E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习
强化学习
之 DQN、Double DQN、PPO
文章目录通俗理解DQNDoubleDQNPPO结合公式理解通俗理解DQN一个简单的比喻和分步解释来理解DQN(DeepQ-Network,深度Q网络),就像教小朋友学打游戏一样:先理解基础概念:Q学习(Q-Learning)想象你在教一只小狗玩电子游戏(比如打砖块)。小狗每做一个动作(比如“向左移动”或“发射球”),游戏会给出一个奖励(比如得分增加)或惩罚(比如球掉了)。小狗的目标是通过不断尝试,
JNU freshman
·
2025-07-11 22:16
强化学习
强化学习
Python
强化学习
算法实用指南(三)
:annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者:飞龙协议:CCBY-NC-SA4.0第十一章:理解黑盒优化算法在前几章中,我们研究了
强化学习
绝不原创的飞龙
·
2025-07-11 12:07
默认分类
默认分类
Python
强化学习
算法实用指南(二)
annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者:飞龙协议:CCBY-NC-SA4.0第六章:学习随机优化与PG优化到目前为止,我们已经探讨并开发了基于价值的
强化学习
算法
·
2025-07-11 11:59
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting
TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口(Length-TriggerTagsasControllingInterface)3.2冷启动微调(Cold-startfine-tuning)3.3难度感知的
强化学习
框架
quintus0505
·
2025-07-11 00:16
LLM
论文阅读
语言模型
【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem
论文中使用一个PointerFormer模型编码器部分:可逆残差模型堆叠解码器部分:指针网络自回归对于一次任务而言,推理阶段:编码器部分:一次解码器部分:循环N次,直至任务结束在训练阶段,使用
强化学习
,
Booksort
·
2025-07-10 18:12
online笔记
论文
论文阅读
transformer
深度学习
四、Actor-Critic Methods
再此说明,非常推荐B站“王树森老师的DRL
强化学习
”本文的图表及内容,都是基于王老师课程的后自行理解整理出的内容。
沈夢昂志
·
2025-07-10 14:14
DRL深度强化学习
python
深度学习
语言模型 RLHF 实践指南(一):策略网络、价值网络与 PPO 损失函数
在使用ProximalPolicyOptimization(PPO)对语言模型进行
强化学习
微调(如RLHF)时,大家经常会问:策略网络的动作概率是怎么来的?价值网络的得分是如何计算的?奖励从哪里来?
·
2025-07-10 09:12
【零基础学AI】第33讲:
强化学习
基础 - 游戏AI智能体
本节课你将学到理解
强化学习
的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium
1989
·
2025-07-09 11:16
0基础学AI
人工智能
游戏
transformer
分类
深度学习
神经网络
在Carla上应用深度
强化学习
实现自动驾驶(一)
carla环境下基于
强化学习
的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章,主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据
寒霜似karry
·
2025-07-09 09:08
自动驾驶
人工智能
机器学习
【AI论文】Skywork-Reward-V2:通过人机协同实现偏好数据整理的规模化扩展
摘要:尽管奖励模型(RewardModels,RMs)在基于人类反馈的
强化学习
(ReinforcementLearningfromHumanFeedback,RLHF)中发挥着关键作用,但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳
·
2025-07-09 09:37
多智能体深度
强化学习
:一项综述 Multi-agent deep reinforcement learning: a survey
Abstract抽象Theadvancesinreinforcementlearninghaverecordedsublimesuccessinvariousdomains.Althoughthemulti-agentdomainhasbeenovershadowedbyitssingle-agentcounterpartduringthisprogress,multi-agentreinforc
资源存储库
·
2025-07-08 17:48
笔记
r语言改变数据框列名_数据决定离线
强化学习
将如何改变我们的语言习惯
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
杨_明
·
2025-07-08 17:47
python
大数据
人工智能
java
机器学习
ReAct (Reason and Act) OR
强化学习
(Reinforcement Learning, RL)
简单来说,ReAct是一种“调用专家”的模式,而
强化学习
(RL)是一种“从零试错”的模式。为了让你更清晰地理解,我们从一个生动的比喻开始,然后进行详细的对比。
SugarPPig
·
2025-07-08 16:44
人工智能
人工智能
【AI论文】GLM-4.1V-思考:借助可扩展
强化学习
实现通用多模态推理
随后,借助课程采样
强化学习
(ReinforcementLearningwithCurriculumSampling,R
东临碣石82
·
2025-07-08 04:43
人工智能
【心灵鸡汤】深度学习技能形成树:从零基础到AI专家的成长路径全解析
引言:技能树的生长哲学在这个人工智能浪潮汹涌的时代,深度学习犹如一棵参天大树,其根系深深扎入数学与计算科学的沃土,主干挺拔地承载着机器学习的核心理念,而枝叶则繁茂地延伸至计算机视觉、自然语言处理、
强化学习
等各个应用领域
智算菩萨
·
2025-07-07 19:06
人工智能
深度学习
【机器学习笔记 Ⅱ】10 完整周期
关键问题:这是分类、回归、聚类还是
强化学习
问题?成功的标准是什么?(如准确率>90%、降低10%成本)输出:项目目标文档(含评估指标)。2.数据收集(DataC
·
2025-07-07 12:24
大模型RLHF
强化学习
笔记(二):
强化学习
基础梳理Part2
一、
强化学习
基础1.4
强化学习
分类根据数据来源划分Online:智能体与环境实时交互,如Q-Learning、SARSA、Actor-CriticOffline:智能体使用预先收集的数据集进行学习根据策略更新划分
Gravity!
·
2025-07-07 11:17
大模型
笔记
大模型
LLM
强化学习
人工智能
用
强化学习
让你的检索增强生成系统“开挂”——从小白到王者的实战指南
“RAG不准?RL来救场!”——一位被RAG气哭的AI工程师前言:RAG的烦恼与AI炼丹师的自我修养在AI圈混久了,大家都知道RAG(Retrieval-AugmentedGeneration,检索增强生成)是大模型落地的“万金油”方案。无论是企业知识库、智能问答,还是搜索引擎升级,RAG都能插上一脚。但你用过RAG就知道,理想很丰满,现实很骨感。明明知识库里啥都有,问个“量子比特的数学表达式”,
许泽宇的技术分享
·
2025-07-07 09:58
人工智能
机器学习18-
强化学习
RLHF
机器学习18-
强化学习
RLHF1-什么是RLHFRLHF(ReinforcementLearningfromHumanFeedback)即基于人类反馈的
强化学习
算法,以下是详细介绍:基本原理RLHF是一种结合了
强化学习
和人类反馈的机器学习方法
坐吃山猪
·
2025-07-07 05:01
机器学习
机器学习
人工智能
策略梯度在网络安全中的应用:AI如何防御网络攻击
策略梯度在网络安全中的应用:AI如何防御网络攻击关键词:策略梯度、网络安全、AI防御、
强化学习
、网络攻击、入侵检测、自适应防御摘要:本文将探讨策略梯度这一
强化学习
算法在网络安全领域的创新应用。
AI智能探索者
·
2025-07-06 13:01
web安全
人工智能
安全
ai
2024大模型秋招LLM相关面试题整理
强化学习
:(ReinforcementLearning)一种机器学习的方法,
AGI大模型资料分享官
·
2025-07-06 04:55
人工智能
深度学习
机器学习
自然语言处理
语言模型
easyui
【深度学习】
强化学习
(Reinforcement Learning, RL)主流架构解析
强化学习
(ReinforcementLearning,RL)主流架构解析摘要:本文将带你深入了解
强化学习
(ReinforcementLearning,RL)的几种核心架构,包括基于价值(Value-Based
烟锁池塘柳0
·
2025-07-05 19:49
机器学习与深度学习
深度学习
人工智能
机器学习
返利佣金最高软件的技术壁垒:基于
强化学习
的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒:基于
强化学习
的动态佣金算法架构揭秘大家好,我是阿可,微赚淘客系统及省赚客APP创始人,是个冬天不穿秋裤,天冷也要风度的程序猿!
·
2025-07-05 18:12
农业物联网平台中的灌溉系统研究
系统将采用Python作为主要开发语言,结合MySQL数据库进行数据存储与管理,利用ECharts.js实现数据可视化展示,并引入机器学习和
强化学习
算法优化灌溉决策。
sj52abcd
·
2025-07-05 07:28
农业物联网和人工智能
物联网
数据分析
python
大数据
毕业设计
用于人形机器人
强化学习
运动的神经网络架构分析
1.引言:人形机器人运动
强化学习
中的架构探索人形机器人具备在多样化环境中自主运行的巨大潜力,有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。
·
2025-07-05 04:08
人形机器人运动控制技术演进:从
强化学习
到神经微分方程的前沿解析
1.引言:人形运动控制的挑战与范式迁移人形机器人需在非结构化环境中实现双足行走、跑步、跳跃等复杂动作,其核心问题可归结为高维连续状态-动作空间的实时优化。传统方法(如基于模型的预测控制MPC)依赖精确的动力学建模,但在实际系统中面临以下瓶颈:模型失配:复杂接触动力学(如足-地交互)难以显式建模;计算瓶颈:高维非线性优化难以满足实时性需求;环境扰动敏感:传统控制器对未知干扰的鲁棒性不足。近年来,以强
·
2025-07-05 00:15
NVIDIA Isaac GR00T N1.5 人形机器人
强化学习
入门教程(五)
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器(tune_visual)1.2.1.2语言模型(tune_llm)1.2.1.3投影器(tune_projector)1.2.1.4扩散模型(tune_diffusion_model)1.2.2理解数据转换1.2
强化学习与机器人控制仿真
·
2025-07-05 00:15
机器人与具身智能
人工智能
机器人
深度学习
神经网络
强化学习
模仿学习
具身智能
强化学习
:Deep Deterministic Policy Gradient (DDPG) 学习笔记
一、DDPG是什么?1.1核心概念DDPG=Deep+Deterministic+PolicyGradientDeep:使用深度神经网络和类似DQN的技术(经验回放、目标网络)Deterministic:输出确定的动作(而不是概率分布)PolicyGradient:基于策略梯度的方法,优化策略以最大化累积奖励1.2算法特点特性说明连续动作空间直接输出连续动作值(如方向盘角度、机器人关节扭矩)离线学
烨川南
·
2025-07-04 22:00
强化学习
学习
笔记
算法
人工智能
机器学习
提升自动驾驶导航能力:基于深度学习的场景理解技术
本研究提出一种基于深度学习的新方法,将目标识别、场景分割、运动预测与
强化学习
相结合以提升导航性能。该方法首先采用U-Net架构分解
星辰和大海都需要门票
·
2025-07-04 21:21
路径规划算法
自动驾驶
深度学习
人工智能
【EI复现】基于深度
强化学习
的微能源网能量管理与优化策略研究(Python代码实现)
本文目录如下:目录1概述一、微能源网能量管理的基本概念与核心需求二、深度
强化学习
(DRL)在微能源网中的应用优势三、关键技术挑战四、现有基于DRL的优化策略案例五、相关研究文档的典型结构与撰写规范六、结论与未来方向
·
2025-07-04 19:41
强化学习
贝尔曼方程推导
引言
强化学习
中贝尔曼方程的重要性就不说了,本文利用高中生都能看懂的数学知识推导贝尔曼方程。
愤怒的可乐
·
2025-07-04 01:07
强化学习
人工智能
概率论
机器学习
算法
强化学习
RLHF详解
RLHF(ReinforcementLearningfromHumanFeedback)模型详解一、背景1.传统
强化学习
的局限性传统的
强化学习
(ReinforcementLearning,RL)依赖于预定义的奖励函数
贝塔西塔
·
2025-07-04 01:36
强化学习
大模型
人工智能
深度学习
机器学习
算法
语言模型
强化学习
【chapter0】-学习路线图
前言:主要总结一下西湖大学赵老师的课程【
强化学习
的数学原理】课程:从零开始到透彻理解(完结)_哔哩哔哩_bilibili1️⃣基础阶段(Ch1-Ch7):掌握表格型算法,理解TD误差与贝尔曼方程2️⃣进阶阶段
明朝百晓生
·
2025-07-03 22:48
算法
人工智能
机器学习
讯飞星火深度推理模型X1,为教育医疗带来革新
它通过大规模多阶段
强化学习
训练方法,在复杂推理、数学、代码、语言理解等场景全面
·
2025-07-03 21:42
Instrct-GPT
强化学习
奖励模型 Reward modeling 的训练过程原理实例化详解
Instrct-GPT
强化学习
奖励模型Rewardmodeling的训练过程原理实例化详解一、批次处理的本质:共享上下文的比较对捆绑(1)为什么同一prompt的比较对必须捆绑?
John_今天务必休息一天
·
2025-07-03 06:19
2_大语言模型基础
#
2.2
生成式预训练语言模型GPT
gpt
log4j
语言模型
人工智能
自然语言处理
算法
(ML,监督学习,半监督学习,零监督学习,
强化学习
,深度学习,机器学习步骤等)
1、什么是机器学习?机器学习(MachineLearning,ML)是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据,自动学习规律并构建模型,从而对未知数据进行预测或决策,而无需依赖显式的程序指令。基本思想:通过数据驱动的方式,使系统能够从经验(数据)中改进性能,形成对数据模式的抽象化表达。基本概念:模型:模型是对现实世界现
weisian151
·
2025-07-02 16:38
人工智能
人工智能
机器学习
学习
Keras环境复现代码(三)
DQN雅达利Breakout
强化学习
实验要求明确实验目的:学习和实现深度Q学习(DQN),这是一种结合了Q学习和深度神经网络的
强化学习
算法,用于解决复杂的决策问题。
yanyiche_
·
2025-07-02 10:52
keras
深度学习
人工智能
Keras环境复现代码(二)
清楚实验原理:PPO算法是一种基于策略梯度的
强化学习
算法,它旨在解决传统策略梯度方法(如REINFORCE算法)在训练过程中可能出现的策略更新不稳定问题。
yanyiche_
·
2025-07-02 10:52
Keras
机器学习
人工智能
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体
强化学习
(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。
·
2025-07-01 08:22
利用视觉-语言模型搭建机器人灵巧操作的支架
虽然
强化学习
(RL)可以通过在模拟中积累经验来缓解数据瓶颈,但它通常依赖于精心设计的、针对特定任务的奖励函数,这阻碍了其可扩展性和泛化能力。
三谷秋水
·
2025-07-01 07:21
智能体
大模型
计算机视觉
语言模型
机器人
人工智能
计算机视觉
机器学习
常见的
强化学习
算法分类及其特点
强化学习
(ReinforcementLearning,RL)是一种机器学习方法,通过智能体(Agent)与环境(Environment)的交互来学习如何采取行动以最大化累积奖励。
ywfwyht
·
2025-06-30 01:29
人工智能
算法
分类
人工智能
星际争霸多智能体挑战赛(SMAC)
TheStarCraftMulti-AgentChallenge星际争霸多智能体挑战赛Abstract摘要1Introduction1引言2RelatedWork2相关工作3Multi-AgentReinforcementLearning3多智能体
强化学习
资源存储库
·
2025-06-29 16:55
多智能体强化学习
人工智能
AlphaStar 星际首秀,人工智能走向星辰大海
文/王晶,资深工程师,GoogleBrain团队作者王晶,现为GoogleBrain团队的资深工程师,主要致力深度
强化学习
的研发,和DeepMind团队在
强化学习
的应用上有许多合作。
谷歌开发者
·
2025-06-29 16:23
Deepoc大模型在半导体设计优化与自动化
通过
强化学习
框架(如PPO算法)动态调整掺杂浓度、栅极长度等关键参数,在3nm节点下实现驱动电流提升18%的同时降
Deepoch
·
2025-06-29 13:32
自动化
运维
人工智能
机器人
单片机
ai
科技
【行云流水a】淘天联合爱橙开源
强化学习
训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现
强化学习
算法PPO
强化学习
框架verl 港大等开源GoT-R1
两者是
强化学习
的核心算法,但在设计理念、适用场景和实现机制上有显著差异:graphTDA[对比维度]-->B[算法类型]A-->C[策略表示]A-->D[动作空间]A-->E[学习机制]A-->F[探索方式
行云流水AI笔记
·
2025-06-29 07:55
开源
算法
PettingZoo:多智能体
强化学习
的标准API
PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体
强化学习
的标准API目录Abstract摘要1Introduction1
资源存储库
·
2025-06-29 02:46
多智能体强化学习
人工智能
深度学习
神经网络架构搜索
1.神经网络架构搜索方法分类当前,神经网络架构搜索的方法主要可以归纳为以下三类:a.基于
强化学习
的NAS方法
IJCAST主编
·
2025-06-28 23:49
进化计算
神经网络
架构
人工智能
强化学习
16G实践以下是基于CQL(Conservative Q-Learning)与QLoRA(Quantized Low-Rank Adaptation)结合的方案相关开源项目及资源,【ai技】
根据你提供的CUDA版本(11.5)和NVIDIA驱动错误信息,以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案:1.版本兼容性表框架兼容CUDA版本推荐安装命令(CUDA11.5)PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
行云流水AI笔记
·
2025-06-28 19:19
开源
人工智能
大模型RLHF
强化学习
笔记(一):
强化学习
基础梳理Part1
一、
强化学习
基础1.1Intro定义:
强化学习
是一种机器学习方法,需要智能体通过与环境交互学习最优策略基本要素:状态(State):智能体在决策过程中需要考虑的所有相关信息(环境描述)动作(Action
Gravity!
·
2025-06-28 18:10
大模型
笔记
大模型
LLM
算法
机器学习
强化学习
人工智能
LLMs基础学习(八)
强化学习
专题(7)
LLMs基础学习(八)
强化学习
专题(7)文章目录LLMs基础学习(八)
强化学习
专题(7)Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接:https://www.bilibili.com
汤姆和佩琦
·
2025-06-28 08:03
NLP
学习
Actor-Critic
算法
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他