dqn

【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1

以下是DQN（DeepQ-Network）和PPO（ProximalPolicyOptimization）的全面对比流程图及文字解析。

行云流水AI笔记·2025-06-29 07:55

机器学习赋能多尺度材料模拟：前沿技术会议邀您共探

会议将深度融合分子动力学模拟（MD）、第一性原理计算（DFT）等微观模拟方法，以及机器学习（ML）与强化学习（DQN）等前沿算法，通过锂硫电池、压电催化、催化转化等实战案例，展示如何利用“数据驱动+物理建

m0_75133639·2025-06-20 09:30

深度强化学习应用：基于Double DQN算法的移动机器人路径跟踪技术解析

前言随着智能控制与机器人技术的不断发展，深度强化学习（DRL）作为一种具有强大自学习能力的技术，已经在机器人领域获得了广泛应用。尤其是在路径跟踪问题中，传统的控制算法往往依赖于模型和假设，而深度强化学习则能够通过大量的训练数据让机器人自主学习如何优化其行为策略，从而实现高效的路径跟踪。本文将深入探讨基于**DoubleDQN（DoubleDeepQ-Network）**算法的移动机器人路径跟踪问题

威哥说编程·2025-06-18 02:40

用深度强化学习玩atari游戏_Pytorch深度强化学习 1.用DQN解决Atari game

我一直对强化学习感兴趣，这学期正好选了一门强化学习的课，第一次作业是让复现DQN。这几年也看了不少DQN的代码，但要自己实现起来，还是犯晕，效率很低。

·2025-06-16 11:16

基于深度强化学习（Deep Q-Network, DQN）的运输路径优化系统

这是一个基于深度强化学习（DeepQ-Network,DQN）的运输路径优化系统。

欣然～·2025-06-13 01:59

《Python星球日记》第84天：Q-Learning 与 DQN

Coder）目录一、强化学习基础回顾1.核心元素与术语二、Q-Learning算法详解1.Q表更新公式2.探索与利用（ExplorationvsExploitation）3.Q-Learning示例三、DQN

Code_流苏·2025-06-10 04:55

强化学习实战：训练AI玩转OpenAI Gym

www.captainbed.cn/flu文章目录强化学习实战：训练AI玩转OpenAIGym摘要引言强化学习基础与算法分类1.核心概念与数学表示2.算法分类与典型应用场景实战一：CartPole任务——从Q-Learning到DQN1

layneyao·2025-05-29 08:18

[转载]DQN的例子--迷宫问题

Fromhttps://segmentfault.com/a/1190000018120424代码可以参见https://blog.csdn.net/bbbeoy/...，本文我做了一些改动目前，强化学习中很火的当属Q-Learning了，关于Q-Learning的具体介绍请参加我上一篇文章。从上一篇文章中，我们可以看到，Qtable可以看做Q-Learning的大脑，Qtable对应了一张sta

Ritter_Liu·2025-05-21 07:22

深入理解深度确定性策略梯度DDPG：基于python从零实现

它结合了深度Q网络（DQN）中的思想，例如回放缓存和目标网络，并将其应用于演员-评论家框架，适应确定

AI仙人掌·2025-05-17 02:30

深度理解用于多智能体强化学习的单调价值函数分解QMIX算法：基于python从零实现

简单的独立学习方法（比如每个智能体都运行DQN）往往行不通，因为它把其他智能体当作了非静态环境的一部分，而且在功劳分配上也搞不定。价值分解方

AI仙人掌·2025-05-16 17:00

基于深度强化学习的网约车动态路径规划

从而提高了交通效率.作为平台核心模块，网约车路径规划问题致力于调度空闲的网约车以服务潜在的乘客，从而提升平台的运营效率，近年来受到广泛关注.现有研究主要采用基于值函数的深度强化学习算法(如deepQ-network,DQN

罗伯特之技术屋·2025-05-15 16:24

强化学习算法：深度 Q 网络 (DQN) 原理与代码实例讲解

强化学习算法：深度Q网络(DQN)原理与代码实例讲解关键词：强化学习,深度Q网络(DQN),深度神经网络,动作策略,奖励函数,探索-利用平衡,经验回放(ExperienceReplay),多智能体1.背景介绍

AI大模型应用实战·2025-05-12 13:08

深度 Qlearning：深度Qlearning VS DQN

其中，深度Q-learning和DQN（DeepQ-Networks）是两种最为经典的深度强化学习算法，它

SuperAGI2025·2025-05-12 13:07

A3C框架

文章目录一、动机二、A3C算法一、动机基于AC框架的算法很难收敛，因此可以采用DQN的经验回放的方法降低数据间的相关性，基于这种思想A3C算法采用异步的思想降低数据间的差异性，具体做法：在多个线程里与环境进行交互

LeeKooktao·2025-05-08 16:53

深度强化学习（DRL）实战：从AlphaGo到自动驾驶

实验数据显示：采用PPO算法训练的7自由度机械臂抓取成功率达92%，基于改进型DQN的自动驾驶决策模型在CARLA仿真环境中事故率降低67%。

layneyao·2025-04-28 02:14

DQN算法：演进、原理推导及代码实现

文章目录引言一、DQN的演进1.1传统Q学习的局限1.2DQN的提出和改进1.3核心原理：用神经网络近似Q函数二、DQN的原理推导2.1马尔可夫决策过程2.2Q值函数与Q学习2.3DQN的函数逼近2.4

艰默·2025-04-25 10:07

深度强化学习（DRL）框架与多目标调度优化详解

深度强化学习（DRL）框架与多目标调度优化详解（截至2025年4月，结合最新研究进展）一、DRL主流框架及核心算法通用DRL框架RayRLlib：支持分布式训练，集成PPO、A3C、DQN等算法，适用于大规模多目标调度场景

大霸王龙·2025-04-14 05:11

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

目录强化学习（Q-learning、DQN）——理论、案例与交互式GUI实现一、引言二、强化学习基本原理2.1强化学习框架2.2Q值函数三、Q-learning算法3.1算法原理3.2算法流程四、深度Q

闲人编程·2025-04-13 02:16

强化学习：继续看 Q-Learning + FrozenLake，解决更大的地图 8x8, 10x10

比如DQN,我试了，失败

waterHBO·2025-04-11 15:58

【迷宫路径规划】强化学习DQN网格迷宫路径规划【含Matlab源码 8028期】

Matlab领域博客之家博主简介：985研究生，Matlab领域科研开发者；个人主页：Matlab领域代码获取方式：CSDNMatlab领域—代码获取方式座右铭：路漫漫其修远兮，吾将上下而求索。更多Matlab路径规划仿真内容点击①Matlab路径规划（高阶版）②付费专栏Matlab路径规划（进阶版）③付费专栏Matlab路径规划（初级版）⛳️关注CSDNMatlab领域，更多资源等你来！！⛄一、

Matlab领域·2025-04-09 13:33

DQN与深度学习模型的融合:CNN_RNN与DQN

其中，深度Q网络（DQN）作为DRL的代表性算法之一，因其强大的学习能力和泛化能力而备受关注。然而，传统的DQN算法通常采用全连接神经网络作为函数逼近器，难以有效地处理高维数据和复杂环境。

AGI大模型与大数据研究院·2025-04-07 07:18

从奖励到最优决策：动作价值函数与价值学习

UtU_tUt求期望得到动作价值函数动作价值函数的意义最优动作价值函数(OptimalAction-ValueFunction)如何理解Q∗Q^*Q∗函数价值学习的基本思想DeepQ-Network(DQN

KangkangLoveNLP·2025-04-06 23:27

《Python实战进阶》No37: 强化学习入门：Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

在《Python实战进阶》No37:强化学习入门：Q-Learning与DQN这篇文章中，我们介绍了Q-Learning算法走出迷宫的代码实践，本文加餐，把Q-Learning算法通过代码可视化呈现。

带娃的IT创业者·2025-03-28 00:11

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行

1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用

AI天才研究院·2025-03-20 18:45

PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化

在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。

进取星辰·2025-03-18 19:17

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望

wlz249·2025-03-18 16:28

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法“好的代码如同山水画，既要工笔细描，又要留白写意”——一个在终端前顿悟的开发者DQN是Q-Learning算法与深度神经网络的结合体，通过神经网络近似Q值函数

带上一无所知的我·2025-03-09 21:28

强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

文章目录前言DQN简介环境简介任务实现说开来去我的Github实现：gym（GitHub）本篇博客主要是个人实现过程的主观感受，如果想要使用模型可以直接去GitHub仓库，注释完善且规范。

abstcol·2025-03-05 14:12

强化学习的数学原理-六、随机近似与随机梯度下降

代码来自up主【强化学习的数学原理-作业】GridWorld示例代码（已更新至DQN、REINFORCE、A2C）_哔哩哔哩_bilibiliSGD、GD、MGD举例：#先初始化一个列表，未来要在这100

儒雅芝士·2025-03-02 15:24

《深度Q网络优化：突破高维连续状态空间的束缚》

在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。

·2025-02-15 18:22

DQN的原理和代码实现

文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind

SmallerFL·2025-02-15 15:23

DQN原理和代码实现

参考：王树森《强化学习》书籍、课程、代码1、基本概念折扣回报：Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.U_t=R_t+\gamma\cdotR_{t+1}+\gamma^2\cdotR_{t+2}+\cdots+\gamma^{n-t}\cdotR_n.Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.动作价值函数：Qπ(st,at)=E[Ut∣St=st,At=

KPer_Yang·2025-02-15 14:20

一切皆是映射：域适应在DQN中的研究进展与挑战

1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(DeepReinforcementLearning,DRL)在近年来取得了瞩目的成就，从Atari游戏到围棋，再到机器人控制，其强大的学习能力令人惊叹。然而，DRL的成功往往依赖于大量高质量的训练数据，而这些数据在现实世界中往往难以获取或成本高昂。这使得DRL的应用受到了很大的限制。域适应(DomainAdaptation)作为迁移学习的一

AI天才研究院·2025-02-10 00:33

DQN深度强化学习：CartPole倒立摆任务（完整代码）

文章目录一、什么是DQN？二、什么是CartPole**推车**倒立摆任务？

林泽毅·2025-02-08 21:45

【Dec 5th to Dec 11th 】Personal work record | 人工智能面试题：什么是深度Q网络（Deep Q-Network，DQN）？它在强化学习中的作用是什么？

“若要得到救赎，必先承受痛苦。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！

追光者♂·2025-02-06 14:34

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望

科研_G.E.M.·2025-02-02 16:36

pytorch深度Q网络

DQN引入了深度神经网络来近似Q函数，解决了传统Q-learning在处理高维状态空间时的瓶颈，尤其是在像Atari游戏这样的复杂环境中。

纠结哥_Shrek·2025-01-30 23:31

深度强化学习在高频交易中的动态策略优化与收益提升

文章目录1.高频交易的核心挑战与强化学习的适应性1.1高频交易中的核心问题1.2强化学习的适配性分析2.基于深度Q网络（DQN）的高频交易策略设计2.1状态空间构建：从LOB到特征工程2.2动作空间与奖励函数设计

二进制独立开发·2025-01-26 04:36

强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN

强化学习代码实践1.DDQN:在CartPole游戏中实现DoubleDQN1.导入依赖2.定义Q网络3.创建Agent4.训练过程5.解释6.调整超参数在CartPole游戏中实现DoubleDQN（DDQN）训练网络时，我们需要构建一个使用两个Q网络（一个用于选择动作，另一个用于更新目标）的方法。DoubleDQN通过引入目标网络来减少Q-learning中过度估计的偏差。下面是一个基于PyT

洪小帅·2025-01-23 12:58

动态规划，蒙特卡洛，TD,Qlearing,Sars,DQN,REINFORCE算法对比

动态规划（DynamicProgramming,DP）通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划的步骤识别子问题：定义问题的递归解法，识别状态和选择。确定DP数组：确定存储子问题解的数据结构，通常是数组或矩阵。确定状态转移方程：找出状态之间的关系，即状态转移方程。边界条件：确定DP数组的初始值或边界条件。填表：按照顺序填入DP表，通常是从最小的子问题开始。构造最优解：根据

青椒大仙KI11·2025-01-22 11:00

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析介绍常用技巧算法步骤DQN源码实现网络结构训练策略DQN算法进阶双深度Q网络（DoubleDQN）竞争深度Q网络（DuelingDQN）优先级经验回放

视觉萌新、·2025-01-17 15:17

7. 深度强化学习：智能体的学习与决策

本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。

Network_Engineer·2024-09-08 12:58

深度强化学习之DQN-深度学习与强化学习的成功结合

目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的

CristianoC·2024-09-07 14:39

深入理解DDQN

深入理解DDQN1.引言双深度Q网络（DoubleDeepQ-Network，DDQN）是对原始DQN算法的一个重要改进。本文将帮助你深入理解DDQN的核心概念，并通过一个生动的例子来阐释其工作原理。

AI-星辰·2024-09-03 21:46

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望

程序猿鑫·2024-08-27 18:48

强化学习（TD3）

DDPG源于DQN，DQN源于Q_learning，这些算法都是通过估计Q值来寻找最优的策略，在强化学习中，更新Q网络的目标值ta

sssjjww·2024-02-19 11:09

DQN的理论研究回顾

DQN的理论研究回顾1.DQN简介强化学习（RL）（Reinforcementlearning:Anintroduction,2nd,ReinforcementLearningandOptimalControl

Jay Morein·2024-02-06 12:50

OpenAI Gym 中级教程——强化学习实践项目

我们将使用深度Q网络（DQN）算法来解决这个问题。1.安装依赖首先，确保你已经安装了必要的依赖：pipinstallgym[box2d]tensorflow2.强化学习项目实践2.

Echo_Wish·2024-02-02 16:22

一起学习飞桨深度强化学习算法DQN

LEARN_FREQ=5#trainingfrequencyMEMORY_SIZE=200000MEMORY_WARMUP_SIZE=200BATCH_SIZE=64LEARNING_RATE=0.0005GAMMA=0.99#trainanepisodedefrun_train_episode(agent,env,rpm):total_reward=0obs=env.reset()step=0w

路人与大师·2024-01-31 18:35

不同的强化学习模型适配与金融二级市场的功能性建议

以下是对您列出的几种强化学习模型的简要概述，以帮助您做出选择：DQN(DeepQ-Network):适合：适用于离散动作空间的强化学习任务。

路人与大师·2024-01-31 09:54

推荐频道

dqn

【行云流水a】淘天联合爱橙开源强化学习训练框架ROLL OpenRL/openrl PPO-for-Beginners: 从零开始实现强化学习算法PPO 强化学习框架verl 港大等开源GoT-R1

机器学习赋能多尺度材料模拟：前沿技术会议邀您共探

深度强化学习应用：基于Double DQN算法的移动机器人路径跟踪技术解析

用深度强化学习玩atari游戏_Pytorch深度强化学习 1.用DQN解决Atari game

基于深度强化学习（Deep Q-Network, DQN）的运输路径优化系统

《Python星球日记》 第84天：Q-Learning 与 DQN

强化学习实战：训练AI玩转OpenAI Gym

[转载]DQN的例子--迷宫问题

深入理解深度确定性策略梯度DDPG：基于python从零实现

深度理解用于多智能体强化学习的单调价值函数分解QMIX算法：基于python从零实现

基于深度强化学习的网约车动态路径规划

强化学习算法：深度 Q 网络 (DQN) 原理与代码实例讲解

深度 Qlearning：深度Qlearning VS DQN

A3C框架

深度强化学习（DRL）实战：从AlphaGo到自动驾驶

DQN算法：演进、原理推导及代码实现

深度强化学习（DRL）框架与多目标调度优化详解

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

强化学习： 继续看 Q-Learning + FrozenLake， 解决更大的地图 8x8, 10x10

【迷宫路径规划】强化学习DQN网格迷宫路径规划【含Matlab源码 8028期】

DQN与深度学习模型的融合:CNN_RNN与DQN

从奖励到最优决策：动作价值函数与价值学习

《Python实战进阶》No37: 强化学习入门：Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行

PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法

强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

强化学习的数学原理-六、随机近似与随机梯度下降

《深度Q网络优化：突破高维连续状态空间的束缚》

DQN的原理和代码实现

DQN原理和代码实现

一切皆是映射：域适应在DQN中的研究进展与挑战

DQN深度强化学习：CartPole倒立摆任务（完整代码）

【Dec 5th to Dec 11th 】Personal work record | 人工智能 面试题：什么是深度Q网络（Deep Q-Network，DQN）？它在强化学习中的作用是什么？

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

pytorch深度Q网络

深度强化学习在高频交易中的动态策略优化与收益提升

强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN

动态规划，蒙特卡洛，TD,Qlearing,Sars,DQN,REINFORCE算法对比

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析

7. 深度强化学习：智能体的学习与决策

深度强化学习之DQN-深度学习与强化学习的成功结合

深入理解DDQN

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

强化学习（TD3）

DQN的理论研究回顾

OpenAI Gym 中级教程——强化学习实践项目

一起学习飞桨 深度强化学习算法DQN

不同的强化学习模型适配与金融二级市场的功能性建议

《Python星球日记》第84天：Q-Learning 与 DQN

强化学习：继续看 Q-Learning + FrozenLake，解决更大的地图 8x8, 10x10

【Dec 5th to Dec 11th 】Personal work record | 人工智能面试题：什么是深度Q网络（Deep Q-Network，DQN）？它在强化学习中的作用是什么？

一起学习飞桨深度强化学习算法DQN