DQN

强化学习：继续看 Q-Learning + FrozenLake，解决更大的地图 8x8, 10x10

waterHBO·2025-04-11 15:58

【迷宫路径规划】强化学习DQN网格迷宫路径规划【含Matlab源码 8028期】

Matlab领域博客之家博主简介：985研究生，Matlab领域科研开发者；个人主页：Matlab领域代码获取方式：CSDNMatlab领域—代码获取方式座右铭：路漫漫其修远兮，吾将上下而求索。更多Matlab路径规划仿真内容点击①Matlab路径规划（高阶版）②付费专栏Matlab路径规划（进阶版）③付费专栏Matlab路径规划（初级版）⛳️关注CSDNMatlab领域，更多资源等你来！！⛄一、

Matlab领域·2025-04-09 13:33

DQN与深度学习模型的融合:CNN_RNN与DQN

其中，深度Q网络（DQN）作为DRL的代表性算法之一，因其强大的学习能力和泛化能力而备受关注。然而，传统的DQN算法通常采用全连接神经网络作为函数逼近器，难以有效地处理高维数据和复杂环境。

AGI大模型与大数据研究院·2025-04-07 07:18

从奖励到最优决策：动作价值函数与价值学习

UtU_tUt求期望得到动作价值函数动作价值函数的意义最优动作价值函数(OptimalAction-ValueFunction)如何理解Q∗Q^*Q∗函数价值学习的基本思想DeepQ-Network(DQN

KangkangLoveNLP·2025-04-06 23:27

《Python实战进阶》No37: 强化学习入门：Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

在《Python实战进阶》No37:强化学习入门：Q-Learning与DQN这篇文章中，我们介绍了Q-Learning算法走出迷宫的代码实践，本文加餐，把Q-Learning算法通过代码可视化呈现。

带娃的IT创业者·2025-03-28 00:11

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行

1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用

AI天才研究院·2025-03-20 18:45

PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化

在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。

进取星辰·2025-03-18 19:17

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望

wlz249·2025-03-18 16:28

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法“好的代码如同山水画，既要工笔细描，又要留白写意”——一个在终端前顿悟的开发者DQN是Q-Learning算法与深度神经网络的结合体，通过神经网络近似Q值函数

带上一无所知的我·2025-03-09 21:28

强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

文章目录前言DQN简介环境简介任务实现说开来去我的Github实现：gym（GitHub）本篇博客主要是个人实现过程的主观感受，如果想要使用模型可以直接去GitHub仓库，注释完善且规范。

abstcol·2025-03-05 14:12

强化学习的数学原理-六、随机近似与随机梯度下降

代码来自up主【强化学习的数学原理-作业】GridWorld示例代码（已更新至DQN、REINFORCE、A2C）_哔哩哔哩_bilibiliSGD、GD、MGD举例：#先初始化一个列表，未来要在这100

儒雅芝士·2025-03-02 15:24

《深度Q网络优化：突破高维连续状态空间的束缚》

在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。

·2025-02-15 18:22

DQN的原理和代码实现

文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind

SmallerFL·2025-02-15 15:23

DQN原理和代码实现

参考：王树森《强化学习》书籍、课程、代码1、基本概念折扣回报：Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.U_t=R_t+\gamma\cdotR_{t+1}+\gamma^2\cdotR_{t+2}+\cdots+\gamma^{n-t}\cdotR_n.Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.动作价值函数：Qπ(st,at)=E[Ut∣St=st,At=

KPer_Yang·2025-02-15 14:20

一切皆是映射：域适应在DQN中的研究进展与挑战

1.背景介绍1.1深度强化学习与域适应的邂逅深度强化学习(DeepReinforcementLearning,DRL)在近年来取得了瞩目的成就，从Atari游戏到围棋，再到机器人控制，其强大的学习能力令人惊叹。然而，DRL的成功往往依赖于大量高质量的训练数据，而这些数据在现实世界中往往难以获取或成本高昂。这使得DRL的应用受到了很大的限制。域适应(DomainAdaptation)作为迁移学习的一

AI天才研究院·2025-02-10 00:33

DQN深度强化学习：CartPole倒立摆任务（完整代码）

文章目录一、什么是DQN？二、什么是CartPole**推车**倒立摆任务？

林泽毅·2025-02-08 21:45

【Dec 5th to Dec 11th 】Personal work record | 人工智能面试题：什么是深度Q网络（Deep Q-Network，DQN）？它在强化学习中的作用是什么？

“若要得到救赎，必先承受痛苦。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！

追光者♂·2025-02-06 14:34

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望

科研_G.E.M.·2025-02-02 16:36

pytorch深度Q网络

DQN引入了深度神经网络来近似Q函数，解决了传统Q-learning在处理高维状态空间时的瓶颈，尤其是在像Atari游戏这样的复杂环境中。

纠结哥_Shrek·2025-01-30 23:31

深度强化学习在高频交易中的动态策略优化与收益提升

文章目录1.高频交易的核心挑战与强化学习的适应性1.1高频交易中的核心问题1.2强化学习的适配性分析2.基于深度Q网络（DQN）的高频交易策略设计2.1状态空间构建：从LOB到特征工程2.2动作空间与奖励函数设计

二进制独立开发·2025-01-26 04:36

强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN

强化学习代码实践1.DDQN:在CartPole游戏中实现DoubleDQN1.导入依赖2.定义Q网络3.创建Agent4.训练过程5.解释6.调整超参数在CartPole游戏中实现DoubleDQN（DDQN）训练网络时，我们需要构建一个使用两个Q网络（一个用于选择动作，另一个用于更新目标）的方法。DoubleDQN通过引入目标网络来减少Q-learning中过度估计的偏差。下面是一个基于PyT

洪小帅·2025-01-23 12:58

动态规划，蒙特卡洛，TD,Qlearing,Sars,DQN,REINFORCE算法对比

动态规划（DynamicProgramming,DP）通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划的步骤识别子问题：定义问题的递归解法，识别状态和选择。确定DP数组：确定存储子问题解的数据结构，通常是数组或矩阵。确定状态转移方程：找出状态之间的关系，即状态转移方程。边界条件：确定DP数组的初始值或边界条件。填表：按照顺序填入DP表，通常是从最小的子问题开始。构造最优解：根据

青椒大仙KI11·2025-01-22 11:00

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析介绍常用技巧算法步骤DQN源码实现网络结构训练策略DQN算法进阶双深度Q网络（DoubleDQN）竞争深度Q网络（DuelingDQN）优先级经验回放

视觉萌新、·2025-01-17 15:17

7. 深度强化学习：智能体的学习与决策

本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。

Network_Engineer·2024-09-08 12:58

深度强化学习之DQN-深度学习与强化学习的成功结合

目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的

CristianoC·2024-09-07 14:39

深入理解DDQN

深入理解DDQN1.引言双深度Q网络（DoubleDeepQ-Network，DDQN）是对原始DQN算法的一个重要改进。本文将帮助你深入理解DDQN的核心概念，并通过一个生动的例子来阐释其工作原理。

AI-星辰·2024-09-03 21:46

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望

程序猿鑫·2024-08-27 18:48

强化学习（TD3）

DDPG源于DQN，DQN源于Q_learning，这些算法都是通过估计Q值来寻找最优的策略，在强化学习中，更新Q网络的目标值ta

sssjjww·2024-02-19 11:09

DQN的理论研究回顾

DQN的理论研究回顾1.DQN简介强化学习（RL）（Reinforcementlearning:Anintroduction,2nd,ReinforcementLearningandOptimalControl

Jay Morein·2024-02-06 12:50

OpenAI Gym 中级教程——强化学习实践项目

我们将使用深度Q网络（DQN）算法来解决这个问题。1.安装依赖首先，确保你已经安装了必要的依赖：pipinstallgym[box2d]tensorflow2.强化学习项目实践2.

Echo_Wish·2024-02-02 16:22

一起学习飞桨深度强化学习算法DQN

LEARN_FREQ=5#trainingfrequencyMEMORY_SIZE=200000MEMORY_WARMUP_SIZE=200BATCH_SIZE=64LEARNING_RATE=0.0005GAMMA=0.99#trainanepisodedefrun_train_episode(agent,env,rpm):total_reward=0obs=env.reset()step=0w

路人与大师·2024-01-31 18:35

不同的强化学习模型适配与金融二级市场的功能性建议

以下是对您列出的几种强化学习模型的简要概述，以帮助您做出选择：DQN(DeepQ-Network):适合：适用于离散动作空间的强化学习任务。

路人与大师·2024-01-31 09:54

OpenAI Gym 中级教程——深入强化学习算法

本篇博客将深入介绍OpenAIGym中的强化学习算法，包括深度Q网络（DeepQNetwork,DQN）和深度确定性策略梯度（DeepDeterministicPolicyGradient,DDPG）。

Echo_Wish·2024-01-29 10:16

深度强化学习之价值学习-王树森课程笔记

学习资料深度强化学习课程-王树森目录一、Value-basedlearning二、DeepQ-Network(DQN)1.原理2.DQN结构（以超级玛丽为例）3.用DQN操作Agent打游戏三、TemporalDifferenceLearning

淀粉爱好者·2024-01-29 03:23

强化学习原理python篇06——DQN

强化学习原理python篇05——DQNDQN算法定义DQN网络初始化环境开始训练可视化结果本章全篇参考赵世钰老师的教材Mathmatical-Foundation-of-Reinforcement-LearningDeepQ-learning

WuRobb·2024-01-28 06:08

Webots搭建强化学习二轮避障小车（看看吧蛮详细的）

该文章主要有如下的内容：大概内容：1.Webots简要介绍2.Webots搭建双轮小車3.Webots双轮小车避障简单的控制逻辑4.Pycharm编写控制程序连接并控制Webots中实体的方法5.Tensorflow编写DQN

小雅不采薇·2024-01-28 02:54

深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法

本人学识浅薄，如有理解不到位的地方还请大佬们指出，相互学习，共同进步概念引入强化学习DQN算法边缘计算边缘计算，是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务

丰。。·2024-01-27 17:17

强化学习 - Deep Q Network (DQN)

什么是机器学习DeepQNetwork（DQN）是一种结合深度学习和强化学习的方法，用于解决离散动作空间的强化学习问题。

草明·2024-01-25 21:23

【机器学习】强化学习（六）-DQN(Deep Q-Learning)训练月球着陆器示例

概述DeepQ-Learning（深度Q学习）是一种强化学习算法，用于解决决策问题，其中代理（agent）通过学习在不同环境中采取行动来最大化累积奖励。LunarLander是一个经典的强化学习问题，其中代理的任务是控制一个着陆舱在月球表面着陆，最小化着陆过程中的燃料消耗。以下是使用DeepQ-Learning解决LunarLander问题的基本步骤：环境建模：首先，需要对LunarLander环

十年一梦实验室·2024-01-25 07:50

【强化学习】DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 学习笔记

文章目录DQN(DeepQ-Network)说明伪代码应用范围DoubleDQN说明伪代码应用范围DuelingDQN实现原理应用范围伪代码PerDQN(PrioritizedExperienceReplayDQN

如果皮卡会coding·2024-01-24 13:23

强化学习12——策略梯度算法学习

Q-learning、DQN算法是基于价值的算法，通过学习值函数、根据值函数导出策略；而基于策略的算法，是直接显示地学习目标策略，策略梯度算法就是基于策略的算法。

beiketaoerge·2024-01-24 06:46

强化学习11——DQN算法

DQN算法的全称为，DeepQ-Network，即在Q-learning算法的基础上引用深度神经网络来近似动作函数Q(s,a)Q(s,a)Q(s,a)。

beiketaoerge·2024-01-24 06:46

【强化学习】----训练Flappy Bird小游戏

文章目录一、游戏介绍与问题定义1.1游戏简介1.2问题定义二、算法介绍2.1预处理2.1.1去除背景颜色2.1.2灰度处理2.2Q-Learning2.3神经网络2.4DQN结构2.4.1增加样本池2.4.2

子衿JDD·2024-01-23 16:56

JoyRL策略梯度

与基于价值的算法（包括DQN等算法）不同，这类算法直接对策略本身进行近似优化。

__如果·2024-01-22 05:00

(202401)深度强化学习基础2：策略梯度

这与之前的差别很大，我这里也大约明白了一点为什么任务一直接让人跳到DQN但是却不跳过第二章“马

早上真好·2024-01-20 22:27

（202401）深度强化学习基础与实践1：马尔科夫过程、DNQ算法回顾

文章目录序言马尔科夫决策过程含义性质回报状态转移矩阵DQN算法深度网络经验回放目标网络实战DQN算法DQN算法进阶DoubleDQNDuelingDQNNoisyDQNPERDQNC51算法序言本文章记录

早上真好·2024-01-20 22:56

深度强化学习DQN系算法理解

致谢进行DQN方法整理时，主要对原文进行了学习，并参考了几位作者的笔记，在此一并表示感谢。

静斋·2024-01-20 17:26

Datawhale 强化学习笔记(二）马尔可夫过程，DQN 算法

文章目录参考马尔可夫过程DQN算法（DeepQ-Network）如何用神经网络来近似Q函数如何用梯度下降的方式更新网络参数强化学习vs深度学习提高训练稳定性的技巧经验回放目标网络代码实战DQN算法进阶DoubleDQNDuelingDQN

RessCris·2024-01-20 17:54

基于DQN和TensorFlow的LunarLander实现（全代码）

使用深度Q网络（DeepQ-Network,DQN）来训练一个在openai-gym的LunarLander-v2环境中的强化学习agent，让小火箭成功着陆。

全栈O-Jay·2024-01-20 06:58

【挑战全网最易懂】深度强化学习 --- 零基础指南

深度强化学习介绍、概念强化学习介绍离散场景，使用行为价值方法连续场景，使用概率分布方法实时反馈连续场景：使用概率分布+行为价值方法强化学习六要素设计奖励函数设计评论家策略学习与优化算法路径深度Q网络DQN

Debroon·2024-01-19 14:17

推荐频道

DQN

强化学习： 继续看 Q-Learning + FrozenLake， 解决更大的地图 8x8, 10x10

【迷宫路径规划】强化学习DQN网格迷宫路径规划【含Matlab源码 8028期】

DQN与深度学习模型的融合:CNN_RNN与DQN

从奖励到最优决策：动作价值函数与价值学习

《Python实战进阶》No37: 强化学习入门：Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行

PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法

强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

强化学习的数学原理-六、随机近似与随机梯度下降

《深度Q网络优化：突破高维连续状态空间的束缚》

DQN的原理和代码实现

DQN原理和代码实现

一切皆是映射：域适应在DQN中的研究进展与挑战

DQN深度强化学习：CartPole倒立摆任务（完整代码）

【Dec 5th to Dec 11th 】Personal work record | 人工智能 面试题：什么是深度Q网络（Deep Q-Network，DQN）？它在强化学习中的作用是什么？

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

pytorch深度Q网络

深度强化学习在高频交易中的动态策略优化与收益提升

强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN

动态规划，蒙特卡洛，TD,Qlearing,Sars,DQN,REINFORCE算法对比

【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析

7. 深度强化学习：智能体的学习与决策

深度强化学习之DQN-深度学习与强化学习的成功结合

深入理解DDQN

【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）

强化学习（TD3）

DQN的理论研究回顾

OpenAI Gym 中级教程——强化学习实践项目

一起学习飞桨 深度强化学习算法DQN

不同的强化学习模型适配与金融二级市场的功能性建议

OpenAI Gym 中级教程——深入强化学习算法

深度强化学习之价值学习-王树森课程笔记

强化学习原理python篇06——DQN

Webots搭建强化学习二轮避障小车（看看吧 蛮详细的）

深度学习学习笔记-论文研读4-基于深度强化学习的多用户边缘计算任务卸载调度与资源分配算法

强化学习 - Deep Q Network (DQN)

【机器学习】强化学习（六）-DQN(Deep Q-Learning)训练月球着陆器示例

【强化学习】DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 学习笔记

强化学习12——策略梯度算法学习

强化学习11——DQN算法

【强化学习】----训练Flappy Bird小游戏

JoyRL策略梯度

(202401)深度强化学习基础2：策略梯度

（202401）深度强化学习基础与实践1：马尔科夫过程、DNQ算法回顾

深度强化学习DQN系算法理解

Datawhale 强化学习笔记(二）马尔可夫过程，DQN 算法

基于DQN和TensorFlow的LunarLander实现（全代码）

【挑战全网最易懂】深度强化学习 --- 零基础指南

强化学习：继续看 Q-Learning + FrozenLake，解决更大的地图 8x8, 10x10

【Dec 5th to Dec 11th 】Personal work record | 人工智能面试题：什么是深度Q网络（Deep Q-Network，DQN）？它在强化学习中的作用是什么？

一起学习飞桨深度强化学习算法DQN

Webots搭建强化学习二轮避障小车（看看吧蛮详细的）