Q-learning

强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】

根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/

行云流水AI笔记·2025-06-28 19:19

强化学习实战：从 Q-Learning 到 PPO 全流程

本文旨在从经典的Q-Learning算法入手，系统梳理从值迭代到策略优化的全流程技术细节，直至最具代表性的ProximalPolicyOptimization（PPO）算法，结合理论推导、代码实现与案例分析

荣华富贵8·2025-06-26 07:04

强化学习实战：用Q-learning玩转OpenAI Gym

强化学习实战：用Q-learning玩转OpenAIGym系统化学习人工智能网站（收藏）：https://www.captainbed.cn/flu文章目录强化学习实战：用Q-learning玩转OpenAIGym

layneyao·2025-06-14 01:55

《Python星球日记》第84天：Q-Learning 与 DQN

——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、强化学习基础回顾1.核心元素与术语二、Q-Learning算法详解1.Q表更新公式2.探索与利用（ExplorationvsExploitation

Code_流苏·2025-06-10 04:55

强化学习实战：训练AI玩转OpenAI Gym

www.captainbed.cn/flu文章目录强化学习实战：训练AI玩转OpenAIGym摘要引言强化学习基础与算法分类1.核心概念与数学表示2.算法分类与典型应用场景实战一：CartPole任务——从Q-Learning

layneyao·2025-05-29 08:18

强化学习推动 AI 智能物流路径规划的智能化转型

强化学习推动AI智能物流路径规划的智能化转型关键词：强化学习、智能物流、路径规划、Q-learning、深度强化学习、动态优化、仓储自动化摘要：本文探讨了强化学习技术在智能物流路径规划中的应用与创新。

AIGC应用创新大全·2025-05-26 04:54

强化学习系列——时序差分学习（SARSA与Q-Learning）

强化学习系列——时序差分学习（SARSA与Q-Learning）介绍一、基本概念回顾二、时序差分学习（TDLearning）思想1.TD(0)公式三、TD与蒙特卡洛、动态规划的比较四、状态-动作值的TD

lqjun0827·2025-05-22 11:03

[转载]DQN的例子--迷宫问题

，本文我做了一些改动目前，强化学习中很火的当属Q-Learning了，关于Q-Learning的具体介绍请参加我上一篇文章。

Ritter_Liu·2025-05-21 07:22

深度确定性策略梯度(DDPG)：连续动作空间的探索者

传统的强化学习算法，如Q-learning和SARSA，主要针对离散动作空间，即智能体在每个状态下只能选择有限个动作。然而，在许多实际应用中，智能体需要在连续的动作空间中进行决策

AGI大模型与大数据研究院·2025-05-17 02:31

深度 Qlearning：深度Qlearning VS DQN

深度Q-learning：深度Q-learningVSDQN1.背景介绍1.1问题由来深度强化学习（DeepReinforcementLearning,DRL）是近年来人工智能领域的重要研究方向，旨在通过深度神经网络来学习和优化强化学习

SuperAGI2025·2025-05-12 13:07

基于强化学习 Q-learning 算法求解城市场景下无人机三维路径规划研究，提供完整MATLAB代码

本文提出了一种基于强化学习Q-learning算法的无人机三维路径规划方法，通过合理定义状态空间、动作空间和奖励函数，使无人机能够在城市场景中自主学习最优路径。

IT猿手·2025-05-12 02:24

基于 Q-learning 的城市场景无人机三维路径规划算法研究，可以自定义地图，提供完整MATLAB代码

Q-learning算法作为一种强化学习方法，能够通过与环境的交互学

IT猿手·2025-05-12 02:23

强化学习机器人模拟器——RobotApp：一个交互式强化学习模拟器

RobotApp是一个基于Python和Tkinter的交互式强化学习（ReinforcementLearning,RL）模拟器，集成了GridWorld环境和QAgent智能体，支持Q-learning

LIUDAN'S WORLD·2025-05-10 04:56

深度Q学习——从入门到实践

算法过程：Q-learning在训练的时候，ϵ−greedy策略被用来选择动作。机器随机生成一个数，如果这个数超过ϵ，那么就随机选择一个动作。反之，就选择当前Q值最大的动作，更新Q表。

Jveyvey·2025-05-03 19:38

强化学习(Q-Learning)与路径搜索(A*)的联系

A*算法作为路径搜索的一种典型算法，是在广度优先搜索(BFS)的基础上扩展的。从A点到B点，BFS算法的思路属于路径穷举了：从A点开始，遍历相邻节点放入队列尾部，然后从队头拿出一个节点，搜寻其邻域放入队列尾部，直到找到B点A*算法是在BFS的基础上，加入一个启发值，这个启发值又被称为代价函数：f（n）=g（n）+h（n）代价函数有两个部分构成，g是当前位置n的代价值，h是到目标的预估代价值，当然这

qq_43133135·2025-04-28 06:10

Q-Learning算法：从原理到路径搜索代码实现

文章目录一、引言二、强化学习基础三、Q-Learning算法3.1Q-Learning算法概述3.2Q值的定义3.3Q-Learning算法步骤3.4Q-Learning的收敛（Bellman期望方程）

艰默·2025-04-25 10:07

DQN算法：演进、原理推导及代码实现

函数二、DQN的原理推导2.1马尔可夫决策过程2.2Q值函数与Q学习2.3DQN的函数逼近2.4经验回放与目标网络的结合2.4.1经验回放2.4.2目标网络三、DQN的代码实现引言在强化学习领域，传统Q-learning

艰默·2025-04-25 10:07

Pytorch深度学习框架60天进阶学习计划 - 第43天：强化学习基础（二）

Pytorch深度学习框架60天进阶学习计划-第43天：强化学习基础（二）第二部分：策略梯度算法及其方差优化策略2.1策略梯度方法概述策略梯度方法是强化学习的另一个重要分支，与Q-learning不同，

凡人的AI工具箱·2025-04-15 22:42

Pytorch深度学习框架60天进阶学习计划 - 第43天：强化学习基础（一）

今天我们将分为两个主要部分：Q-learning和贝尔曼方程的理论推导策略梯度算法及其方差优化策略第一部分：Q-learning和贝尔曼方程的理论推导1.1强化学习基本概念强化学习涉及一个智能体（agent

凡人的AI工具箱·2025-04-15 22:41

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

目录强化学习（Q-learning、DQN）——理论、案例与交互式GUI实现一、引言二、强化学习基本原理2.1强化学习框架2.2Q值函数三、Q-learning算法3.1算法原理3.2算法流程四、深度Q

闲人编程·2025-04-13 02:16

强化学习：继续看 Q-Learning + FrozenLake，解决更大的地图 8x8, 10x10

引子古之成大事者，规模远大与综理密微，二者缺一不可。不管天气好坏，坚持每天前进大概30公里。起初店里的生意比较惨淡，他们有大把的时间来编写程序。起因，目的:8x8的地图很容易失败，这个问题，我之前讲过。如何解决，一句话，根据距离来修改奖励.过程:1.先让ChatGPT推荐几种方法聊天记录ChatGPT推荐了5种方法，我试了，都不行。失败率还是很高。再推荐几种方法，还是不行。比如DQN,我试了，失败

waterHBO·2025-04-11 15:58

强化学习：从头开始看 Q-Learning + FrozenLake-v1

从头开始看Q-Learning+FrozenLake-v1RL强化学习，读书，看视频教程，都是一知半解。所以找份代码，向GPT提问，尽量把每一行代码都搞懂。不懂的地方，就是问。最后整理一下聊天记录，单独保存为一个文件，发布出去，然后最近经常看。gym有N个环境，RL有M个算法。此文仅仅是：1/(M*N)下面的问题，都是围绕的代码是：importgymnasiumasgymimportnumpyas

waterHBO·2025-04-11 15:28

解密强化学习心脏：从动态规划到Q-Learning的价值函数进化史

Q-Learning的崛起方法大比拼：DPvsMCvsTDvsQ-Learning实战演练：Q-Learning征服山地车总结与展望在人工智能的星辰大海中，强化学习（ReinforcementLearning

海棠AI实验室·2025-04-06 22:49

智能体入门——遗传算法与Qlearning

智能体入门——遗传算法与Q-learning关键词：智能体、遗传算法、Q-learning、强化学习、优化算法、机器学习、人工智能摘要：本文深入探讨了两种重要的智能体学习算法：遗传算法和Q-learning

AI天才研究院·2025-03-29 06:13

《Python实战进阶》No37: 强化学习入门：Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

在《Python实战进阶》No37:强化学习入门：Q-Learning与DQN这篇文章中，我们介绍了Q-Learning算法走出迷宫的代码实践，本文加餐，把Q-Learning算法通过代码可视化呈现。

带娃的IT创业者·2025-03-28 00:11

PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法

在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验

进取星辰·2025-03-20 19:52

强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六)

目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言前两期我们介绍了动态规划算法，还有蒙特卡洛算法，不过它们对于状态价值函数的估值都有其缺陷性，像动态规划，需要从最下面向上进行递推

wxchyy·2025-03-16 14:29

大话机器学习三大门派：监督、无监督与强化学习

文章融合技术深度与江湖趣味，既解析了CNN、PCA、Q-learning等核心算法的"武功心法"（数学公式与代码实现

安意诚Matrix·2025-03-10 15:44

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法“好的代码如同山水画，既要工笔细描，又要留白写意”——一个在终端前顿悟的开发者DQN是Q-Learning算法与深度神经网络的结合体，通过神经网络近似Q值函数

带上一无所知的我·2025-03-09 21:28

基于基于强化学习(Q-Learning)用于底层动态频谱接入(DSA)认知无线电网络的资源分配研究（Matlab代码实现）

本文目录如下：目录⛳️赠与读者1概述一、动态频谱接入（DSA）的基本原理与挑战1.DSA的核心机制2.关键挑战二、Q-Learning在DSA资源分配中的应用框架1.算法原理2.典型应用场景三、关键参数与模型设计

长安程序猿·2025-02-19 07:01

强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解

传统的强化学习算法，如Q-learning、SARSA等，通常依

杭州大厂Java程序媛·2025-02-13 07:02

DQN深度强化学习：CartPole倒立摆任务（完整代码）

DQN（DeepQ-Network，深度Q网络）是Q-Learning的深度学习扩展，通过神经网络替代Q表的方式来解决高维状态空间问题（例如图像输入），开启了深度强化学习时代。它在2013年由Dee

林泽毅·2025-02-08 21:45

pytorch深度Q网络

DQN引入了深度神经网络来近似Q函数，解决了传统Q-learning在处理高维状态空间时的瓶颈，尤其是在像Atari游戏这样的复杂环境中。

纠结哥_Shrek·2025-01-30 23:31

《深度剖析Q-learning中的Q值：解锁智能决策的密码》

其中，Q-learning算法凭借其独特的魅力，在机器人控制、自动驾驶、游戏AI等众多领域大放异彩。

·2025-01-29 19:51

强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN

DoubleDQN通过引入目标网络来减少Q-learning中过度估计的偏差。下面是一个基于PyT

洪小帅·2025-01-23 12:58

《C++ 赋能强化学习：Q - learning 算法的实现之路》

Q-learning算法作为强化学习中的经典算法，在众多领域如游戏、机器人控制、资源管理等有着广泛的应用前景。

·2025-01-16 23:24

深度 Qlearning：在直播推荐系统中的应用

AGI通用人工智能之禅·2024-09-16 02:27

深度强化学习之DQN-深度学习与强化学习的成功结合

目录概念深度学习与强化学习结合的问题DQN解决结合出现问题的办法DQN算法流程总结一、概念原因：在普通的Q-Learning中，当状态和动作空间是离散且维数不高的时候可以使用Q-Table来存储每个状态动作对应的

CristianoC·2024-09-07 14:39

基于时序差分的无模型强化学习：Q-learning 算法详解

目录一、无模型强化学习中的时序差分方法与Q-learning1.1时序差分法1.2Q-learning算法状态-动作值函数（Q函数）Q-learning的更新公式Q-learning算法流程Q-learning

晓shuo·2024-09-06 07:30

Python知识点：如何使用Python实现强化学习机器人

下面是一个简单的例子，使用Python和经典的Q-learning算法来实现一个强化学习机器人，目标是通过OpenAIGym提供的FrozenLake环境训练机器人学会如何在冰面上移动以找到目标。

杰哥在此·2024-09-04 03:21

马尔可夫决策过程（Markov decision process，MDP）

)在机器学习中应用在机器学习中的引用示例引用：实例场景：机器人导航MDP的定义：引用示例：在此基础上更具体的描述，并给出每一步的推断计算过程场景描述：3x3网格中的机器人导航MDP的定义强化学习算法：Q-Learning

太阳城S·2024-08-26 08:36

强化学习入门：使用Python和Q-learning算法解决迷宫问题

文章标题：强化学习入门：使用Python和Q-learning算法解决迷宫问题简介强化学习是机器学习中的一个重要分支，它致力于研究智能体在与环境交互的过程中如何学习最优的行为策略。

Evaporator Core·2024-02-19 19:01

Q-learning

原文：https://blog.csdn.net/qq_30615903/article/details/80739243Q-learning是强化学习算法中value-based的算法，Q即为Q（s,a）就是在某一时刻的s状态下(s∈S)，采取动作a(a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报rewardr，所以算法的主要思想就是将State与Action构建成一张

de_b952·2024-02-11 23:28

强化学习 | 基于 Q-Learning 算法解决 Treasure on Right 游戏

在本篇技术博客中，我们将探讨如何使用Q-Learning算法来解决TreasureonRight游戏，实现一个简单的强化学习。

半亩花海·2024-02-08 06:42

DQN的理论研究回顾

Q-learning是RL中

Jay Morein·2024-02-06 12:50

强化学习 - Q-learning（Q学习）

什么是机器学习强化学习中的Q-learning（Q学习）是一种用于学习在未知环境中做出决策的方法。它是基于值函数的方法，通过学习一个值函数Q，该函数表示在给定状态和动作下，期望的累积奖励。

草明·2024-01-25 21:52

【机器学习】强化学习（六）-DQN(Deep Q-Learning)训练月球着陆器示例

概述DeepQ-Learning（深度Q学习）是一种强化学习算法，用于解决决策问题，其中代理（agent）通过学习在不同环境中采取行动来最大化累积奖励。LunarLander是一个经典的强化学习问题，其中代理的任务是控制一个着陆舱在月球表面着陆，最小化着陆过程中的燃料消耗。以下是使用DeepQ-Learning解决LunarLander问题的基本步骤：环境建模：首先，需要对LunarLander环

十年一梦实验室·2024-01-25 07:50

强化学习12——策略梯度算法学习

Q-learning、DQN算法是基于价值的算法，通过学习值函数、根据值函数导出策略；而基于策略的算法，是直接显示地学习目标策略，策略梯度算法就是基于策略的算法。

beiketaoerge·2024-01-24 06:46

强化学习11——DQN算法

DQN算法的全称为，DeepQ-Network，即在Q-learning算法的基础上引用深度神经网络来近似动作函数Q(s,a)Q(s,a)Q(s,a)。

beiketaoerge·2024-01-24 06:46

【机器学习】强化学习（四）-时序差分学习

四、时序差分算法（TemporalDifferenceLearning,TD学习）4.1时序差分（0）4.2Sarsa算法4.3Q学习（Q-learning）4.4Sarsa和Q-learning有什么区别

十年一梦实验室·2024-01-21 06:40

推荐频道

Q-learning

强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】

强化学习实战：从 Q-Learning 到 PPO 全流程

强化学习实战：用Q-learning玩转OpenAI Gym

《Python星球日记》 第84天：Q-Learning 与 DQN

强化学习实战：训练AI玩转OpenAI Gym

强化学习推动 AI 智能物流路径规划的智能化转型

强化学习系列——时序差分学习（SARSA与Q-Learning）

[转载]DQN的例子--迷宫问题

深度确定性策略梯度(DDPG)：连续动作空间的探索者

深度 Qlearning：深度Qlearning VS DQN

基于强化学习 Q-learning 算法求解城市场景下无人机三维路径规划研究，提供完整MATLAB代码

基于 Q-learning 的城市场景无人机三维路径规划算法研究，可以自定义地图，提供完整MATLAB代码

强化学习机器人模拟器——RobotApp：一个交互式强化学习模拟器

深度Q学习——从入门到实践

强化学习(Q-Learning)与路径搜索(A*)的联系

Q-Learning算法：从原理到路径搜索代码实现

DQN算法：演进、原理推导及代码实现

Pytorch深度学习框架60天进阶学习计划 - 第43天：强化学习基础（二）

Pytorch深度学习框架60天进阶学习计划 - 第43天：强化学习基础（一）

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

强化学习： 继续看 Q-Learning + FrozenLake， 解决更大的地图 8x8, 10x10

强化学习： 从头开始看 Q-Learning + FrozenLake-v1

解密强化学习心脏：从动态规划到Q-Learning的价值函数进化史

智能体入门——遗传算法与Qlearning

《Python实战进阶》No37: 强化学习入门：Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法

强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六)

大话机器学习三大门派：监督、无监督与强化学习

当深度学习遇见禅宗：用东方智慧重新诠释DQN算法

基于基于强化学习(Q-Learning)用于底层动态频谱接入(DSA)认知无线电网络的资源分配研究（Matlab代码实现）

强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解

DQN深度强化学习：CartPole倒立摆任务（完整代码）

pytorch深度Q网络

《深度剖析Q-learning中的Q值：解锁智能决策的密码》

强化学习代码实践1.DDQN:在CartPole游戏中实现 Double DQN

《C++ 赋能强化学习：Q - learning 算法的实现之路》

深度 Qlearning：在直播推荐系统中的应用

深度强化学习之DQN-深度学习与强化学习的成功结合

基于时序差分的无模型强化学习：Q-learning 算法详解

Python知识点：如何使用Python实现强化学习机器人

马尔可夫决策过程（Markov decision process，MDP）

强化学习入门：使用Python和Q-learning算法解决迷宫问题

Q-learning

强化学习 | 基于 Q-Learning 算法解决 Treasure on Right 游戏

DQN的理论研究回顾

强化学习 - Q-learning（Q学习）

【机器学习】强化学习（六）-DQN(Deep Q-Learning)训练月球着陆器示例

强化学习12——策略梯度算法学习

强化学习11——DQN算法

【机器学习】强化学习（四）-时序差分学习

《Python星球日记》第84天：Q-Learning 与 DQN

强化学习：继续看 Q-Learning + FrozenLake，解决更大的地图 8x8, 10x10

强化学习：从头开始看 Q-Learning + FrozenLake-v1