CartPole-v1

强化学习实战：用Q-learning玩转OpenAI Gym

Q-learning玩转OpenAIGym系统化学习人工智能网站（收藏）：https://www.captainbed.cn/flu文章目录强化学习实战：用Q-learning玩转OpenAIGym摘要引言环境1：CartPole-v1

layneyao·2025-06-14 01:55

OpenAI Gym 提供了丰富的强化学习测试环境

OpenAIGym提供了丰富的强化学习测试环境，以下按类别列举经典环境及其核心特性：一、经典控制（ClassicControl）环境ID目标描述状态空间动作空间终止条件CartPole-v1平衡倒立摆4

大霸王龙·2025-04-14 05:11

强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

文章目录前言DQN简介环境简介任务实现说开来去我的Github实现：gym（GitHub）本篇博客主要是个人实现过程的主观感受，如果想要使用模型可以直接去GitHub仓库，注释完善且规范。觉得有用请给我点个star！前言最近在学习强化学习，大致过了一遍强化学习的数学原理（视频）。视频讲的很好，但是实践的部分总是感觉有点匮乏（毕竟解决gridworld方格世界（GitHub）的问题的很难给人特别大的

abstcol·2025-03-05 14:12

强化学习应用——倒立摆

新建虚拟环境并安装：pipinstallgympipinstallpygame运行下列代码：importgymimporttime#生成环境env=gym.make('CartPole-v1',render_mode

ThreeS_tones·2024-03-10 12:39

PPO 跑CartPole-v1

gym-0.26.2cartPole-v1参考动手学强化学习书中的代码,并做了一些修改代码importgymimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFimportnumpyasnpimportmatplotlib.pyplotaspltfromtqdmimporttqdmclassPolicyNet(nn.Module):de

NoahBBQ·2024-01-17 06:52

Actor-Critic 跑 CartPole-v1

gym-0.26.1CartPole-v1Actor-Critic这里采用时序差分残差ψt=rt+γVπθ(st+1)−Vπθ(st)\psi_t=r_t+\gammaV_{\pi_\theta}(s_{t+1})-V_{\pi_\theta}({s_t})ψt=rt+γVπθ(st+1)−Vπθ(st)详细请参考动手学强化学习简单来说就是reforce是采用蒙特卡洛搜索方法来估计Q(s,a),然

NoahBBQ·2024-01-06 17:17

Noisy DQN 跑 CartPole-v1

gym0.26.1CartPole-v1NoisyNetDQNNoisyNet就是把原来Linear里的w/b换成mu+sigma*epsilon,这是一种非常简单的方法，但是可以显著提升DQN的表现。和之前最原始的DQN相比就是改了两个地方，一个是Linear改成了NoisyLinear,另外一个是在agent在take_action的时候策略由ε-greedy改成了直接取argmax。详细见下

NoahBBQ·2024-01-06 17:16

ubuntu不能显示env.render() 画面全黑/Your graphics drivers do not support OpenGL 2.0.

错误记录今天博主在执行importgymenv=gym.make('CartPole-v1')env.reset()env.render()出现了以下错误：YourgraphicsdriversdonotsupportOpenGL2.0

行业边缘的摸鱼怪·2023-06-16 21:26

OpenAI gym:安装与简单使用

ice_bear221·2023-04-15 00:23

深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现

用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现部分在谷歌全家桶(Colab,tensorflow2,wandb)中完成1.朴素DQN原论文：[DQN]PlayingAtariwithDeepReinforcementLearning

lblbc·2023-02-01 07:25

【强化学习】基于tensorflow2.x 的 PPO2（离散动作情况）训练 CartPole-v1

算法流程代码importmatplotlib.pyplotaspltimporttensorflowastfimportnumpyasnpimportgymimportcopydefbuild_actor_network(state_dim,action_dim):model=tf.keras.Sequential([tf.keras.layers.Dense(units=128,activati

昵称已被吞噬~‘(*@﹏@*)’~·2023-01-19 15:38

DQN tensorflow2 + OpenAI gym 实战

手动编环境是一件很耗时间的事情,所以如果有能力使用别人已经编好的环境,可以节约我们很多时间.OpenAIgym就是这样一个模块,他提供了我们很多优秀的模拟环境.我们的各种强化学习算法都能使用这些环境.CARTPOLE-V1

super晓权·2023-01-13 10:03

CartPole-v1线性模型局限

CartPole-v1线性模型局限-神经元非线性能力背景上篇文章有尝试使用最简单的单一神经元来解决CartPole-v1问题，模型比较简单，但是会存在两个比较明显的问题。

pysnow530·2023-01-04 13:07

【强化学习】MuZero 训练CartPole-v1

【深度强化学习】tensorflow2.x复现muzero训练CartPole-v1参考资料：[1]ColinFred.蒙特卡洛树搜索（MCTS）代码详解【python】.2019-03-2323:37

昵称已被吞噬~‘(*@﹏@*)’~·2023-01-04 13:36

强化学习之DQN

osimportnumpyasnpimporttensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayers,optimizers,lossesenv=gym.make('CartPole-v1

woshi233·2022-12-19 14:08

使用DQN来进行Gym中的CartPole-v1游戏

算法原理：算法输入：迭代轮数T，状态特征向量维度n,动作集A,步长α，衰减因子γ,探索率ϵ,Q网络结构,批量梯度下降的样本数m。输出：Q网络参数1.随机初始化Q网络的所有参数w，基于w初始化所有的状态和动作对应的价值Q。清空经验回放的集合D。2.forifrom1toT，进行迭代。a)初始化S为当前状态序列的第一个状态,拿到其特征向量ϕ(S)b)在Q网络中使用ϕ(S)作为输入，得到Q网络的所有动作

Wild ultraman·2022-12-19 14:59

Gym安装学习

pipinstallgym-ihttp://pypi.douban.com/simple--trusted-hostpypi.douban.com环境运行下述代码，即可测试环境：importgymenv=gym.make('CartPole-v1

棋圣阳阳阳·2022-12-16 11:50

stable-baselines3学习之Tensorboard

stable-baselines3的Tensorboard，您只需将日志文件夹的位置传递给RL的agent：fromstable_baselines3importA2Cmodel=A2C('MlpPolicy','CartPole-v1

小帅吖·2022-12-09 13:11

人工智能学习：倒立摆（CartPole）（9）

首先载入gym库importgym然后启用倒立摆对象env=gym.make('CartPole-v1',render_mode='human')render_mode表示渲染模式，即渲染时输出的模式，

星光2020·2022-12-09 10:21

Mac系统在Pycharm终端安装Gym和Pytorch

Gym高版本的会报错pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplegym==0.21.0测试代码importgymenv=gym.make('CartPole-v1

现实里的大梦想家·2022-12-05 15:18

CartPole-v1 50行python实现

CartPole-v1是gym中比较经(j

pysnow530·2022-11-23 08:24

关于gym的 CartPole-v1 ，详细的环境代码

CartPole-v1环境的代码，分为6部分。

Youyali_·2022-11-23 08:24

运行gym库动画窗口渲染不出来

代码如下：importgymenv=gym.make("CartPole-v1")env.reset()for_inrange(100):env.render()action=env.action_space.sample

流萤点火·2022-11-23 05:54

【强化学习】Actor-Critic——Pytorch实现

注：CartPole-v0已经无法使用，更新到了CartPole-V1,两者区别在于threshold和maxsteps。

努力写代码的小梁·2022-09-23 07:04

pytorch实现CartPole-v1任务的DQN代码

DQN使用PyTorch在OpenAIGym上的CartPole-v1任务上训练深度Q学习（DQN）智能体任务CartPole-v1环境中，手推车上面有一个杆，手推车沿着无摩擦的轨道移动。

bujbujbiu·2022-09-21 17:22

pytorch官方教程（详细版）

由于在写DQN代码时发现对细节不够了解，因此又详细学习了一下pytorch相关内容，以下内容来自官网教程，此前的pytorch笔记：pytorch训练分类器pytorch基础入门pytorch实现CartPole-v1

bujbujbiu·2022-09-21 17:22

CartPole 强化学习详解1 - DQN

4.遗留问题5.DQN改进1.gym-CartPole环境准备环境是用的gym中的CartPole-v1，就是火柴棒倒立摆。gym是openai的

Oxalate-c·2022-07-17 07:32

强化学习基础记录

一、环境介绍这里使用的是gym环境的’CartPole-v1’，该环境和上篇文章的’CartPole-v0’几乎没有什么区别，主要区别在于每个回合的最大步数和奖励的有关定义，如下

喜欢库里的强化小白·2022-05-16 07:23

强化学习算法复现（六）：PG（reinforce）_gym倒立摆

importgymimportnumpyasnpfromitertoolsimportcountimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptimfromtorch.distributionsimportCategoricalenv=gym.make('CartPole-v1

保护我方vivian·2020-12-23 15:49

DQN小车爬山——pytorch实现

gym常用环境gym常用环境：gym常用的研究问题打开CartPole-v1，查看其源代码如图所示：可以在描述行中看到，该环境有4个观测值，分别

小研一枚·2020-09-14 07:20

强化学习经典算法笔记(十八)：离散动作空间REINFORCE算法

离散动作空间REINFORCE算法在文章强化学习经典算法笔记(七)：策略梯度算法PolicyGradient中介绍了连续动作空间的PolicyGradient算法，最近需要用到离散空间的版本，遂写了个CartPole-v1

赛艇队长·2020-08-16 12:25

【PaddlePaddle】强化学习(CartPole-v1)

DeepQ-LreaningQ-LearningDQN记忆库和FixedQ-target代码思路模型的搭建运行结果介绍这篇文章主要介绍如何使用PaddlePaddleFluid实现强化学习，通过机器自我学习，完成一个经典的游戏CartPole-v1

Seeklhy·2020-08-13 17:44

【深度学习】对强化学习的理解（在CartPole-v1游戏下的强化学习）

在上篇文章中【PaddlePaddle】强化学习(CartPole-v1)，我们介绍了如何使用PaddlePaddle在CartPole-v1游戏上实现强化学习，但是对实现思想讲解的不是很多，也不是很清晰