Q-LEARNING 第6页

深度学习(十四)Reinforce Learning概述

强化学习的步骤1.functionwithunknown2.defineloss3.optimization4.其他重点基础概念二、DQN(DeepQNetwork)1.算法目的2.算法过程3.训练方法:基于Q-learning

Ali forever·2022-12-20 08:42

浅尝深度强化学习(一)---Deep Q-Learning with Keras and Gym-CartPole-v0

1.前言1.1一直都觉得深度强化学习(DRLDeepeinReinforcementLearning)是一个很神奇的技术,利用奖励去(Reward)诱导神经网络(Neuralnetwork)学习参数,调整策略(Policy),使得智能体(Agent)做出适合当前局面(State)的动作(Action).1.2技术很神奇,但是学起来还是有些难度的,就上面这句话,就包含了深度强化学习的5个基本概念.D

零壹博弈·2022-12-19 14:37

为什么Q-learning不用重要性采样（importance sampling）？

为什么Q-learning不用重要性采样（importancesampling）？文章目录为什么Q-learning不用重要性采样（importancesampling）？

hehedadaq·2022-12-19 00:29

什么是强化学习中的“重要性采样”？

因为目前深度强化学习中大多数方法都是以Q-Learning为基础的，而Q-Learning又恰恰不需要重要性采样，所以导致很多人接触不到这个概念。

LRJ-jonas·2022-12-18 23:22

策略梯度算法的理解

Q-learning：Q(St,At)←Q(St,At)+α[Rt+1+γmax⁡aQ(St+1,a)−

古道西风瘦码·2022-12-18 18:49

基于Q-learning的无人机三维路径规划（含完整C++代码）

～在下小吴·2022-12-18 16:24

利用人工智能玩智龙迷城,神魔之塔，转珠游戏（二）DQN

前言我们知道了使用q-learning可以解决延迟奖励问题，但是还是有一个问题，他的表格太大了所以我们使用神经网络来代替q表格，就是DQN啦DQN我们先设定一堆超参数（实际上跑一遍代码就知道他们分别有什么作用了

活塞君·2022-12-18 02:59

基于Q-learning方法的地铁列车时刻表重新调度

文章信息《MetroTrainTimetableReschedulingBasedonQ-learningApproach》是发表在2020IEEE23rdInternationalConferenceonIntelligentTransportationSystems(ITSC)上的一篇文章。摘要在地铁系统中，不可预测的干扰会影响正常运行，给乘客带来诸多不便。本文研究了地铁管理中考虑实际操作的列

当交通遇上机器学习·2022-12-13 15:49

Q-Learning

一、什么是Q-learningQ-Learning是强化学习中，一种基于值(values-based)的算法，最终的return是一个表格，即Q-Table。这个表格的每一行都代表着一个状态（state），每一行的每一列都代表着一个动作（action），而每个值就代表着如果在该state下，采取该action所能获取的最大的未来期望奖励。通过Q-Table就可以找到每个状态下的最优行为，进而通过找

帅帅气气的黑猫警长·2022-12-13 09:39

强化学习DQN

强化学习中有两种重要的方法：PolicyGradients和Q-learning。

choushi5845·2022-12-11 17:36

人工智能学习：倒立摆强化学习控制-DQN（10）

DQN的原理就是建立一个神经网络来替代Q-Learning算法中Q-Table，根据对象的状态和采用的动作输出对应的Q值，Q值越高表示动作能得到的奖励越高。

星光2020·2022-12-11 17:31

【强化学习】Actor-Critic（演员-评论家）算法详解

1ActorCritic算法简介1.1为什么要有ActorCriticActor-Critic的Actor的前身是PolicyGradient，这能让它毫不费力地在连续动作中选取合适的动作，而Q-Learning

谁最温柔最有派·2022-12-11 16:46

阅读报告（q-learning based 离散车队控制）

文章标题：基于Q学习模型的无信号交叉口离散车队控制doi：10.19562/j.chinasae.qcgc.2022.09.006主要内容：近年来，随着V2X，V2V技术的发展，车辆编队已经成为一个研究热点。较多研究已经证明，车辆编队具有提升通行效率，降低能耗的潜力，并且在多个场景下已经被证实。车队的引入可以使交叉口的通行效率提升。但是固定规模的车队，难以适应不同流量、密度下的无信号交叉口场景。因

weixin_48557841·2022-12-11 13:56

【强化学习】Policy Gradient（策略梯度）算法详解

家族中有很多种不一样的成员，有学习奖惩值，根据自己认为的高价值选行为，比如Q-Learning，Deep-Q-network，也有不通过分析奖惩值，直接输出行为的方法，这就是今天要说的PolicyGradient

谁最温柔最有派·2022-12-11 11:03

策略梯度算法（Policy Gradient）理论基础及REINFORCE算法代码实现

策略梯度理论基础Q-learning、DQN及DQN改进算法都是基于价值（value-based）的方法，其中Q-learning是处理有限状态的算法，而DQN可以用来解决连续状态的问题。

奋斗的西瓜瓜·2022-12-11 10:01

【强化学习】策略梯度（Policy Gradient）

添加基线为每个动作分配不同的权重策略梯度基本知识强化学习主要分为两类：基于价值的（如Sarsa、Q-Learning和DQN算法），先计算每个状态对应的动作的Q值，再选择Q值最大的动作执行。

Judy18·2022-12-11 10:55

【强化学习】Q-Learning算法详解

这和我们提到的Q-Learning有什么关系呢？原来Q-Learning也是一个

谁最温柔最有派·2022-12-10 08:28

强化学习 -- Q-Learning小实例手写入门代码

前言本文针对下面这篇文章进行代码复现，文章写的很棒，但是算法最关键的更新步骤貌似有问题，本人使用原版公式。http://www.cnblogs.com/coshaho/p/7475988.html正文使用矩阵模拟了环境以及奖励，可以先尝试读懂原文章。本文是针对文章做的复现，我的学习经历告诉我，要啃很多遍概念才可以将知识转化为实践。所以对该文章以及本文示例代码有困惑请务必多看教学视频理解概念。本人也

张甜不拉几·2022-12-10 08:56

【强化学习】Q-Learning算法详解以及Python实现【80行代码】

强化学习在文章正式开始前，请不要被强化学习的tag给吓到了，这也是我之前所遇到的一个困扰。觉得这个东西看上去很高级，需要一个完整的时间段，做详细的学习。相反，强化学习的很多算法是很符合直观思维的。因此，强化学习的算法思想反而会是相当直观的。另外，需要强调的是，这个算法在很多地方都有很详细的阐述了。这篇文章的工作，很多也是基于前辈的工作而继续推进的。这里也引用方便后来者进一步学习。这里再次感谢前辈的

肥宅_Sean·2022-12-10 08:25

CARLA平台+Q-learning的尝试（gym-carla）

接触强化学习大概有半年了，也了解了一些算法，一些简单的算法在gym框架也实现了，那么结合仿真平台Carla该怎么用呢？由于比较熟悉gym框架，就偷个懒先从这个开始写代码。项目地址：https://github.com/cjy1992/gym-carla文章目录一、环境配置1.1基本配置1.2配置工作环境1.3运行测试二、环境解读2.1test.py--超参数设置2.2环境介绍2.2.1动作空间2.

蛋总的快乐生活·2022-12-09 16:34

强化学习打卡之DQN与Actor-Critic

强化学习打卡之DQNDQN为了解决动作空间过大造成维数灾难问题在Q-learning的基础上引入了神经网络。DQN主要是把Q函数通过价值函数近似方法转换为一个深度神经网络。

小白684·2022-12-09 13:13

倒立摆_Q-Learning算法_边做边学深度强化学习：PyTorch程序设计实践（4）

倒立摆_Q-Learning算法_边做边学深度强化学习：PyTorch程序设计实践（4）0、相关系列文章1、Agent.py2、Brain.py3、Environment.py4、Val.py5、main.py6

sethnieTech·2022-12-09 10:03

强化学习（四）—— DQN系列（DQN, Nature DQN, DDQN, Dueling DQN等）

因此在这种情况下，传统的方法，比如Q-Learning就无法在内存中维护这么大的一张Q表。针对上面

叛逆的鲁鲁修love CC·2022-12-08 22:10

Python金融领域人工智能教程

Python金融领域人工智能教程财务分析、时间序列分析、投资组合优化、CAPM、算法交易、Q-Learning等等！

IT教程精选·2022-12-08 05:28

强化学习实战-使用Q-learning算法解决迷宫问题

Q-learning简介Q-learning也是采用Q表格的方式存储Q值（状态动作价值），决策部分与Sarsa是一样的，采用ε-greedy方式增加探索。

wydxry·2022-12-06 12:05

【5】强化学习之时序差分方法（Sarsa和Q-learning）

目录1、时序差分预测1）与动态规划方法的比较2）与蒙特卡罗方法的比较3）时序差分预测伪代码2、Sarsa算法：在线策略的时序差分方法3、Q-learning算法：离线策略的时序差分方法4、Q-learning

Water-drop-conquer·2022-12-06 12:35

Q-Learning解决一维寻宝问题

南音小榭·2022-12-06 12:04

【莫烦强化学习】视频笔记（三）2.SARSA学习实现走迷宫

莫烦强化学习】视频笔记（二）3.Q_Learning算法实现走迷宫这里只介绍与Q学习不同的（需要修改的）代码部分，最后给出整个源代码，如有错误请各位批评指正，感谢~8.1SARSA-Learning类之前介绍的Q-Learning

你的宣妹·2022-12-06 12:03

【强化学习】Q-learning与SARSAS算法比较与SARSA算法实现

一、Q-learning与SARSA区别Q-learning为offpolicy(通过之前的历史，也可以是别人的历史，学习者和决策者不一定相同)，target使用greedy，action用ε-greedy

cc街道办事处·2022-12-06 12:33

【强化学习】迷宫寻宝：Sarsa和Q-Learning

前言本篇博文通过迷宫寻宝这一实例来探究Sarsa和Q-Learning的不同。相关代码主要参考自邹伟等人所著的《强化学习》(清华大学出版社)。.

zstar-_·2022-12-06 12:02

【Sarsa＆Q-learning】表格型强化学习方法

3)训练与测试3.Q-learning算法3.1.算法简介3.2.算法伪码3.3.算法实现(1)前期准备(2)构建智能体(3)训练与测试4.实验结论写在最后1.项目准备1.1.问题导入Sarsa算法和Q-learning

Kevin Tang·2022-12-05 07:53

论文笔记之：Continuous Deep Q-Learning with Model-based Acceleration

ContinuousDeepQ-LearningwithModel-basedAcceleration本文提出了连续动作空间的深度强化学习算法。开始正文之前，首先要弄清楚两个概念：Model-free和Model-based。引用周志华老师的《机器学习》中的一段话来解释这个概念，即：Model-basedlearning：机器已对环境进行了建模，能够在机器内部模拟出与环境相同或者近似的状况。在已知

a1424262219·2022-12-04 10:19

人工智能-强化学习-算法：PPO（Proximal Policy Optimization，改进版Policy Gradient）【PPO、PPO2、TRPO】

LearninganActor/PolicyπValue-basedApproach：Critic{StatevaluefunctionVπ(s)State-ActionvaluefunctionQπ(s,a) ⟹ Q-Learning

u013250861·2022-12-03 06:46

强化学习--DDPG算法

以前学习的Q-learning算法、Sarsa算法以及DQN算法针对的动作空间都是离散的，DDPG就是对DQN算法的扩展，主要就是让DQN能够解决连续动作控制的问题而提出的。

秃头研究生·2022-12-02 19:05

经典Q-learning讲解

本文转载，很经典：DivingdeeperintoReinforcementLearningwithQ-Learning1、Q-learningStep1:WeinitourQ-tableTheinitializedQ-tableStep2:ChooseanactionFromthestartingposition,youcanchoosebetweengoingrightordown.Becau

seaside2003·2022-12-02 10:19

强化学习扫盲贴：从Q-learning到DQN

本文转载自知乎专栏「机器学习笔记」，原文作者「余帅」，链接https://zhuanlan.zhihu.com/p/358829371本文学习目标1.复习Q-Learning；2.理解什么是值函数近似（

夕小瑶·2022-12-01 16:07

机器人强化学习——Learning Collaborative Pushing and Grasping Policies in Dense Clutter（ICRA 2021）

1简介基于3D视觉联合学习平面推和6DOF抓取，采用Q-learning。推和抓取使用两个独立的网络，通过采样器获得6-DOF抓取位姿。

千羽QY·2022-11-30 16:27

强化学习（Q-learning）

强化学习RF简介强化学习是机器学习中的一种重要类型，一个其中特工通过执行操作并查看查询查询结果来学习如何在环境中表现行为。机器学习算法可以分为3种：有监督学习（SupervisedLearning）、无监督学习（UnsupervisedLearning）和强化学习（ReinforcementLearning），如下图所示：有监督学习、无监督学习、强化学习具有不同的特点：有监督学习是有一个label

我不是zzy1231A·2022-11-29 07:12

人工智能-强化学习(Reinforcement Learning)：综述【Actor/Policy π、Critic--＞Q-Learning、Actor+Critic】

LearninganActor/PolicyπValue-basedApproach：Critic{StatevaluefunctionVπ(s)State-ActionvaluefunctionQπ(s,a) ⟹ Q-Learning

u013250861·2022-11-28 20:40

Q-Learning, Double DQN与 Dueling DQN算法详解

参考学习课程DavidSilverReinforcementLearning李宏毅教授强化学习文章目录参考学习课程Value-basedQ-Learning算法思想ValueFunctionQFunctionQ-learning的三个个小技巧TargetnetworkExplorationEpsilonGreedyBoltzmannExplorationReplayBuffer完整的Q-Learn

Cder1c·2022-11-28 20:03

多智能体强化学习思路整理

多智能体强化学习算法思路整理目录摘要背景和意义研究背景强化学习多智能体强化学习与博弈论基础研究意义问题与挑战问题分类问题分析环境的不稳定性与可扩展性的平衡部分可观测的马尔可夫决策过程研究现状基于值函数的方法Q-Learning

Cder1c·2022-11-28 20:01

强化学习五 || TD算法

TDtarget时，需要查表，找出蓝色圈出的式子还能通过查表找到TDerror更新权重如果参数过多，无法画表，则利用神经网络模拟Q函数Q-learningQ-learning和sarsa算法的区别是，Q-learning

Anthony_CH·2022-11-28 09:11

Deep Reinforcement Learning with Double Q-learning（Double DQN）论文学习和公式推导

最近刚开始使用DQN，也会用DDQN，但是背后的原理不理解，所以读了这篇论文，下面以翻译并附带一些解释和公式推导的方式讲讲我个人的理解，有疑问可以多交流。AbstractQ-learning算法会在某些情况下存在对actionvalues的过估计（overestimation）问题，但这种过估计是否普遍存在，是否影响性能，是否可避免，以前尚不清楚。作者在本文回答了这些问题，且证明了用于解决表格式问

王蛋糕cake·2022-11-27 18:26

人工智能-强化学习-算法：DQN（Deep Q-Learning Network）【Deep Learning Network + Q-Learning 】

DQN（DeepQ-LearningNetwork）可谓是深度强化学习（DeepReinforcementLearning，DRL）的开山之作，是将深度学习与强化学习结合起来从而实现从感知（Perception）到动作（Action）的端对端（End-to-end）学习的一种全新的算法。由DeepMind在NIPS2013上发表1，后又在Nature2015上提出改进版本2。DQN（DeepQ-L

u013250861·2022-11-27 18:26

强化学习（八） - 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例

Stan Fu·2022-11-27 18:55

【Sarsa、Q-Learning算法】

前言本文具体讲解一下TD算法：主要讲Sarsa、Q-Learning算法。

问凝·2022-11-27 07:39

莫烦python 强化学习 (Reinforcement Learning)

Q-Learning决策过程Q-learning小例子-o---T#T就是宝藏的位置,o是探索者的位置每一次移动，状态发生改变的反馈defget_env_feedback(S,A):#ThisishowagentwillinteractwiththeenvironmentifA

卢容和·2022-11-26 18:39

强化学习Q-Learning实现机器人走迷宫

（参考学习的网址：https://www.imooc.com/article/40166，里面也比我写的更详细，也建议大家去看看）首先有三部分代码：第一部分是绘制地图代码，第二部分是Q-Learning

任菜菜学编程·2022-11-26 11:52

深度强化学习中深度Q网络（Q-Learning+CNN）的讲解以及在Atari游戏中的实战（超详细附源码）

利用深度神经网络具有有效识别高维数据的能力，使得强化学习算法在处理高纬度状态空间任务中更加有效一、DQN算法简介1：核心思想深度Q网络算法（DQN）是一种经典的基于值函数的深度强化学习算法，它将卷积神经网络与Q-Learning

showswoller·2022-11-26 09:21

Q-learning\Sarsa解决12*12 grid world问题源码与总结

1原理综述Q-learning和Sarsa的原理已经有很多相关教程，详细内容推荐查看CS234强化学习课程第4-5讲。

普通攻击往后拉·2022-11-25 17:02

推荐频道

Q-LEARNING