Q-LEARNING 第10页

Continuous Deep Q-Learning with Model-based Acceleration

[email protected]@[email protected]@GOOGLE.COM1UniversityofCambridge2MaxPlanckInstituteforIntelligentSystems3GoogleBrai

朱小虎XiaohuZhu·2021-05-19 16:21

Double DQN

简介DoubleDQN的出现，是为了解决DQN和Q-Learning等学习算法中的过高估计。论文参考这里代码参考这里（by莫烦大神）思想传统DQN学习过程如下：过高估计存在于对Q(s',a')的预测。

海街diary·2021-05-19 00:42

深度强化学习——Policy Gradient 玩转 CartPole 游戏

manwritingonpaperImagefromunsplash.combyhelloquence前面的文章我们介绍了Q-learning,DQN等方法都是基于价值的强化学习方法，今天我们介绍的PolicyGradient

Hongtao洪滔·2021-05-09 10:44

Q-learning算法

利用网上的一个简单的例子来说明Q-learning算法。

空白_fc21·2021-05-01 02:31

深度学习和强化学习（五）深度强化学习.Valuebased

甚至很多时候，状态是连续的，那么就算离散化后，集合也很大，此时我们的传统方法，比如Q-Learning，根本无法在内存中维护这么大的一张Q表。一个可行的建模方法是价值函数的近似表示。

循梦渡·2021-04-20 01:54

【详解+推导！！】DQN

DQN，DeepQ-Network是Q-Learning和深度网络结合的一种算法，在很多强化学习问题中表现优异。

志远1997·2021-04-16 16:28

Value-based or Policy-based

现在的研究发现policygradient的方法效果比Q-learning这种单纯基于value的方法好，所以选择policygradient，事实上是把两者结合起来的actor-critic效果是最好的

博士伦2014·2021-03-10 17:04

关于实现以井字棋为基础的Q-learning

Q-learning我就不细说了，这是莫烦大神在他自己的官网上的教程不光有Q-learningQ-learning简而言之就是通过建立一种S，A之间的Q表，通过设定奖励(reward)机制不断训练，最终训练出一个能够自己向着设定的奖励

viggio·2021-02-11 18:03

深度学习与强化学习的两大联姻：DQN与DDPG的对比分析

本文首发于：行者AIQ学习（Q-Learning）算法是提出时间很早的一种异策略的时序差分学习方法；DQN则是利用神经网络对Q-Learning中的值函数进行近似，并针对实际问题作出改进的方法；而DDPG

·2021-02-07 14:47

深度学习与强化学习的两大联姻：DQN与DDPG的对比分析

本文首发于：行者AIQ学习（Q-Learning）算法是提出时间很早的一种异策略的时序差分学习方法；DQN则是利用神经网络对Q-Learning中的值函数进行近似，并针对实际问题作出改进的方法；而DDPG

·2021-02-05 16:54

【入门教程】TensorFlow 2 模型：深度强化学习

文/李锡涵，GoogleDevelopersExpert本文节选自《简单粗暴TensorFlow2》本文将介绍在OpenAI的gym环境下，使用TensorFlow实现Q-learning算法，从而玩倒立摆游戏的流程

TensorFlow 社区·2021-01-25 14:56

DQN强化学习 MountainCar Deep Q-Learning

虽则你我被每粒星唾弃，我们贫乏却去到金喜。———七百年后这篇文章关于神经网络的Qlearning实现，Qlearning的一些方法概念写在第一篇文章“强化学习：Q表格方法”里：文章链接：https://blog.csdn.net/weixin_43968987/article/details/112959287对于Qlearning的方法，适用于动作空间是离散的环境，比如说象棋中的棋子，只能以有限

小雅不采薇·2021-01-23 18:44

基于Q-Learning 的FlappyBird AI

基于Q-Learning的FlappyBirdAI在birdbot实现的FlappyBird基础上训练AI，这个FlappyBird的实现对游戏进行了简单的封装，可以很方便得到游戏的状态来辅助算法实现。

NULL·2020-12-27 08:23

基于Q-Learning 的FlappyBird AI

基于Q-Learning的FlappyBirdAI在birdbot实现的FlappyBird基础上训练AI，这个FlappyBird的实现对游戏进行了简单的封装，可以很方便得到游戏的状态来辅助算法实现。

NULL·2020-12-27 08:50

强化学习课程笔记之value-based方法

发现一个问题，你给了Q-learning或者DQN的伪代码，去做一个实战，确实可以复现，但是就是对背后的原理理解的很模糊。

Ton10·2020-12-24 14:00

python井字棋最大最小算法_Python手写强化学习Q-learning算法玩井字棋

Python手写强化学习Q-learning算法玩井字棋Q-learning是强化学习中的一种常见的算法，近年来由于深度学习革命而取得了很大的成功。

刘兮mk~~~·2020-12-24 03:40

【深度强化学习】DQN训练超级玛丽闯关

上一期MyEncyclopedia公众号文章通过代码学Sutton强化学习：从Q-Learning演化到DQN，我们从原理上讲解了DQN算法，这一期，让我们通过代码来实现DQN在任天堂经典的超级玛丽游戏中的自动通关吧

风度78·2020-12-08 13:00

论文趣读：人工智能里程碑？回顾2015年登上Nature的DQN（全文翻译+批注）

这篇文章的内容是，CNN（卷积神经网络）+Q-learning（一种离轨-时序差分-强化学习迭代方法）=DQN，让神经网络自己学习玩雅达利小游戏（上个世纪70/80年代的电子

user_zsXbv7Bi·2020-12-05 11:02

强化学习之Q-learning与Sarsa算法解决悬崖寻路问题

之前有写过利用Q-learning算法去解决->一维二维探宝游戏：https://blog.csdn.net/MR_kdcon/article/details/109612413有风格子寻路游戏：https

Ton10·2020-12-05 11:10

强化学习之Q-learning算法实战2

之前用Q-learning算法实现了一维和二维空间的探宝游戏，取得了不错的效果，证明了Q-learning算法对于状态不大的或离散状态下的RL问题有较好的收敛效果，为了强化对Q-learning的认识，

Ton10·2020-12-04 01:07

q learning简单理解_Python手写强化学习Q-learning算法玩井字棋

Q-learning是强化学习中的一种常见的算法，近年来由于深度学习革命而取得了很大的成功。

weixin_39717029·2020-11-26 23:59

强化学习之Q-learning算法实战1

实战内容：1、一维探宝2、二维探宝所需环境：pycharm所需安装包：graphic、numpy、pandas、gym一、实际效果：一维探宝：二维探宝：二维探宝升级版：二、Q-learning算法：输入

Ton10·2020-11-11 14:44

进阶阶段（一）——Q-Learning算法

进阶阶段（一）——Q-Learning算法一、Q-Learning的更新Q值的公式二、Q-Learning的存储Q值的Q-Table三、Q-Learning的更新Q值的算法流程四、Q-Learning的工程化的执行流程

魔法攻城狮MRL·2020-10-22 16:19

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL

因此可以加个w参数，改用值函数拟合的方法：一个简单的例子如图所示，神经网络输出动作，定义损失函数，进行优化：Q-learning的流程：用神经网络：3.2DQN算法解析DQN的2大创新点在于：经验回放，

FlyingPie·2020-09-17 03:39

强化学习7日打卡营-世界冠军带你从零实践——心得体会

课程主要讲解了强化学习经典算法：Q-learning、Sarsa、DQN、Policy、Gradient、DDPG。下面是遇到的一些故障和心得。环境搭建!

LeonardoTime·2020-09-17 03:15

Value-based Reinforcement Learning

不久前做了一个关于value-basedRL相关的slides，主要讲解了基于值的强化学习方法的几个重要理论方法，同时讲解了Q-learning作为off-policy方法在学习过程中产生的bias的来源已经如何减轻的几种方法

南极光·2020-09-15 14:57

Q-Learning算法详解（转）

https://blog.csdn.net/qq_30615903/article/details/80739243

麦子心境·2020-09-14 15:20

论文笔记1：Deep Recurrent Q-Learning for Partially Observable MDPs

参考资料：鼻祖论文：PlayingAtariwithDeepReinforcementLearningHuman-levelcontrolthroughdeepreinforcementlearning.论文笔记之：DeepRecurrentQ-LearningforPartiallyObservableMDPs最近老师让看一写DQN算法上前人都做了哪些改进，下面是我自己写的一些理解首先我总结一下

uuummmmiiii·2020-09-13 07:41

D.E.Shaw：500亿规模的优势与内幕！

♥优化强化学习Q-learning算法进行股市♥Wor

weixin_38754123·2020-09-12 20:12

强化学习笔记(2)：Sarsa 与 Sarsa(lambda)

1.Sarsa算法上篇文章中介绍了Q-Learning算法，而Sarsa和Q-Learning是非常类似的，二者在决策环节都是基于Q表，挑选值较大的动作值施加在环境中来换取回报。

Joe-Han·2020-09-12 20:55

6.时序差分学习Temporal-Difference Learning--阅读笔记【Reinforcement Learning An Introduction 2nd】

文章目录时序差分学习Temporal-DifferenceLearning前言TD预测/评估TD预测方法的优势TD(0)的最优性Sarsa:在线策略TD控制Q-learning:off-policyTD

EdenJin·2020-09-12 16:09

多智能体强化学习算法MADDPG（一：由单智能体强化学习到多智能体强化学习）

准备好课堂笔记┗|｀O′|┛嗷~~多智能体强化学习背景知识*为什么提出多智能体DDPG（MADDPG）**学习MADDPG算法的先验知识*==SPG与DPG简述====Q-Learning简述====由

打酱油的栋栋拐·2020-09-12 04:50

【论文翻译】Playing Atari with Deep Reinforcement Learning

该模型是一个卷积神经网络，经过Q-learning训练，输入为原始像素，输出为：“用来估计未来reward”的值函数。

猪蒙索洛夫·2020-09-11 17:54

变分自编码器：金融间序的降维与指标构建（附代码）

♥优化强化学习Q-learning算法进行股市♥W

weixin_38754123·2020-08-26 15:32

SARSA与Q-learning的区别

莫烦强化学习视频https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/SARSA与Q_learning的区别：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/3-1-tabular-sa

ZONG_XP·2020-08-25 01:57

深度学习中的sarsa（lambda）和 Q（lambda）算法

这个没什么好说的，因为在莫烦python中出现了，可能会引起一些疑惑，普通的sarsa和q-learning就是普通的时序差分（TD）的实现，sarsa（lambda）和Q（lambda）算法就是TD（

zhaoying9105·2020-08-25 01:24

深度强化学习中的DQN系列算法

DQN是考虑到维度灾难，在q-learning算法的价值函数近似ValueFunctionApproximation基础上修改的。

zhaoying9105·2020-08-25 01:23

强化学习之DQN和policy gradient

简称DeepQNetwork，由于之前的Q表格中状态个数可数，用之前的sarsa以及Q-learning是可以解决的，但是现实生活中会出现状态个数多到无法计数，这时再用前面的那两种方法可就不那么容易解决了

追光者2020·2020-08-25 01:40

深度增强学习（DRL）简单梳理

时光杂货店·2020-08-25 01:02

强化学习中的Q-learning算法和Sarsa算法的区别

欢迎点击参观我的——>个人学习网站&技术杂谈Q-learning算法描述：Sarsa算法描述：假设我们的Q(s,a)是一个Qtable，如下图所示，该表格表示共有三个state(状态)：s1s_{1}s1

iTensor·2020-08-25 01:28

【强化学习】中Q-learning,DQN等off-policy算法不需要重要性采样的原因

由于Q-learning采用的是off-policy，如下图所示但是为什么不需要重要性采样。

贰锤·2020-08-25 01:19

强化学习笔记+代码（七）：Actor-Critic、A2C、A3C算法原理和Agent实现(tensorflow)

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN

nbszg·2020-08-25 01:06

强化学习笔记+代码（五）：Double-DQN、Dueling DQN结构原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN

nbszg·2020-08-25 01:05

强化学习笔记+代码（二）：SARSA算法原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN

nbszg·2020-08-25 01:05

强化学习笔记+代码（三）：Q-learning算法原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN

nbszg·2020-08-25 01:05

[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

看了莫凡大神(link)关于Q-learning和Sarsa的视频之后，大概了解了Q-learning和Sarsa，但是对其区别还是有点懵懵懂懂，这篇博客便是后续对其理解的过程记录。

nana-li·2020-08-25 01:06

Q-learning与Sarsa算法的区别

接触reinforcementlearning有一个月的时间了，现在回来回顾当时写的Q-learning和Sarsa算法，有了更多的感触。

赵YN的csdn·2020-08-25 01:40

多代理强化学习MARL（MADDPG，Minimax-Q，Nash Q-Learning）

由于强化学习领域目前还有很多的问题，如数据利用率，收敛，调参玄学等，对于单个Agent的训练就已经很难了。但是在实际生活中单一代理所能做的事情还是太少了，而且按照群体的智慧，不考虑训练硬件和时长问题，使用多个agent同时进行学习，会不会有奇招呢？另外如果在需要multi-agent的场景下，如想要完成多人游戏的话，也必须要考虑到多代理的问题。博弈论（gametheory）在单个agent中只需要

上杉翔二·2020-08-25 01:40

强化学习(Q-learning~了解了一波

Q-learning是通过奖励与惩罚机制建立的Q_table去判断其下一步该怎么走一个小笨蛋如何自己学着用最近的步伐走到最右边产生一组伪随机数列，伪随机是随机种子是相同的np.random.seed(2

ye-leng·2020-08-25 01:02

时间差分方法Q-learning和sarsa的区别

Q-learning和sarsa都是利用时间差分目标来更新当前行为值函数的。

小蚂蚁呀·2020-08-25 01:19

推荐频道

Q-LEARNING

Continuous Deep Q-Learning with Model-based Acceleration

Double DQN

深度强化学习——Policy Gradient 玩转 CartPole 游戏

Q-learning算法

深度学习和强化学习（五）深度强化学习.Valuebased

【详解+推导！！】DQN

Value-based or Policy-based

关于实现以井字棋为基础的Q-learning

深度学习与强化学习的两大联姻：DQN与DDPG的对比分析

深度学习与强化学习的两大联姻：DQN与DDPG的对比分析

【入门教程】TensorFlow 2 模型：深度强化学习

DQN强化学习 MountainCar Deep Q-Learning

基于Q-Learning 的FlappyBird AI

基于Q-Learning 的FlappyBird AI

强化学习课程笔记之value-based方法

python井字棋最大最小算法_Python手写强化学习Q-learning算法玩井字棋

【深度强化学习】DQN训练超级玛丽闯关

论文趣读：人工智能里程碑？回顾2015年登上Nature的DQN（全文翻译+批注）

强化学习之Q-learning与Sarsa算法解决悬崖寻路问题

强化学习之Q-learning算法实战2

q learning简单理解_Python手写强化学习Q-learning算法玩井字棋

强化学习之Q-learning算法实战1

进阶阶段（一）——Q-Learning算法

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.3】基于神经网络方法求解RL

强化学习7日打卡营-世界冠军带你从零实践——心得体会

Value-based Reinforcement Learning

Q-Learning算法详解（转）

论文笔记1：Deep Recurrent Q-Learning for Partially Observable MDPs

D.E.Shaw：500亿规模的优势与内幕！

强化学习笔记(2)：Sarsa 与 Sarsa(lambda)

6.时序差分学习Temporal-Difference Learning--阅读笔记【Reinforcement Learning An Introduction 2nd】

多智能体强化学习算法MADDPG（一：由单智能体强化学习到多智能体强化学习）

【论文翻译】Playing Atari with Deep Reinforcement Learning

变分自编码器：金融间序的降维与指标构建（附代码）

SARSA与Q-learning的区别

深度学习中的sarsa（lambda）和 Q（lambda）算法

深度强化学习中的DQN系列算法

强化学习之DQN和policy gradient

深度增强学习（DRL）简单梳理

强化学习中的Q-learning算法和Sarsa算法的区别

【强化学习】中Q-learning,DQN等off-policy算法不需要重要性采样的原因

强化学习笔记+代码（七）：Actor-Critic、A2C、A3C算法原理和Agent实现(tensorflow)

强化学习笔记+代码（五）：Double-DQN、Dueling DQN结构原理和Agent实现

强化学习笔记+代码（二）：SARSA算法原理和Agent实现

强化学习笔记+代码（三）：Q-learning算法原理和Agent实现

[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

Q-learning与Sarsa算法的区别

多代理强化学习MARL（MADDPG，Minimax-Q，Nash Q-Learning）

强化学习(Q-learning~了解了一波

时间差分方法Q-learning和sarsa的区别