Q-LEARNING 第11页

各种DQN

Q-learningDQN论文：Human-levelcontrolthroughdeepreinforcementlearningDQN其实就是将深度学习与Q-learning结合起来了，建立了卷积神经网络来估计

研究僧m0_37600149·2020-08-25 00:20

强化学习(五) - 无模型学习(Sarsa、Q-Learning)

上一节主要讲了Monte-Carlolearning，TDlearning。这两个方法都是在给定策略下来估计价值函数V(s)。但是我们的目标是想得到最优策略。基于模型的策略优化过程分为策略评估和策略改进。从一个策略π和v(s)函数开始，先利用当前策略π估算v值，然后通过v值来更新策略π。交替迭代，最后会收敛到最优策略和最优价值函数。那么对于模型未知的情况，是否还能使用呢？答案是不能。模型未知的情况

EmilyGnn·2020-08-25 00:55

【笔记2-5】李宏毅深度强化学习笔记（五）Sparse Reward

www.bilibili.com/video/av24724071李宏毅深度强化学习笔记（一）Outline李宏毅深度强化学习笔记（二）ProximalPolicyOptimization(PPO)李宏毅深度强化学习笔记（三）Q-Learning

jessie_weiqing·2020-08-25 00:31

基于Policy的强化学习算法

在文章基于Value的强化学习算法中，介绍了Q-learning和SARSA两种经典的强化学习算法。在本篇文章中，将介绍一下基于Policy的经典强化学习算法——PolicyGradient。

Java与Android技术栈·2020-08-25 00:56

Combining policy gradient and Q-learning

https://arxiv.org/abs/1611.01626BrendanO'Donoghue,RemiMunos,KorayKavukcuoglu,VolodymyrMnih(Submittedon5Nov2016(v1),lastrevised7Apr2017(thisversion,v3))Policygradientisanefficienttechniqueforimprovinga

算法学习者·2020-08-25 00:00

深度学习中sarsa算法和Q-learning算法的区别

sarsa和Q-learning都是时序差分下对动作价值函数优化的单步方法，算法基本上一样，只有一点：为了更新St的动作价值函数，需要St+1的动作价值函数，St+1是由St和At决定的，但是St+1对应的

zhaoying9105·2020-08-25 00:28

【强化学习笔记】从 “酒鬼回家” 认识Q Learning算法

1.背景现在笔者来讲一个利用Q-learning方法帮助酒鬼回家的一个小例子,例子的环境是一个一维世界,在世界的右边是酒鬼的家。

wolf_ray·2020-08-25 00:56

强化学习笔记+代码（六）：Policy Gradient结构原理和Agent实现(tensorflow)

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN

nbszg·2020-08-25 00:20

强化学习中的off-policy 和on-policy

off-policy的经典算法有Q-learning，而on-policy的经典算法有SARSA算法，两

茄砸·2020-08-25 00:49

深度学习第55讲：强化学习简介与Q-Learning实例

本节和下一节笔者将和大家来看一下强化学习(ReinforcementLearning)的相关内容。从整个机器学习的任务划分上来看，机器学习可以分为有监督学习、有监督和半监督学习以及强化学习，而我们之前一直谈论的图像、文本等深度学习的应用都属于监督学习范畴。自编码器和生成式对抗网络可以算在无监督深度学习范畴内。最后就只剩下强化学习了。但是我们这是深度学习的笔记，为什么要把强化学习单独拎出来讲一下呢？

louwill12·2020-08-25 00:50

一图看懂Policy Gradients深度强化学习算法

二、算法原理三、算法实现流程四、与Q系列算法相比的优劣五、总结前言基于PolicyGradients（策略梯度法，后文简称PG）的深度强化学习方法，思想上与基于Q-learning的系列算法有本质的不同

薄荷-塘·2020-08-25 00:45

Pandas使用笔记

在学习Q-Learning的时候需要使用该工具，可以简化表格的更新过程。并且提供比较规整的可视化数据，也可以进一步的保存表格。

lixuzong·2020-08-25 00:31

为什么Q-Learning有效？

关于最优价值函数、最优行为的定义如下：最优价值函数最优行为最优价值函数的学习准则最近在思考，为什么Q-Learning能取得如此好的效果。

海街diary·2020-08-23 14:34

强化学习7日打卡营学习总结和心得

课程收获在科科老师的讲解下，了解到了强化学习的应用，了解到了基于价值的方法（saras，Q-learning）和基于策略的方法（REINFORCE算法）,还有应用在连续动作空间的算法（DDPG）。

s_tatic_·2020-08-23 06:40

Q-learning与svc视频流多径传输

我遇到这篇文章，在这里做个记录，怕以后忘记了。 [1]是硕士论文，其主要思想被总结到小论文[2]。[2]中主要研究的svc视频流的层数选择在SDN网络中的多路径传输，它被建模成一个离散的马尔科夫决策过程(MDP)。MDP里面主要有四个元素，状态空间(S)，行动空间(A)，状态转移概率(p)，奖励(r)。优化目标是在相应的状态上，采取一个行动，使其期望收益最大。可以使用数学公式描述。maxmize

Soonyang Zhang·2020-08-22 22:16

MATLAB强化学习入门——二、网格迷宫、Q-learning算法、Sarsa算法

一、多步决策问题和网格迷宫上一篇文章里讨论多臂赌机问题是单步最优决策问题的对应模型。而在这之后，则可以考虑离散的多步决策问题。离散的多步决策问题，对应的典型问题模型则是网格迷宫(GridWorld)。前文中，ε-greedy策略，softmax策略的原理及其特点得到了讨论。而这些策略，可以看作智能体应对某一状态时选择动作的方式。策略应用的前提，则是智能体对于动作的优劣有着某种估计（无论正确与否）。

忘了面孔的Batou·2020-08-21 11:23

强化学习(Reinforcement Learning)简单例子的Matlab代码实现——扫地机器人（Q-learning and SARSA）

强化学习（ReinforcementLearning,RL）作为机器学习的一种技术，近年来受到了大量的关注，也取得了一些应用上的进展，比如AlphaGo的成功。论坛上已经有了大量的帖子博文介绍强化学习，感兴趣的朋友可以参考https://blog.csdn.net/Young_Gy/article/details/73485518，https://blog.csdn.net/liweibin199

玄在天涯·2020-08-21 09:55

AI学习笔记——Sarsa算法

上一篇文章介绍了强化学习中的Q-Learning算法，这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。

Hongtao洪滔·2020-08-20 18:22

Practical Block-wise Neural Network Architecture Generation论文翻译

在本文中，我们提供了一个名为BlockQNN的分块网络生成管道，它使用具有epsilon-greedy探索策略的Q-Learning范式自动构建高性能网络。

weixin_43955225·2020-08-20 04:19

MetaQNN : 与Google同场竞技，MIT提出基于Q-Learning的神经网络搜索 | ICLR 2017

论文提出MetaQNN，基于Q-Learning的神经网络架构搜索，将优化视觉缩小到单层上，相对于GoogleBrain的NAS方法着眼与整个网络进行优化，虽然准确率差了2～3%，但搜索过程要简单地多，

晓飞的算法工程笔记·2020-08-20 04:16

强化学习方法归纳

图1强化学习算法的分类强化学习方法主要包括：基于价值的方法，如Q-learning，DQN；基于策略搜索的方法（PolicyGradient）；以及两者的结合行为-评判模型（actor-critic）等

yeqiang19910412·2020-08-19 06:30

【莫烦】强化学习（Q-learning和Sara）

目录1.Q-learning1）两个状态两个动作的例子2）Q-learing流程2.Sara1）OriginalSara2）Sara(λ\lambdaλ)1.Q-learningQ-learning属于off-policy，即它看着别人玩来学习。而Sara是走到哪一步就选哪一步，所以只能从自身的经验来学习。可以说成Sara比较胆小，尽量保存自身的安全。1）两个状态两个动作的例子2）Q-learin

水滴_·2020-08-18 17:46

DQN（Deep Q-learning）从入门到放弃笔记

DQN中基本的概念：A代表的是Agent的所有动作，a代表的是Agent的一个动作。S代表的是Agent所能感知的世界的所有状态，s代表的是Agent的一个状态。R是一个实数值，代表奖励或惩罚（Reward）。π代表的是状态State和动作Action存在的映射关系，即策略Policy。如果策略是随机的，policy是根据每个动作概率π(a|s)选择动作；如果策略是确定性的，policy则是直接根

yeqiang19910412·2020-08-17 17:43

深度强化学习（DRL）三：从Q-learning到Deep Q Network(DQN)

目录一、Q-learning二、DeepQNetwork三、DoubleDQN一、Q-learning关于Q-learning，网上的资料很多，简单的总结一下它的特点。

ColinFred·2020-08-17 17:28

DQN——Deep Q Network

DQN是通过多个Q-learning来训练卷积神经网络从而实现高维输入任务的策略控制。神经网络的返回值是Q(s,a)。2、DQN是valuebased还是policybased？

CKH001·2020-08-17 17:36

pytorch实现DQN

DQN（DeepQNetwork）DQN可以使计算机玩游戏比人类厉害，Q-learning和Deep-learning的融合当游戏的状态和动作多种多样，多到天文数字的时候，如果用表格来存储的话，显然不切实际

逆夏11111·2020-08-17 17:44

MATLAB强化学习入门——三、深度Q学习与神经网络工具箱

零、为什么需要深度Q学习上一期的文章《网格迷宫、Q-learning算法、Sarsa算法》的末尾，我们提到了Q学习固有的缺陷：由于智能体(agent)依赖以状态-动作对为自变量的Q函数表(QFunctionTable

忘了面孔的Batou·2020-08-17 16:27

MATLAB强化学习入门——四、用DQN实现网格迷宫算例

那么本期，我们就尝试将DQN移植到第二期我们完成的Q-Learning网格迷宫程序中，尝试深度Q学习的算例实现。

忘了面孔的Batou·2020-08-17 16:27

莫烦python强化学习系列-DQN学习

传统的Q-learning，我们使用表格来存储每一个状态state,和在这个state下，每个行为action所拥有的Q值。传统的Q-learning不适用状态多的情况。

cy冲鸭·2020-08-17 16:51

利用DQN实现迷宫寻路

从q-learning到Deep-Q-Network笔者在利用q-learning算法在Tkinter模块中进行自主寻路，由于网格维度过大而导致训练结果不理想，设置1500次迭代再反复试验后发现q-learning

Adam坤·2020-08-17 16:15

用pytorch简单实现DQN

本文内容参考《DeepReinforcementLearningHands-On》第六章这篇博客默认读者已经熟悉Q-learning。

B417科研笔记·2020-08-17 16:11

深度学习第57讲：深度强化学习与深度Q网络(DQN)

louwill12·2020-08-17 16:29

Deep Q Network(DQN)原理解析

1.前言在前面的章节中我们介绍了时序差分算法（TD）和Q-Learning，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table

weixin_30604651·2020-08-17 16:14

Deep Q-Learning深度增强学习算法

DQN算法由于某些环境中状态过多，通过传统Q-learning的方法，维护一张规模巨大的Q表显然是不现实的。

段星星·2020-08-17 15:08

强化学习笔记+代码（四）：DQN算法原理和Agent实现

本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN

nbszg·2020-08-17 15:51

DQN的总结

转载一篇关于DQN解释非常好的文章转载自:https://zhuanlan.zhihu.com/p/46852675本人做了一些细微的改动，方便个人理解，原文请点这里DQN的由来和解释Q-Learning

ChanZany·2020-08-17 14:42

揭秘深度强化学习-5 评估奖励之Q-learning算法

看完觉得深受启发的一篇文章，根据自己的理解翻译过来留以后再次翻看原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/Q-learning

qq_26690795·2020-08-17 13:43

对Q-Learning算法的改进：Deep Q-Learning（DQN）

本篇主要讲述Q-Learning的改进算法,DeepQ-Learning，首先了解一下Q-Learning算法咯Q-Learning算法众所周知，Q-Learning是解决强化学习问题的算法。

到达起点·2020-08-17 13:00

强化学习之迷宫问题（MC, Sarsa, Q-learning实现）

通过简易迷宫问题，理解Monte-Carlo,Sarsa和Q-learning算法3×33\times33×3的迷宫如下可以通过每一步都随机地走，直到走到S8为止这里主要写通过强化学习，找到最佳路线MC

蓝羽飞鸟·2020-08-17 13:49

强化学习Q-Learning解决FrozenLake例子（Python）

importgymimportnumpyasnpimportrandomimportmatplotlib.pyplotasplt#gym创建冰湖环境env=gym.make('FrozenLake-v0')#初始化Q表格，矩阵维度为【S,A】，即状态数*动作数Q_all=np.zeros([env.observation_space.n,env.action_space.n])#设置参数,#其中α

kyolxs·2020-08-17 13:25

Deep Q-learning学习笔记

Q-learning作为典型的value-basedalgorithm，训练出来的是critic（并不直接采取行为，评价现在的行为有多好），因此提出了statevaluefunction的概念，方便对每个状态进行评估

失学少年等九推·2020-08-17 12:51

强化学习（3）：Deep Q Network（DQN）算法

1.DQN的基本思想传统的Q-Learning算法当Q表过大时不仅难以存储而且难以搜索，并且当状态是连续的话，用Q表存储是不现实的，这时可以用一个函数来拟合Q表，所以提出了神经网络和Q-Learning

棉花糖灬·2020-08-17 11:01

Deep Q-Network 学习笔记（一）—— Q-Learning 学习与实现过程中碰到的一些坑

这方面的资料比较零散，学起来各种碰壁，碰到各种问题，这里就做下学习记录。参考资料：https://morvanzhou.github.io/非常感谢莫烦老师的教程http://mnemstudio.org/path-finding-q-learning-tutorial.htmhttp://www.cnblogs.com/dragonir/p/6224313.html这篇文章也是用非常简单的说明将

weixin_33924220·2020-08-17 10:31

Deep Q-Learning深度增强学习（代码篇）

搭建DQN初始化#动作数量self.n_actions#状态数量self.n_features#learning_rate学习速率self.lr#Q-learning中reward衰减因子self.gamma#e-greedy的选择概率最大值self.epsilon_max#更新Q现实网络参数的步骤数self.replace_target_iter#存储记忆的数量self.memory_size#

段星星·2020-08-17 10:41

DQN(Deep Q-Learning)

文章目录DQNDQN的架构DQN的算法DQNq-learning存在一个问题，真实情况的state可能无穷多，这样q-table就会无限大，解决这个问题的办法是通过神经网络实现q-table。输入state，输出不同action的q-value。q-leaning的执行过程:输出state,根据Q-Table输出不同action的q-value,根据探索利用策略,获取当前状态下采取的动作a.DQN

今生唯尔·2020-08-17 10:21

强化学习实例3：Q-Learning和Q-Network

TheFrozenLakeenvironment，有4x4网格代表湖面,有16个状态，其中S,H,F和G代表不同的格子块，4个行为（上下左右）S：开始块F：冰块H：洞G：目标块Q-Learning包括Q-table

CopperDong·2020-08-17 10:48

Deep Q-Network 学习笔记（二）—— Q-Learning与神经网络结合使用（有代码实现）...

mnemstudio.org/path-finding-q-learning-tutorial.htmhttp://www.cnblogs.com/dragonir/p/6224313.html这篇文章也是用非常简单的说明将Q-Learning

weixin_34186128·2020-08-17 10:50

漫谈深度强化学习之手写Deep Q-Network解决迷宫问题

1.Q-Learning回顾上一期我们讲了Q-Learning以及Sarsa的算法流程，同时我们还手写了基于Q-Learning以及Sarsa来解决OpenAIgym中的FrozenLake问题。

算法学习者·2020-08-17 10:59

一图看懂DQN(Deep Q-Network)深度强化学习算法

一图看懂DQN(DeepQ-Network)深度强化学习算法DQN简介DQN是一种深度学习和强化学习结合的算法，提出的动机是传统的强化学习算法Q-learning中的Q_table存储空间有限，而现实世界甚至是虚拟世界中的状态是接近无限多的

薄荷-塘·2020-08-17 10:59

强化学习7日打卡营----学习心得

课程入口：https://aistudio.baidu.com/aistudio/education/group/info/1335课程从入门到高级，一步步带你了解强化学习世界，从Sarsa到Q-learning

cgq081616·2020-08-17 00:12

推荐频道

Q-LEARNING