E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Q-LEARNING
白话强化学习之Sarsa与Sarsa-lambda
SarsaSarsa的学习过程和
Q-Learning
基本一样,不同的地方是
Q-Learning
在走下一步的时候是先看下一步应该走哪,但是最后不一定走,而Sarsa是决定完要走的步之后一定会去走那一步。
坑吭吭
·
2019-12-25 04:12
AI学习笔记——深度
Q-Learning
(Deep Q-Learing(DQN))
之前的文章介绍了
Q-learning
,介绍了深度学习(DeepLearning),DQN顾名思义就是将两者结合起来。
Hongtao洪滔
·
2019-12-21 08:55
Q-learning
今天,来说说q-learning.在我最近学习机相关资料后.首先关于
q-learning
是一个马尔科夫决策的过程(markov).公式如下:Q(st,at)←Q(st,at)+α[rt+1+λmaxaQ
D_8鸽
·
2019-12-19 06:52
迷雾探险12 | RL的开源库
提供的强化学习算法较为全面,如
Q-learning
、Sarsa、DQN、PG、DPG、DDPG、PPO等算法。
臻甄
·
2019-12-16 16:42
白话强化学习之
Q-Learning
用最朴素的语言来解释一下这看起来晦涩难懂的东西系列。。。场景:假设你要从大连去沈阳,然而你并不知道该怎么走,此时你手里有一张假地图(或者干脆就是一张白纸),其次还有个很重要的高科技,就是你每走一步,都能清晰的知道你离目的地的距离(假设你走的是直线,或者是开飞机的,无视障碍物),但是恶心的是起了大雾,你除了能在假地图上记录当前位置和外界的反馈以外啥也干不了。最终目的:把真·地图画出来image.pn
坑吭吭
·
2019-12-16 01:11
实战深度强化学习DQN-理论和实践
1、
Q-learning
回顾
Q-learning
的算法过程如下图所示:在
Q-learning
中,我们维护一张Q值表,表的维数为:状态数S*动作数A,表中每个数代表在当前状态S下可以采用动作A可以获得的未来收益的折现和
文哥的学习日记
·
2019-12-13 09:28
强化学习:
Q-learning
的C语言实现
强化学习:
Q-Learning
学习笔记(C语言实现)一.强化学习(增强学习)的概念:机器学习算法大致可以分为三种:监督学习(如回归,分类)非监督学习(如聚类,降维)强化学习什么是强化学习呢?
Tanzhiyong97
·
2019-12-12 22:32
强化学习
强化学习
增强学习
Q-learning
C语言
强化学习(5):策略梯度(Policy Gradient, PG)算法
之前提到的Sarsa、
Q-Learning
和DQN算法都是基于价值的方法,也就是先计算每个状态对应的动作的Q值,再选择Q值最大的动作执行。
棉花糖灬
·
2019-11-21 13:16
强化学习
强化学习
policy
gradient
PG
基于tensorflow的最简单的强化学习入门-part0:
Q-learning
和神经网络
在这个增强学习系列的教程中,我们打算探索一些列称为==
Q-learning
==的增强学习算法,它和之
y_felix
·
2019-11-08 04:59
AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)
我们介绍过MDP(MarkovDecisionProcesses马可夫决策过程)以及什么是最优MDP,甚至从强化学习的角度介绍了DQN,
Q-learning
,Sarsa等求解最优MDP方法,但是要深入理解强化学习
Hongtao洪滔
·
2019-11-03 21:39
python实现
Q-Learning
算法
先贴源码:莫烦python强化学习此算法实现的背景是一个人找宝藏T,且只有向左和向右两种action。如下图:image.png用到的三个库:numpy、pandas、time。importnumpyasnpimportpandasaspdimporttime#控制探索者移动速度生成相同的随机序列(这句代码产生的效果还没弄明白):np.random.seed(2)#如果括号内的数字相同,则可以使n
带带吴腾跃
·
2019-11-02 03:02
简单粗暴理解
Q-Learning
一个例子简单粗暴理解
Q-Learning
的执行过程。首先强化学习有四个参数,分别是agent:智能体、state:状态、action:动作、reward:奖励。
带带吴腾跃
·
2019-11-01 21:58
8/10/2019 PaperReading: Playing Atari with Deep Reinforcement Learning
Q-learning
的变种进行训练,输入是原始像素,输出是估计未来收益的值函数。应用于AtariLearningEnvironment中的7个游戏,6个优于之前的方法,3个中优于人类专家。
BoringFantasy
·
2019-10-08 21:40
第一次结对作业
Q-Learning
?DeepQ-Learning?LSTM?傻瓜式Bot?强化学习中的状态概念如何定义
_最冷一天
·
2019-09-22 17:00
增强学习
Q-learning
分析与演示(入门)
一些说明、参阅https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/1_command_line_reinforcement_learning/treasure_on_right.pyhttps://github.com/simoninithomas/Deep_reinfo
嘘,小点声
·
2019-09-13 20:00
利用风险平价投资组合构建自己的对冲基金策略
♥优化强化学习
Q-learning
算法进行股市♥Worl
weixin_38754123
·
2019-09-08 17:38
强化学习介绍,Policy-Gradient(包含PPO中的部分),李宏毅课程笔记(整合了Lec4的
Q-Learning
及Imitation Learning)
老师的PPT下载。RL与一般机器学习不同的地方:当前的动作会影响到未来。影响环境、影响接下来看到的东西。observation与State:observation是更raw的场景或图像,更原始。State是经过处理、去掉冗余后的observation。当模型能力很强的时候,例如一些游戏直接输入画面,那么observation与State就一样了。仅仅只将与环境的互动问题当做一种supervised
空苍地樱
·
2019-09-06 18:32
强化学习
李宏毅机器学习系列-强化学习之
Q-Learning
小改进
李宏毅机器学习系列-强化学习之
Q-Learning
小改进DoubleDQNDuelingDQNPrioritizedReplyMulti-stepNoisyNetDistributionalQ-functionRainbowQ-Learning
王伟王胖胖
·
2019-09-04 12:09
强化学习
李宏毅机器学习
深度学习
Q-Learning小改进
强化学习
深度学习
李宏毅机器学习系列-强化学习之
Q-Learning
李宏毅机器学习系列-强化学习之
Q-Learning
评判家(Critic)怎么衡量$V^\pi(s)$蒙特卡洛法(MC)时序差分算法(TD)MC和TD对比另一种评判$Q^\pi(s,a)$
Q-Learning
王伟王胖胖
·
2019-09-03 22:36
李宏毅机器学习
强化学习
深度学习
强化学习之Q-Learning
Q-Learning
深度学习
强化学习
强化学习Actor-Critic算法究竟是怎么回事?
原文链接:https://my.oschina.net/u/778683/blog/3100670我们有了像
Q-learning
这么好的算法,为什么还要再折腾出一个Actor-Critic算法呢?
choushi5845
·
2019-09-02 10:00
深度强化学习(DRL)专栏(一)
看深度强化学习2.强化学习基础知识强化学习问题马尔科夫决策过程最优价值函数和贝尔曼方程3.有模型的强化学习方法价值迭代策略迭代4.无模型的强化学习方法蒙特卡洛方法时序差分学习值函数近似策略搜索5.实战强化学习算法
Q-learning
磐创 AI
·
2019-08-29 21:33
强化学习
Q-learning
练手项目 二维世界寻找出口
强化学习
Q-learning
练手项目二维世界寻找出口之前看到一个强化学习有意思的小项目,在一维世界里寻找宝藏的一个小项目。
Kelvin代
·
2019-08-23 22:02
强化学习
Q-learning
强化学习
深度强化学习
小项目
强化学习(Reinforcement Learning)中的
Q-Learning
、DQN,面试看这篇就够了!
1.什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(ReinforcementLearning,RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于:基本是以一种闭环的形式;不会直接指示选择哪种行动(actions);一系列的act
mantch
·
2019-08-18 17:00
Double DQN——解决DQN中的过估计问题
一句话概括,DQN基于
Q-Learning
,
Q-Learning
中
cristiano20
·
2019-07-23 09:56
机器学习
算法交易,此篇足矣!
♥优化强化学习
Q-learning
算法进行股市♥
weixin_38754123
·
2019-07-10 15:14
TensorFlow2.0 入门教程实战案例
TensorFlow2.0(九)-强化学习70行代码实战PolicyGradientTensorFlow2.0(八)-强化学习DQN玩转gymMountainCarTensorFlow2.0(七)-强化学习
Q-Learning
呆尐兔兔
·
2019-07-09 13:00
TensorFlow2.0 入门教程实战案例
TensorFlow2.0(九)-强化学习70行代码实战PolicyGradientTensorFlow2.0(八)-强化学习DQN玩转gymMountainCarTensorFlow2.0(七)-强化学习
Q-Learning
agr21673
·
2019-07-09 13:00
人工智能
深度强化学习:Deep
Q-Learning
在前两篇文章强化学习基础:基本概念和动态规划和强化学习基础:蒙特卡罗和时序差分中介绍的强化学习的三种经典方法(动态规划、蒙特卡罗以及时序差分)适用于有限的状态集合$\mathcal{S}$,以时序差分中的
Q-Learning
sunwq06
·
2019-07-01 22:00
系统学习深度学习(三十二)--Double DQN (DDQN)
转自:https://www.cnblogs.com/pinard/p/9778063.html1.DQN的目标Q值计算问题在DDQN之前,基本上所有的目标Q值都是通过贪婪法直接得到的,无论是
Q-Learning
Eason.wxd
·
2019-06-16 13:56
深度学习
系统学习深度学习(三十)--Deep
Q-Learning
转自:https://www.cnblogs.com/pinard/p/9714655.html1.为何需要价值函数的近似表示在之前讲到了强化学习求解方法,无论是动态规划DP,蒙特卡罗方法MC,还是时序差分TD,使用的状态都是离散的有限个状态集合S。此时问题的规模比较小,比较容易求解。但是假如我们遇到复杂的状态集合呢?甚至很多时候,状态是连续的,那么就算离散化后,集合也很大,此时我们的传统方法,比
Eason.wxd
·
2019-06-15 22:20
深度学习
系统学习机器学习之增强学习(六)--马尔可夫决策过程策略TD求解(
Q-learning
)
转自:https://www.cnblogs.com/pinard/p/9669263.html1.Q-Learning算法的引入
Q-Learning
算法是一种使用时序差分求解强化学习控制问题的方法,回顾下此时我们的控制问题可以表示为
Eason.wxd
·
2019-06-15 22:55
机器学习
【强化学习】Policy Gradient 算法实现案例
1.算法思想之前的文章已经介绍了
Q-Learning
的相关知识及其实例:【强化学习】
Q-Learning
迷宫算法案例
Q-Learning
是一个基于价值value的方法,通
Gilgame
·
2019-06-12 10:07
深度学习
用
Q-learning
算法实现自动走迷宫机器人的方法示例
项目描述:在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱(红色×××)及终点(蓝色的目标点)两种情景。机器人要尽量避开陷阱、尽快到达目的地。小车可执行的动作包括:向上走u、向右走r、向下走d、向左走l。执行不同的动作后,根据不同的情况会获得不同的奖励,具体而言,有以下几种情况。撞到墙壁:-10走到终点:50走到陷阱:-30其余
宜信技术
·
2019-06-03 14:51
用
Q-learning
算法实现自动走迷宫机器人
项目描述:在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱(红色×××)及终点(蓝色的目标点)两种情景。机器人要尽量避开陷阱、尽快到达目的地。小车可执行的动作包括:向上走u、向右走r、向下走d、向左走l。执行不同的动作后,根据不同的情况会获得不同的奖励,具体而言,有以下几种情况。撞到墙壁:-10走到终点:50走到陷阱:-30其余
宜信技术
·
2019-05-31 10:50
Q-learning
算法
机器人
【强化学习】
Q-Learning
迷宫算法案例
1.问题描述在该项目中,你将使用强化学习算法(本文使用的
Q-Learning
),实现一个自动走迷宫的机器人。如上图所示,机器人初始位置在地图左上角。
Gilgame
·
2019-05-29 17:15
深度学习
强化学习
Q-learning
及python例子
文章目录
Q-learning
原理python例子本文是作者在学习莫烦的强化学习课程中的笔记,强烈推荐莫烦强化学习。
free-dong
·
2019-05-29 10:24
python
用
Q-learning
算法实现自动走迷宫机器人
【技术沙龙002期】数据中台:宜信敏捷数据中台建设实践|宜信技术沙龙将于5月23日晚8点线上直播,点击报名项目描述:在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱(红色炸弹)及终点(蓝色的目标点)两种情景。机器人要尽量避开陷阱、尽快到达目的地。小车可执行的动作包括:向上走u、向右走r、向下走d、向左走l。执行不同的动作后,根据
宜信技术学院
·
2019-05-17 00:00
大数据
算法
mxnet实现强化学习NoisyNet网络
论文地址:https://arxiv.org/abs/1706.10295基础知识储备强化学习流程
Q-learning
算法DQN算法epsilon贪婪策略NoisyNet目标在强化学习算法中,为了增强模型对动作的探索能力
SoldierCall
·
2019-05-15 17:49
Deep
Q-Learning
详解
封面:了解DQN必须从
Q-learning
讲起。不过先说明一点,不论是DQN还是Qlearnging都是基于值的方法,至于基于值和基于策略的区别,我打算放在最后末尾。
无业大学生
·
2019-05-15 17:05
【强化学习】之Policy Gradients
tutorials/machine-learning/reinforcement-learning/5-1-A-PG/目录对比PolicyGradients和Q-learningPolicyGradients和
Q-learning
ChaoFeiLi
·
2019-05-14 22:56
RL
RL
【强化学习】之
Q-learning
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-1-A-q-learning/目录名词解释
Q-Learning
ChaoFeiLi
·
2019-05-12 23:27
RL
【强化学习】Deep Reinforcement Learning with Double
Q-learning
(2015)
DeepReinforcementLearningwithDoubleQ-learning(2015)传统的qlearning被认为会过高估计actionvalue,因为它包括了一个maximizationstep,这样就倾向于过高的估计价值的大小。之前的工作中,高估被归因为functionapproximation有限(?)。本文统一了这些观点,提出当actionvalue不正确时,高估就会出现
Laverwang
·
2019-04-25 15:00
算法岗面试题目汇总
讲一下
q-learning
的那个项目?这个是预测一只股票的模型,能够用来预测多只股票吗?讲一下随机森林的知识点?随机森林的特征重
PCChris95
·
2019-04-22 21:19
机器学习
深度学习
关于
Q-learning
中的Q的含义
然后这个q就一直延续到了
Q-learning
里了。也即Q值表示状态-动作对的值
博士伦2014
·
2019-04-20 10:23
Q-learning
算法
Q-learning
是一个经典的强化学习算法。为了便于描述,这里依然定义一个“世界”:image令空白格子的奖励为1.Q-TableQ-table是
Q-learning
的核心。
0晨鹤0
·
2019-04-18 23:47
Q-learning
算法
Q-learning
是一个经典的强化学习算法。为了便于描述,这里依然定义一个“世界”:image令空白格子的奖励为1.Q-TableQ-table是
Q-learning
的核心。
0晨鹤0
·
2019-04-18 23:47
强化学习经典算法笔记(六):深度Q值网络 Deep Q Network
强化学习经典算法笔记(二):策略迭代算法PolicyIteration强化学习经典算法笔记(三):蒙特卡罗方法MonteCaloMethod强化学习经典算法笔记(四):时间差分算法TemporalDifference(
Q-Learning
赛艇队长
·
2019-04-17 00:43
强化学习
Double Deep
Q-Learning
Netwok的理解与实现
理论简介DoubleDeepQ-LearningNetwok(DQN),基础理论来自于这篇论文。基础理论部分,参考这篇笔记和这篇笔记。下面给出最核心的强化学习公式:YtDoubleQ=Rt+1+γQ^(St+1,argmaxaQ(St+1,a))Y_{t}^{DoubleQ}=R_{t+1}+\gamma\hat{Q}\left(S_{t+1},\mathop{argmax}_{a}Q\left(
Erick_Lv
·
2019-04-11 23:02
机器学习
强化学习经典算法笔记(四):时间差分算法Temporal Difference(
Q-Learning
算法)
强化学习经典算法笔记——时间差分算法之
Q-Learning
强化学习经典算法笔记(零):贝尔曼方程的推导强化学习经典算法笔记(一):价值迭代算法ValueIteration强化学习经典算法笔记(二):策略迭代算法
赛艇队长
·
2019-04-11 15:16
强化学习
《强化学习导论》:Eligibility Traces
几乎所有的时间差分算法如
Q-Learning
,Sarsa,都能被结合资格迹来获得更有效的方法。
初七123
·
2019-04-04 11:19
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他