QLearning 第4页

推荐频道

QLearning

Sarsa

1、算法：整个算法还是一直不断更新Qtable里的值,然后再根据新的值来判断要在某个state采取怎样的action.不过于Qlearning不同之处:Sarsa在当前state已经想好了state对应的

女王の专属领地·2017-05-07 17:36

强化学习系列 6 : Actor Critic

ActorCriticActorCritic(演员评判家),它合并了以值为基础(比如Qlearning)和以动作概率为基础(比如PolicyGradients)两类强化学习算法.Actor-Critic

女王の专属领地·2017-05-07 10:54

强化学习系列 5 : Policy Gradients

PolicyGradients强化学习是一个通过奖惩来学习正确行为的机制.家族中有很多种不一样的成员,有学习奖惩值,根据自己认为的高价值选行为,比如Qlearning,DeepQNetwork,也有不通过分析奖励值

女王の专属领地·2017-05-07 10:27

强化学习系列 4 : DQN

DeepQNetwork.是一种融合了神经网络和Qlearning的方法。

女王の专属领地·2017-05-03 15:56

强化学习系列 3 : Sarsa

但是不同的地方在于Sarsa的更新方式是不一样的.2、Sarsa更新行为准则比如：我们会经历正在写作业的状态s1,然后再挑选一个带来最大潜在奖励的动作a2,这样我们就到达了继续写作业状态s2,而在这一步：若用Qlearning

女王の专属领地·2017-05-03 14:02

Paper Reading - Playing Atari with Deep Reinforcement Learning

NIPS2013作者：DeepMind理解基础：增强学习基本知识深度学习特别是卷积神经网络的基本知识创新点：第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略具体是将卷积神经网络和QLearning

songrotek·2016-01-25 16:00

上一页 1 2 3 4 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他