on-policy 第3页

推荐频道

on-policy

强化学习——On-policy

目录三个基本概念——哪些是可变的Actor的决策——神经网络分类器一次game——trajectory发生的概率trajectory的reward和reward的期望action的梯度n次游戏，每次游戏t次行为，所有行为发生的概率乘以它的效果。参数更新n次游戏的收集结果只用一次，之后使用更新后的action实现的时候类似于一个分类器让reward细化到每个action的两个简单技巧三个基本概念——

chen5561·2018-09-12 23:34

强化学习系列（十一）：Off-policy Methods with Approximation

一、前言针对Policyiteration中存在的exploitation问题，在第五章中将强化学习算法分为on-policy算法和off-policy算法。

LagrangeSK·2018-09-05 14:15

从REINFORCE到PPO，看Policy Gradient的前世今生

前者是off-line、on-policy的方法，后者是on-line、off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。

马小疼·2018-09-05 11:24

强化学习系列（十）：On-policy Control with Approximation

一、前言本章我们关注on-policycontrol问题，这里采用参数化方法逼近action-value函数q̂(s,a,w)≈q(s,a)q^(s,a,w)≈q(s,a)，其中，ww为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradientSarsa算法，是对上一章中介绍的semi-gradientTD(0)的一种扩展，将其用于逼近actionvalue,并用于o

LagrangeSK·2018-08-24 12:31

强化学习系列（九）：On-policy Prediction with Approximation

一、前言针对on-policyprediction问题，用functionapproximate估计state-valuefunction的创新在于：valuefunction不再是表格形式，而是权重参数为w的数学表达式，即v̂(s,w)≈vπ(s)v^(s,w)≈vπ(s)。其中v̂v^可以是state的线性函数，也可以是一个多层人工神经网络（ANN），也可以是一个决策树。值得注意的是，权重ww

LagrangeSK·2018-08-22 10:24

Chapter 9 On-policy Prediction with Approximation

本文为《ReinforcementLearning:AnIntroduction》读书笔记9.1Value-functionApproximation9.2ThePredictionObjective(VE¯¯¯¯¯¯¯¯VE¯)9.3Stochastic-gradientandSemi-gradientMethods9.4LinearMethods9.5FeatureConstructionfo

滑稽树·2018-07-08 14:13

On-policy Sarsa算法与Off-policy Q learning对比

Sarsa算法（on-policy）在s状态时，跟据当前Q网络以及一定的策略（e-greedy）来选取动作a，进而观测到下一状态s'，并再次根据当前Q网络及相同的e-greedy策略选择动作a',这样就有了一个序列

dadadaplz·2017-05-19 09:20

增强学习中的on-policy和off-policy的区别

那么，判断on-policy和off-policy的关键在于，你所估计的policy或者value-function和你生成样本时所采用的policy是不是一样。

mmc2015·2017-02-27 14:00

上一页 1 2 3 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他