off-policy 第2页

为什么Q-learning不用重要性采样（importance sampling）？

前言：参考链接：理解过程：1step-Q-learning的定义公式：2step-Q-learning：总结：联系方式前言：前几天在整重要性采样，然后提到的一个模糊的概念就是:在异策略(off-policy

hehedadaq·2022-12-19 00:29

重要性采样(Importance Sampling)详细学习笔记

重要性采样(ImportanceSampling)详细学习笔记文章目录重要性采样(ImportanceSampling)详细学习笔记前言：参考主体：on-policy和off-policyOn-policy:Off-policy

hehedadaq·2022-12-19 00:58

强化学习实战-使用Q-learning算法解决迷宫问题

Q-learning是off-policy的更新方式，更新learn()时无需获取下一步实际做出的动作next_actio

wydxry·2022-12-06 12:05

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibilion-policy：要learn的agent和环境互动的agent是同一个，即agent一边跟环境互动，一边学习；off-policy

Interesting AI·2022-12-03 06:16

强化学习丨蒙特卡洛方法及关于“二十一点”游戏的编程仿真

算法应用三、蒙特卡洛控制3.1基于试探性出发的蒙特卡洛（蒙特卡洛ES）3.1.1算法介绍3.1.2算法应用3.2同轨策略（on-policy）MC控制算法3.2.1算法介绍3.2.2算法应用3.3离轨策略（off-policy

XD_MaoHai·2022-11-30 00:14

Policy Gradient (PG)与Proximal Policy Optimization (PPO)算法详解

Value-based与Policy-basedPolicyGradient(PG)基本原理PG的两个小技巧ProximalPolicyOptimization(PPO)PG的不足On-policy和Off-policy

Cder1c·2022-11-28 20:03

强化学习入门5—一文带你了解DQN

DQN属于model-free、value-based、off-policy的方法。

小菜羊~·2022-11-23 22:40

深度强化学习面试题汇总

off-policy和on-policy的好与坏？表格式

小郁同学·2022-11-21 21:59

Easy RL - 8.PPO算法

异策略（off-policy）：要学习的智能体和与环境交互的智能体不是同一个时对应的策略。

加油呀，哒哒哒·2022-11-20 19:58

【整理】用简单逻辑图理解DQN（deep Q-learning）的学习过程

试图理解DQN（deepQ-learning）过程一、DQN背景先引Q-Learing更好地明了dqn的产生原因：Q-learning：是一种off-policy的强化学习方法，行动和评估决策的过程。

_Waters·2022-11-20 13:05

RecSys2021反事实评估学习教程

我们称这些评估器以“异策略（off-policy）”的方式在工作。反事实衡量器

han1254·2022-11-16 11:19

连续动作的强化学习算法——SAC

介绍首先SAC算法是基于Off-Policy的，因此会用到ReplayBuffer，使用过去的样本经验进行学习，这会使得算法的稳定性和收敛性有一定的困难，特别是在连续的状态和动作空间下。

小王爱学习1234443·2022-08-30 07:12

强化学习之PPO（Proximal Policy Optimization Algorithms）算法

on-policy与off-policy的区别on-policy的意思是

王又又upupup·2022-07-05 07:08

强化学习之图解PPO算法和TD3算法

1.4Critic网络的更新流程2.TD3算法2.1网络结构2.2产生experience的过程2.3Actor网络的更新流程2.4Critic网络的更新流程2.5总结0.引言关于on-policy和off-policy

ReEchooo·2022-07-05 07:27

强化学习Proximal Policy Optimization(PPO)算法详解

Off-policy:一个智能体agent（actor）A1A1A1看另外一个智能体A2A2A2和环境互动，然后A1A1A1使用A2A2A2和环境互动的数据来进行学习例子1：打篮球。

六七～·2022-07-05 07:26

论文笔记--Unsupervised (Meta) RL

无监督的（元）强化学习总结DIAYNKeyIdeaFormulationUML(Off-Policy)DADSKeyIdea:off-policy版本Planningusingskill-dynamicDDLKeyIdea

zz_ytj·2022-06-04 07:10

强化学习（1）：Q-Learning 算法

本文主要讲解有关Q-Learning算法的内容，主要包括on-policy和off-policy的概念、Q-Learning算法的基本思想和算法流程，最后还会讲解一个莫烦大神的例子。

棉花糖灬·2022-04-09 07:34

强化学习从入门到放弃（二）Q-learning 与 Sarsa

他们的区别是q-learning是off-policy的，sarsa是on-policy的。

Lixian ma·2022-04-09 07:33

强化学习点滴- model-free vs. model-based； on-policy vs. off-policy

Model-free:不需要知道状态之间的转移概率（transitionprobability），仅仅依赖agent和environment进行实时的交互。并不一定使用当前策略产生的样本。Model-freemethodattemptstolearntheoptimalpolicyinONEstep,suchasQ-learning,whichlearnstheoptimalpolicyinthe

致知在格物，物格而后知至·2022-03-29 07:22

【详解+推导！！】PPO 近端策略优化

文章目录1.FromOn-policytoOff-policy2.ImportanceSampling3.推导off-policy下的梯度公式4.TRPO和PPO5.PPO21.FromOn-policytoOff-pol

志远1997·2021-04-13 21:27

tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验

tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验文章目录tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验前言

hehedadaq·2021-03-11 22:51

算法学习（七）——一些基本概念：model base和model free，On-Policy 和 Off-Policy，On-Line 学习和 Off-Line 学习

On-Policy和Off-Policy：指更新状态矩阵的方法和选择策略的方式是否一致，一致就是On-Policy，不一致就是Off-

星之所望·2021-01-17 10:34

强化学习离轨策略：从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义

用强化学习的角度看，小拍在这几年做了很好的离轨策略（off-policy）学习，即从自己和别人“追女生”这个过程中学习经验，无论结果成败，都能有效地学到东西。本文我们就

user_zsXbv7Bi·2020-12-05 11:33

强化学习离轨策略：从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义

用强化学习的角度看，小拍在这几年做了很好的离轨策略（off-policy）学习，即从自己和别人“追女生”这个过程中学习经验，无论结果成败，都能有效地学到东西。本文我们就

user_zsXbv7Bi·2020-11-13 11:22

Value-based Reinforcement Learning

不久前做了一个关于value-basedRL相关的slides，主要讲解了基于值的强化学习方法的几个重要理论方法，同时讲解了Q-learning作为off-policy方法在学习过程中产生的bias的来源已经如何减轻的几种方法

南极光·2020-09-15 14:57

深度强化学习笔记——DDPG原理及实现（pytorch）

DDPG算法原理(DeepDeterministicPolicyGradient)DDPG算法是基于DPG算法所提出的，属于无模型中的actor-critic方法中的off-policy算法（因为动作不是直接在交互的过程中更新的

RavenRaaven·2020-09-13 21:05

5.蒙特卡洛方法--阅读笔记【Reinforcement Learning An Introduction 2nd】

文章目录蒙特卡洛方法MonteCarlomethod前言蒙特卡洛预测动作价值的蒙特卡洛估计蒙特卡洛控制无exploringstarts的MC控制基于重要性采样的离线策略预测增量式实现off-policy

EdenJin·2020-09-12 16:09

7.n步自举n-step bootstraping--阅读笔记【Reinforcement Learning An Introduction 2nd】

文章目录n步自举n-stepbootstraping前言n-stepTD预测n-stepSarsan-step离线策略学习*带控制变量的per-decision方法n-step树备份算法（无重要性采样的off-policy

EdenJin·2020-09-12 16:09

【强化学习】中Q-learning,DQN等off-policy算法不需要重要性采样的原因

由于Q-learning采用的是off-policy，如下图所示但是为什么不需要重要性采样。

贰锤·2020-08-25 01:19

「off-policy强化学习」被低估！Google Brain等提出使用off-policy算法的「机器人抓取」任务基准

本文转自雷克世界（ID：raicworld）编译|嗯~阿童木呀在本文中，我们探讨了用于基于视觉的机器人抓取操作的深度强化学习算法。无模型深度强化学习（RL）已经在一系列具有挑战性的环境中得到了成功应用，但算法的激增使得我们难以辨别出哪种特定的方法最适合于执行一个丰富的、多样化的任务，例如抓取。为了回答这一问题，我们提出了一个机器人抓取的模拟基准，强调了对于没见过的目标的策略学习和泛化。Off-po

深度学习世界·2020-08-25 01:55

[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

提到Q-learning和Sarsa的区别，避免不了提到“off-policy”和“online-policy”策略，下面我将首先介绍“off-p

nana-li·2020-08-25 01:06

时间差分方法Q-learning和sarsa的区别

唯一不同的是在Q-learning中,行动策略(产生数据的策略)和要评估的策略不是一个策略，因此称之为异策略(off-policy),而在sarsa中，正好相反，也就是行动策略(产生数据的策略)和要评估的策略是一个策略

小蚂蚁呀·2020-08-25 01:19

Data-Efficient Hierarchical Reinforcement Learning

Data-EfficientHierarchicalReinforcementLearning文章来自GoogleBrain，提出了一种将off-policy算法应用在HRL框架上的方法—HIRO(HIerarchicalReinforcementlearningwithOff-policycorrection

HoJ Ray·2020-08-25 01:12

A thorough understanding of on-policy and off-policy in Reinforcement learning

我这篇文章主要想借着理解on-policy和off-policy的过程来加深对其他RL算法的认识。

qiusuoxiaozi·2020-08-25 01:39

Bourne强化学习笔记1：用简单例子说明Off-policy的思想与使用方法

本着ADEPT（Analogy/Diagram/Example/Plain/TechnicalDefinition）的学习规律，本人给出直观理解、数学方法、图形表达、简单例子和文字解释，来介绍off-policy

Bourne_Boom·2020-08-25 00:08

深度强化学习 on-policy 和 off-policy

目录重点on-policyoff-policy重点考查三个Policy的一致性：当前正在学习的CurrentPolicy；生成训练数据时基于的BehaviorPolicy；目标值即targetvalue基于的TargetPolicy，TargetPolicy这个不一定有，取决于近似方法，比如只采用即时奖赏r近似的目标就没有参数。判断Policy是否一致，就是看网络的参数是否一样。on-policy

布谷AI·2020-08-25 00:42

强化学习---TRPO/DPPO/PPO/PPO2

（ppo+ppo2）ProximalPolicyOptimizationPPO是off-policy的

anqiu4023·2020-08-25 00:18

强化学习on-policy跟off-policy的区别

on-policy：生成样本的policy（valuefunction）跟网络更新参数时使用的policy（valuefunction）相同。典型为SARAS算法，基于当前的policy直接执行一次动作选择，然后用这个样本更新当前的policy，因此生成样本的policy和学习时的policy相同，算法为on-policy算法。该方法会遭遇探索-利用的矛盾，光利用目前已知的最优选择，可能学不到最优

小草cys·2020-08-25 00:35

强化学习中的on-policy和off-policy解释

首先引经据典一番，在sutton的introductiontoreinforcement中，82页（第二版，November5,2017）中写道：On-policymethodsattempttoevaluateorimprovethepolicythatisusedtomakedecisions,whereasoff-policymethodsevaluateorimproveapolicydi

Lovelation·2020-08-25 00:29

Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC

问题采样复杂.无偏的batchpolicy-gradient提供了稳定学习.但是highvariance.使用泰勒展开….没看懂

xin_q·2020-08-25 00:56

强化学习中的off-policy 和on-policy

强化学习可以分成off-policy（离线）和on-policy（在线）两种学习方法，按照个人理解，判断一个强化学习是off-policy还是on-policy的依据在于生成样本的policy（value-funciton

茄砸·2020-08-25 00:49

PR17.10.4:Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

What’sproblem?AmajorobstaclefacingdeepRLintherealworldistheirhighsamplecomplexity.Batchpolicygradientmethodsofferstablelearning,butatthecostofhighvariance,whichoftenrequireslargebatches.TD-stylemethod

Mr丶Caleb·2020-08-25 00:10

真离线强化学习《An Optimistic Perspective on Offline Reinforcement Learning》阅读笔记

强化的分类，不仅是off-policy和on-policy参考

hehedadaq·2020-08-20 00:05

【莫烦】强化学习（Q-learning和Sara）

目录1.Q-learning1）两个状态两个动作的例子2）Q-learing流程2.Sara1）OriginalSara2）Sara(λ\lambdaλ)1.Q-learningQ-learning属于off-policy

水滴_·2020-08-18 17:46

DQN——Deep Q Network

3、DQN是on-policy还是off-policy?DQN是off-p

CKH001·2020-08-17 17:36

Soft Actor-Critic 论文笔记

而异策略算法（Off-policy

geter_CS·2020-08-16 12:46

Soft Actor-Critic（论文笔记）

本文的关键点：Off-policy方式更新，可以使用以前采样数

空苍地樱·2020-08-16 11:24

强化学习经典算法笔记(十五)：Soft Actor-Critic算法实现

强化学习经典算法笔记(十五)：SoftActor-Critic算法实现算法简介SoftActorCritic，SAC算法是一种Off-policy算法，相比于PPO这种On-policy算法，sampleefficiency

赛艇队长·2020-08-16 10:45

强化学习Sarsa，Q-learning的收敛性最优性区别（on-policy跟off-policy的区别）

1.Sarsa与Q-learningQ-learning在每一步TD中贪心的获取下一步最优的状态动作值函数。而Sarsa则是e-greedy的选取TD中的下一个状态动作值函数。在这种情况下，Q-learning更倾向于找到一条最优policy，而Sarsa则会找到一条次优的policy。这是由于Sarsa在TD误差中随机的选取下一个状态动作值函数，这样可能会使整体的状态值函数降低。如下示例进一步说

贰锤·2020-08-12 13:24

强化学习笔记（四）无模型控制（Model-Free Control）

强化学习笔记（四）无模型控制（Model-FreeControl）Q1：On-Policy和Off-Policy的区别？

_Epsilon_·2020-08-12 12:05

推荐频道

off-policy

为什么Q-learning不用重要性采样（importance sampling）？

重要性采样(Importance Sampling)详细学习笔记

强化学习实战-使用Q-learning算法解决迷宫问题

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

强化学习丨蒙特卡洛方法及关于“二十一点”游戏的编程仿真

Policy Gradient (PG)与Proximal Policy Optimization (PPO)算法详解

强化学习入门5—一文带你了解DQN

深度强化学习面试题汇总

Easy RL - 8.PPO算法

【整理】用简单逻辑图理解DQN（deep Q-learning）的学习过程

RecSys2021反事实评估学习教程

连续动作的强化学习算法——SAC

强化学习之PPO（Proximal Policy Optimization Algorithms）算法

强化学习之图解PPO算法和TD3算法

强化学习Proximal Policy Optimization(PPO)算法详解

论文笔记--Unsupervised (Meta) RL

强化学习（1）：Q-Learning 算法

强化学习从入门到放弃（二）Q-learning 与 Sarsa

强化学习点滴- model-free vs. model-based； on-policy vs. off-policy

【详解+推导！！】PPO 近端策略优化

tensorflow1.10和pytorch1.7.1主流off-policy算法时间消耗对比实验

算法学习（七）——一些基本概念：model base和model free，On-Policy 和 Off-Policy，On-Line 学习和 Off-Line 学习

强化学习离轨策略：从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义

强化学习离轨策略：从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义

Value-based Reinforcement Learning

深度强化学习笔记——DDPG原理及实现（pytorch）

5.蒙特卡洛方法--阅读笔记【Reinforcement Learning An Introduction 2nd】

7.n步自举n-step bootstraping--阅读笔记【Reinforcement Learning An Introduction 2nd】

【强化学习】中Q-learning,DQN等off-policy算法不需要重要性采样的原因

「off-policy强化学习」被低估！Google Brain等提出使用off-policy算法的「机器人抓取」任务基准

[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

时间差分方法Q-learning和sarsa的区别

Data-Efficient Hierarchical Reinforcement Learning

A thorough understanding of on-policy and off-policy in Reinforcement learning

Bourne强化学习笔记1：用简单例子说明Off-policy的思想与使用方法

深度强化学习 on-policy 和 off-policy

强化学习---TRPO/DPPO/PPO/PPO2

强化学习on-policy跟off-policy的区别

强化学习中的on-policy和off-policy解释

Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC

强化学习中的off-policy 和on-policy

PR17.10.4:Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic

真 离线强化学习《An Optimistic Perspective on Offline Reinforcement Learning》阅读笔记

【莫烦】强化学习（Q-learning和Sara）

DQN——Deep Q Network

Soft Actor-Critic 论文笔记

Soft Actor-Critic（论文笔记）

强化学习经典算法笔记(十五)：Soft Actor-Critic算法实现

强化学习Sarsa，Q-learning的收敛性最优性区别（on-policy跟off-policy的区别）

强化学习笔记（四）无模型控制（Model-Free Control）

真离线强化学习《An Optimistic Perspective on Offline Reinforcement Learning》阅读笔记