重要性采样(强化学习)

一点个人看法表达,针对强化学习应用

1. 首先看以下资料

【强化学习】随便说说重要性采样(Importance Sampling)_哔哩哔哩_bilibili虽然好像是一个很trivial的问题,但是在网上没有看到很好的解释,发个视频整理一下自己的理解,希望是对的233第一次录视频实在太难了QAQhttps://www.bilibili.com/video/BV1NK4y1s77S?from=search&seid=1677344818426392139&spm_id_from=333.337.0.0重要性采样(Importance Sampling) - 知乎蒙特卡洛积分重要性采样是蒙特卡洛积分的一种采样策略,所以在介绍重要性采样之前我们先来介绍一下蒙特卡洛积分的一些基本内容。 首先,当我们想要求一个函数 f(x) 在区间 [a,b] 上的积分 \int_{a}^{b}f(x)dx 时有…https://zhuanlan.zhihu.com/p/41217212

2.个人想法

重要性采样(强化学习)_第1张图片

出现问题:一组数据将θ更新为θ'后,无法再为θ进行更新。

因为数据不符合以上公式(公式按回报展开,更新后数据代入计算出的πθ'和奖励r不配套)

Importance Sampling原本为解决πθ分布 采样困难,用较为简单并且类似πθ'的πθ采样,避开采样πθ'。而在这里,更多是为了不浪费θ所产生的数据。

解决办法:乘上重要性权重。

这样,更新θ'的过程中,既能用上了θ生成的数据(πθ下采样所得),也不违反公式了(看视频中推导)。

 实际使用中,θ生成序列的奖励r构造而成的回报,相应乘上重要性权重,回报可看做θ'收集的结果,用来更新θ'

番:重要性权重哪里获得?

参数θ与θ'已知,输入观测值即可得出结果。

你可能感兴趣的:(强化学习,数学)