报告记录 -【强化学习】 多臂赌博机 (不全)

是什么?

怎么解决?

概念

开发

试探

基本变量

基本解决思路

应用 : 图片推荐系统

EE 开发与试探 和冷启动

开发: 推荐狗
试探: 推荐猫
冷启动 : ????

Qn 的增量描述

Qn+1 写成了

非平稳情况

最近的奖赏比前面的奖赏更重要

使用固定步长

常见的赌博机算法

朴素

Epsilon-Greedy

改进: 随着步数增加 逐渐 减少theta

Optimistic Initial Value

尽可能让每个摇臂都被尝试几次, 从而避免收敛到局部最优

早期的奖励 和后期的奖励, 越来越大。

UCB 算法

Epsilon , 每次试探都是随机找的。
UCB 每次试探不是随机试探。

是选择被选择次数较少的动作。

优点是效果比较好。

难以处理非平稳问题、 大型状态空间。
UCB 算法的流程:
1、 初始化 , 每个摇臂都尝试一遍

2、 计算每个摇臂的得分
在t时刻 对 a 这个状态的估计。

a被选择的次数。

选择次数比较好的时候。 潜力很大。

采样次数比较少, 得到比较大的奖励。

得到更合理的分布。

3、 根据选择的结果计算 。。

梯度赌博算法

偏好函数 , 偏好是相对的,

怎么做的?

选择

偏好函数的更新 : 梯度更新

偏好值的更新 : 梯度更新。

汤普森采样

结论:

UCB 最好, 后续持续改进和变种。

你可能感兴趣的:(强化学习)