强化学习(reinforcement)

强化学习(reinforcement)_第1张图片

B站链接

https://www.bilibili.com/video/BV13a4y1J7bw?p=1&vd_source=6f43d02eb274352809b90e8cdf744905

agent----------environment--------goal

强化学习(reinforcement)_第2张图片

State 状态

Action 行动

Reward奖励

是一个及时的反馈
目标是一个长远的结果

Core element

Policy 策略

当前需要决定的行动策略,policy依赖于value,可以理解为,policy输入的是state,输出是action

Value 价值

state-value函数
state-action-value函数
强化学习(reinforcement)_第3张图片

try_and_error delay_reward exploration exploitation

强化学习(reinforcement)_第4张图片
a = L(left)/R(right)
以上的Q可以理解是t时刻时进行行动a的价值函数。
选择action时,要选择在此刻t的Q(a_i)的最大值。
强化学习(reinforcement)_第5张图片
![在这里插入图片描述](https://img-blog.csdnimg.cn/046cd50970e34a53a937c13ca761f58e.png强化学习(reinforcement)_第6张图片

Q n + 1 Q_n+1 Qn+1是第n+1次行动的估计价值, R n R_n Rn是第n次行动的真实价值。1/n为步长。适用于没有延迟奖励且只有一个状态的情况
强化学习(reinforcement)_第7张图片
这个函数更受最近的action的影响,所以可能更适合奖励机制。
强化学习(reinforcement)_第8张图片
强化学习(reinforcement)_第9张图片
强化学习(reinforcement)_第10张图片

MC Method 和 Tempportal-Difference Learning分别类似于俩公式

强化学习(reinforcement)_第11张图片

MC method就是用随机性来模拟状态值。
Tempportal-Difference Learning。

你可能感兴趣的:(算法)