P114 增强学习 RL ---没懂,以后再补充

P114 增强学习 RL ---没懂,以后再补充_第1张图片
P114 增强学习 RL ---没懂,以后再补充_第2张图片
P114 增强学习 RL ---没懂,以后再补充_第3张图片
P114 增强学习 RL ---没懂,以后再补充_第4张图片
sample: 如 70% 的概率向左 20%的概率向右 10% 的概率开火
不是left 分数最高,就直接向左。而是随机sample

P114 增强学习 RL ---没懂,以后再补充_第5张图片
total reward (return) R 就是优化的目标,分数越高约好

P114 增强学习 RL ---没懂,以后再补充_第6张图片

-total reward= loss

Policy Gradient

P114 增强学习 RL ---没懂,以后再补充_第7张图片
当环境是s 时

你可能感兴趣的:(李宏毅机器学习课程学习笔记,学习)