强化学习——On-policy

目录

三个基本概念——哪些是可变的

Actor的决策——神经网络分类器

一次game——trajectory发生的概率

trajectory的reward和reward的期望

action的梯度

n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。

参数更新

n次游戏的收集结果只用一次,之后使用更新后的action

实现的时候类似于一个分类器

让reward细化到每个action 的两个简单技巧


三个基本概念——哪些是可变的

强化学习——On-policy_第1张图片

Actor的决策——神经网络分类器

强化学习——On-policy_第2张图片

一次game——trajectory发生的概率

强化学习——On-policy_第3张图片

trajectory的reward和reward的期望

强化学习——On-policy_第4张图片

action的梯度

n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。

强化学习——On-policy_第5张图片

参数更新

n次游戏的收集结果只用一次,之后使用更新后的action

强化学习——On-policy_第6张图片

实现的时候类似于一个分类器

强化学习——On-policy_第7张图片

让reward细化到每个action 的两个简单技巧

强化学习——On-policy_第8张图片

强化学习——On-policy_第9张图片

强化学习——On-policy_第10张图片强化学习——On-policy_第11张图片

 

你可能感兴趣的:(强化学习)