强化学习概念笔记

一、强化学习模型:

二、算法模型

1.目标函数的梯度更新模型:
强化学习概念笔记_第1张图片
强化学习概念笔记_第2张图片

例如:第一个公式为判别模型,第二个为轨迹的回报总和
强化学习概念笔记_第3张图片

你可能感兴趣的:(笔记)