连续空间的递归最小二乘行动者—评论家算法

2 RLSAC 算法

连续空间的递归最小二乘行动者—评论家算法_第1张图片

连续空间的递归最小二乘行动者—评论家算法_第2张图片

Policy Gradient Methods for Reinforcement Learning with Function SMSM-NIPS99.pdf

此文是前面看的几篇的基础
** 2 Policy Gradient with Approximation**


连续空间的递归最小二乘行动者—评论家算法_第3张图片

Theorem 2 (Policy Gradient with Function Approximation).

连续空间的递归最小二乘行动者—评论家算法_第4张图片


连续空间的递归最小二乘行动者—评论家算法_第5张图片

连续空间的递归最小二乘行动者—评论家算法_第6张图片

3 Application to Deriving Algorithms and Advantages
7p
the advantage function
在综述中描述不清,这里解释比较通顺。The choice of v does not affect any of our theorems, but can substantially affect the variance of the gradient estimators. baseline的问题
连续空间的递归最小二乘行动者—评论家算法_第7张图片

4 Convergence of Policy Iteration with Function Approximation

你可能感兴趣的:(连续空间的递归最小二乘行动者—评论家算法)