策略梯度(Policy Gradient)

简述

强化学习方法主要分为两类,一类是Model-based,另外一种是Model free,如图所示:

强化学习概况

而Model Free中又包含两种方法,其中一种是基于策略的角度考虑的方法,而Policy Gradient则是Policy based的基础方法。Value based的典型方法则是Q-learning方法,Actor-Critic则是Value based和Policy based方法相结合,它拥有两个Networks,分别是Actor和Critic,Actor使用Policy based的方法,Critic使用的是Value based的方法。

公式及其推导

公式如下所示:

policy gradient formula

推导过程如下所示:

推导过程

其中,s代表state,a代表action,pi代表我们的policy策略,也就是一个policy network,输入是state,输出是一个action,R代表Reward。

Policy Network框架

该Deep network的框架如下所示:

Policy Network框架

该网络输入为当前的状态(如游戏画面,五子棋的盘面等),输出则为各个Action的概率(假设总共有3个Actions)。因此,Policy Gradient公式可以理解为在当前State的状态下,采取不同Action的概率乘以其相应的权重,也就是其Reward。

Reference

1. Reinforcement Learning An Introduction

2. 李宏毅.DRL Lecture1

3. https://blog.csdn.net/qq_30615903/article/details/80747380

你可能感兴趣的:(策略梯度(Policy Gradient))