关于策略梯度(policy gradient)的理解

关于策略梯度(policy gradient)的理解


文章目录

    • 关于策略梯度(policy gradient)的理解
  • 前言
    • 什么是策略梯度?
    • 如何将策略参数化?
    • 策略梯度的伪代码
    • 基于策略的强化学习和基于值函数的强化学习之间的优劣?
    • 策略梯度的优化目标?
    • 策略梯度的不足之处
  • 参考文献


前言

本文主要解决关于策略梯度的一些问题,如果大家有好的问题和解答可以在评论区中提出,我们一起讨论和解答,谢谢大家!


什么是策略梯度?

将策略直接参数化,变成一个策略函数,使用梯度下降的方法,来获得使目标函数的值最大的参数。

如何将策略参数化?

基于策略的强化学习是通过神经网络来表示策略函数,输入状态,输出动作的价值,这样就可以用神经网络表示的复杂函数来表示策略。
关于策略梯度(policy gradient)的理解_第1张图片

策略梯度的伪代码

关于策略梯度(policy gradient)的理解_第2张图片

基于策略的强化学习和基于值函数的强化学习之间的优劣?

策略梯度的优化目标?

策略梯度的不足之处

策略梯度最大的不足之处就是步长α的选择,步长α太大则难以收敛到最优解,步长α太小则收敛的速度太慢,在实践中难以选择合适的步长。

参考文献

你可能感兴趣的:(笔记,深度学习,神经网络,机器学习)