深度强化学习(4): Actor-Critic 方法篇

  • 王树森老师《深度强化学习基础》学习笔记

四、Actor-Critic Methods

Value Network and Policy Network

  • 用策略网络 π \pi π 来 近似 策略函数 π \pi π(相当于运动员),用价值网络 q q q 来 近似 动作价值函数 Q Q Q(相当于裁判)。

  • 同时训练策略网络和价值网络就被称为 Actor-Critic Methods。

  • State-Value Function Approximation:
    深度强化学习(4): Actor-Critic 方法篇_第1张图片

Train the Neural Networks

  • Train the networks

    • 更新策略网络 θ \theta θ 的值是为了让 V V V 的值增加,其更新受 q q q 监督。

    • 更新价值网络 q q q 的值是为了让 q q q 的打分更加精准。

    • 网络的训练(参数 θ \theta θ 和 参数 q q q 的更新):
      深度强化学习(4): Actor-Critic 方法篇_第2张图片

  • 用 TD 算法更新价值网络 q q q
    深度强化学习(4): Actor-Critic 方法篇_第3张图片

  • 用策略梯度(policy gradient)更新策略网络 π \pi π(详见上节):
    深度强化学习(4): Actor-Critic 方法篇_第4张图片

Actor-Critic Method

  • 流程:
    深度强化学习(4): Actor-Critic 方法篇_第5张图片

  • 算法:

    • 注意 a ~ t + 1 \widetilde{a}_{t+1} a t+1 并不是真的执行的动作,而是根据状态 s t + 1 s_{t+1} st+1 随机抽样得到的,用完后就丢弃掉了。
    • 每一轮迭代都做这 9 个步骤,只做一次动作,观测一个奖励,更新一次神经网络参数。
    • 使用 2 为 标准算法,使用 1 为 Policy Gradient with Baseline(效果更好,原因:可以降低方差让算法收敛的更快)。
      深度强化学习(4): Actor-Critic 方法篇_第6张图片

总结:

  • Policy Network and Value Network:
    深度强化学习(4): Actor-Critic 方法篇_第7张图片

  • Roles of Actor and Critic:
    深度强化学习(4): Actor-Critic 方法篇_第8张图片

  • Training:
    深度强化学习(4): Actor-Critic 方法篇_第9张图片

参考与感谢:

  • 王树森老师《强化学习基础》课程:https://www.youtube.com/playlist?list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU
  • 王树森老师GitHub主页:https://github.com/wangshusen?tab=stars
  • 课件:https://github.com/wangshusen/DeepLearning
  • 讲义:https://github.com/wangshusen/DRL/blob/master/Notes_CN/

你可能感兴趣的:(科研,深度学习,神经网络,机器学习)