强化学习(RL)的学习笔记

1. 前言

(1)PPO的优点

PPO(Proximal Policy Optimization)算法相比其他强化学习方法有几个显著优点:

  1. 稳定性和鲁棒性:PPO通过限制策略更新的幅度来避免训练过程中的大幅波动,这增加了算法的稳定性和鲁棒性。这是通过引入一个被称为“信任区域”的概念来实现的,它限制了新策略与旧策略之间的偏离程度。
  2. 简单的实现:与其他需要复杂计算的强化学习算法(如TRPO)相比,PPO简化了这些计算,使得实现起来更为简单,同时保持了相似的性能,这使得它在实践中更受欢迎。
  3. 样本效率:PPO在使用每个数据样本方面比一些其他算法更有效,它可以在每次迭代中重复利用数据,从而提高样本的使用效率。
  4. 适用性广:PPO被证明在连续动作空间的多种环境中有效,这意味着它适用于各种任务,包括机器人控制和游戏等。
  5. 超参数调整容易:PPO相对于其他算法来说对超参数的选择不那么敏感,这降低了调整参数的难度。
  6. 高性能:PPO在多个基准测试和任务中显示出了优秀的性能,包括与其他先进的RL算法相比。

2. 常见术语

PPO:Proximal Policy Optimization,近端策略优化

3. 常见概念

2.1 Sample函数:探索行动的策略

Sample函数在训练过程中对应着“样本增广”的作用;

2. Sarsa和Q-Learning——最初的强化学习算法

2.1 基于Q-Learning的强化学习——使用Q表进行动作选择

其实Q-Learning的思想很简单,就跟把大象放进冰箱是差不多的,
基本的步骤是:

  1. 观察环境,得到observation;
  2. 根据obs查询Q表格,选择Q值最大的action;
  3. 执行该动作。

3.2 Sarsa和Q-Learning的预期目标

其实这两种算法的目标不同,导致了结果不同:

Sarsa:使得sample()行为的reward的平均水平达到最大;

Q-Learning:使得maxQ()行为的reward的达到最大;

3 DQN——用神经网络取代Q表格

3.1 为什么要用神经网络取代Q表呢?

如果动作状态的空间是连续的,则使用Q表可能无法对这种空间进行表述,(连续状态的可能取值是无限多的),

于是我们将“状态-Q值”看作是一种映射,也就是说:使用函数映射的思想来描述“状态-Q值”的映射关系

既然是函数映射,于是我们的DNN就闪亮登场了~

4 Actor-Critic算法

在我看来Actor和Critic有着这样的特点:

Actor——本能者

Critic——经验者

具体的形式就是Q Function;

量化Q的方法我们采用TD,(这也是李教授讲授的方法),

我感觉Critic有着将reward规则进行可导化的作用;

感性认识:表达了模型对规则的理解,(同时将reward函数进行可导化);

你可能感兴趣的:(学习,笔记)