百度PaddlePaddle强化学习七日打卡营

百度PaddlePaddle强化学习七日打卡营

    • 强化学习
    • Agent的两种学习方案
    • PARL
    • 强化学习MDP四元组 < S , A , P , R > <S,A,P,R>
    • 在线学习VS离线学习
    • Sarsa-learn函数
    • 离散动作VS连续动作
    • Policy-gradient
    • DQN ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200627111651123.JPG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2JyaWRnZXFpcWk=,size_16,color_FFFFFF,t_70)
    • run_episode function
    • 折扣因子 γ \gamma γ

强化学习

  • model-based
  • model-free(value-based,policy-based)

DQN、DDPG、PG、PPO、ES、TD3、SAC、A2C、IMPALA、MADDPG

Agent的两种学习方案

  • value-based
  • policy-based( π θ ( a t ∣ s t ) \pi_\theta(a_t|s_t) πθ(atst))

百度PaddlePaddle强化学习七日打卡营_第1张图片

PARL

快速搭建并行框架

  • 在PARL中,并行仅需一个修饰符(parl.remote_class)

强化学习MDP四元组 < S , A , P , R > <S,A,P,R>

MDP:马尔科夫决策过程
S:state 状态
A:action 动作
R:reward 奖励
P:probability 状态转移概率

百度PaddlePaddle强化学习七日打卡营_第2张图片

在线学习VS离线学习

百度PaddlePaddle强化学习七日打卡营_第3张图片

Sarsa-learn函数

百度PaddlePaddle强化学习七日打卡营_第4张图片

离散动作VS连续动作

百度PaddlePaddle强化学习七日打卡营_第5张图片

Policy-gradient

百度PaddlePaddle强化学习七日打卡营_第6张图片

DQN 百度PaddlePaddle强化学习七日打卡营_第7张图片

run_episode function

百度PaddlePaddle强化学习七日打卡营_第8张图片

折扣因子 γ \gamma γ

百度PaddlePaddle强化学习七日打卡营_第9张图片

你可能感兴趣的:(学习笔记)