强化学习笔记之基本原理(一)

技术路线

强化学习的发展如图所示,从policy based的policy gradient和value based的Q-Learning,到两者结合的actor-critic,综合了两者的优势,奠定了现在强化学习的基本框架。从A2C到A3C,大大提升了训练速度。

强化学习
policy-based
policy gradient
value-based
Q-Learning
actor
critic
Actor-Critic
Advantage Actor-Critic(A2C)
Asynchronous Advantage Actor-Critic(A3C)

基本结构

Agent:智能体
Environment:环境
observation:智能体观察到的环境的状态(有些文章里也叫state)
工作原理:
 智能体根据你的策略,采取action作用于环境,环境给予智能体observation和reward作为反馈。

action
reward
observation
Agent
Environment

你可能感兴趣的:(强化学习,教程)