强化学习基础

一、强化学习是什么

强化学习的主要对象为智能体(agent)、环境(environment)、动作(actions)、状态(states)和奖励(rewards)。智能体通过与环境交互,每步的交互会生成新的状态和得到环境给的奖励,通过一定的算法得到一个奖励最大的策略。
注意:状态必须满足马尔科夫过程。

二、强化学习算法设计

设计强化学习的要素包括四个,通过状态、动作的不断交互和奖励的计算,以长期奖励最大化或者达到约束条件为终止条件,最终得到最优策略。
状态(State):反映环境或系统当前的情况。
动作(Action):智能体在特定状态下可以采取的操作。
奖励(Reward):一个数值反馈,用于量化智能体采取某一动作后环境的反应。
策略(Policy):一个映射函数,指导智能体在特定状态下应采取哪一动作。

强化学习基础_第1张图片

你可能感兴趣的:(深度学习)