强化学习介绍

强化学习的组成要素

策略(policy) , 奖赏信号 reward , 值函数 value function, 以及可选的环境模型 model

policy 定义了agent在一给定时间的决策方式。policy是从感知到环境的状态,到在这些状态下应该采取的动作的映射。一般而言策略是概率性的,指定了执行每个动作的概率。

reward 定义了强化学习的目标。在每一time step 中,环境(environment)向agent发送一个reward的实数值,agent的唯一目标是将长期的累积reward最大化。reward只能显示立即的优劣。

值函数(value function)能够指明长期的优劣。一个状态(state)的值(value)是从当前状态起,agent未来所有reward的累积和的期望值。reward只能决定对state立即的、固有的喜好程度。而值函数(value function)预示着从长期来看的对状态的喜好程度。

model用于模仿环境的反应,其能够推断出环境将会作出怎样的反应。

强化学习与有/无监督学习的区别

强化学习无监督者,不知道什么是正确的决策,在作出行动之后有个反馈的reward

反馈的reward是有延迟的,一般在下一个时间片得到reward

强化学习研究的是一个时间序列的决策过程

行为会影响环境,强化学习是设计一个agent智能体,使得这个agent主动学习

强化学习的关键是 探索 和 利用 的权衡 一方面, agent不得不利用已有的经验来获得奖赏; 另一方面, agent不得不探索以便能在 将来做出更好的动作选择.

reward 奖励:反馈的信号,强化学习的目标是将累积的reward最大化。强化学习中研究的是长时间序列的问题,而且reward有时是延迟的,所以有时存在放弃当前最优的立即reward,而换取长期的回报,即强化学习在每一次action是并不是选择最优的,有概率选择不是最优的道路。

强化学习分为:

基于值函数(value-based)-----不需要显式的策略,只需要max(v)

基于策略(policy-based)------直接由state得到动作

AC(actor critic)-----actor即policy,critic即value function

q-learning是reinforcement learning 中基于值函数的算法

 

 

你可能感兴趣的:(强化学习,强化学习)