【强化学习笔记】强化学习基础入门

原学习视频:【强化学习】一小时完全入门

强化学习入门

    • 1、什么是强化学习?
    • 2、强化学习两点特点:
    • 3、强化学习核心问题:
    • 4、基于误差来学习
    • 5、一个完整的强化学习模型:

1、什么是强化学习?

强化学习,是近年来机器学习和智能控制领域的主要方法之一。也就是说强化学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。
基本元素:Agent(与环境互动的主体),Environment(环境),Goal(目标)
主要元素:State(状态),Action(行动),Reward(奖励)
核心元素:Policy(策略),Value(价值)
【强化学习笔记】强化学习基础入门_第1张图片

2、强化学习两点特点:

  1. 强化学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。
  2. 延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。

3、强化学习核心问题:

Exploration vs. Exploitation(探索vs.利用)
利用已经学习到的最优价值函数,同时要尝试不同的价值函数去优化价值函数。

4、基于误差来学习

用样本平均估计价值:
Q1是这个行动的初始价值。
Qn+1是采取这个行动n次之后,对这个行动价值的估计值。
Ri是第i次行动的价值。
【强化学习笔记】强化学习基础入门_第2张图片
Qn是对Rn的预测值,Rn-Qn为奖励预测预测误差,1/n是步长(学习率),该公式是算术平均。在算数平均中初始状态对后来的状态是没有影响的。
我们可以将学习率设为固定值,得到的公式是加权平均。
【强化学习笔记】强化学习基础入门_第3张图片

5、一个完整的强化学习模型:

在t时刻,系统处于状态St,采取了行动At,得到了奖励Rt,进入下一个状态St+1,采取行动At+1,得到奖励Rt+1,直到在ST+1时刻游戏结束。
【强化学习笔记】强化学习基础入门_第4张图片
状态行动价值学习表达式:
【强化学习笔记】强化学习基础入门_第5张图片

你可能感兴趣的:(强化学习)