强化学习读书笔记(一)

强化学习读书笔记

机器学习分类

  • 监督学习
  • 非监督学习
  • 强化学习

强化学习的复杂性

  • 非独立同分布数据 观察结果不会告诉如何选择动作才能改善结果
  • 探索与利用两难问题 利用已有知识还是探索新环境
  • 奖励的严重延迟 某个关键动作的因果判断

强化学习的形式

奖励

从环境中周期性的获得的一个标量。通常设置为每固定时间戳一次每与环境交互一次,也有一生一次奖励,除最后一次外,所有奖励都是0。
奖励是RL最核心的,智能体获得的奖励应该正向或反向地强化它的行为。
奖励是局部的,它反映了智能体最近的行为有多成功,而不是从开始到现在累计的行为。

智能体

智能体是通过执行确定的动作、进行观察、获得最终的奖励来和环境交互的人或物。

环境

环境是智能体外部的一切。智能体和环境的交互仅限于奖励(从环境中获得)、动作(由智能体执行并馈入环境)以及观察(智能体从环境中获得的除奖励之外的一些信息)。

动作

动作是智能体在环境中可以做的事情。分为离散动作连续动作

观察

对环境的观察是智能体的第二个信息渠道(第一个为奖励)。观察是环境为智能体提供的信息,能说明智能体周围的情况。

强化学习的理论基础

马尔可夫决策过程

  • 马尔可夫过程(MP) 是一个具备马尔可夫性质的离散随机过程。
    马尔可夫过程基于马尔科夫链的假设,下一状态 S t + 1 S_{t+1} St+1只取决于当前状态 S t S_t St
  • 马尔可夫奖励过程(MRP) 把马尔可夫过程从 < S , P > <S,P>拓展到 < S , P , R , γ > <S,P,R,γ>,其中R和 γ \gamma γ分别表示奖励函数奖励折扣因子
  • 马尔可夫决策过程(MDP) 加入了有限的动作集合 A \mathcal{A} A,变成 < S , A , P , R , γ > <S,A,P,R,γ>

强化学习方法

动态规划

  • 策略迭代(Policy Iteration) 的目的在于直接操控策略。
    过程总结为:给定任意一个策略 π \pi π,对于每一次迭代 t t t中的每一个状态 s s s,我们首先评估 v π t ( s ) v_{\pi t}(s) vπt(s),然后找到一个更好的策略 π t + 1 \pi_{t+1} πt+1。我们把前一个阶段称为策略评估,把后一个阶段称为策略提升。此外,用术语泛化策略迭代来指代一般的策略评估和策略提升交互过程。

  • 价值迭代 的理论基础是最优性原则
    当且仅当 π \pi π取得了可以到达的任何后续状态上的最优价值时, π \pi π时一个状态上的最优策略。因此如果我们知道子问题 v ∗ ( s ′ ) v_*(s') v(s)的解,就可以通过一步完全回溯找到任意一个初始状态 s s s的解:
    v ∗ ( s ) = max ⁡ a ∈ A R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) v ∗ ( s ′ ) v_*(s) = \max_{a\in \mathcal{A}}R(s,a)+\gamma \sum_{s'\in \mathcal{S}}{P(s'|s,a)v_*(s')} v(s)=aAmaxR(s,a)+γsSP(ss,a)v(s)
    价值迭代的过程是将上面的更新过程从最终状态开始,一个一个状态接连向前进行。

蒙特卡洛

蒙特卡洛是一类随机算法的特性的概括,其算法的核心思想是多次实验,用所有实验样本的平均值代表理论值,例如值函数。当实验次数趋于无穷时,就会收敛到理论值。

时间差分

时间差分结合了动态规划和蒙特卡洛方法的思想,结合了自举法(Bootstrapping)和无需了解全部环境信息的优点。正如其名,利用差异值进行学习,即目标值和估计值在不同时间步上的差异。

总结

其他可参考博客动态规划和蒙特卡洛,时间差分

三者都是现代强化学习中的核心算法,都可以被运用与策略评估和策略提升。它们都涉及泛化策略迭代(GPI),主要区别在于策略评估的过程,动态规划和时间差分都使用了自举法(Bootstrapping),而蒙特卡洛没有。动态规划需要整个环境模型的所有信息,但蒙特卡洛和时间差分不需要。
其学习目标也不同:
v π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s ] = E π [ R t + 1 + γ v π ( S t + 1 ) ∣ S t = s ] \begin{aligned} v_\pi(s) & = \mathbb{E}_\pi[G_t|S_t=s] \\ &= \mathbb{E}_\pi[R_{t+1}+\gamma G_{t+1}|S_t=s]\\ &= \mathbb{E}_\pi[R_{t+1}+\gamma v_\pi(S_t+1)|S_t=s] \end{aligned} vπ(s)=Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=Eπ[Rt+1+γvπ(St+1)St=s]
其中公式依次是是蒙特卡洛、时间差分和动态规划。

强化学习算法分类

强化学习读书笔记(一)_第1张图片
之后将从多个角度对强化学习算法进行分类,其中包括

  • 基于模型(Model-Based)和无模型(Model-Free)的学习方法
  • 基于价值(Value-Based)和基于策略(Policy-Based)的学习方法
  • 蒙特卡洛(Monte Carlo)和时间差分(Temporal-Difference)学习方法
  • 在线策略(On-Policy)和离线策略(Off-Policy)学习方法

《深度强化学习实践》— [俄]马克西姆i•拉潘 著 林然 王薇 译
《深度强化学习基础、研究与应用》 — 董豪 丁子涵 等著

你可能感兴趣的:(强化学习,机器学习)