强化学习在各个领域均有应用,在计算机科学领域有机器学习,在工程领域有最优控制(一种在给定约束条件下使某一性能指标达到最优的控制方法),在数学领域有运筹学,经济领域有有限理性(指个体在决策过程中受到认知能力、信息获取和处理能力等因素的限制,从而无法做出完全理性的决策),在心理学领域有经典条件反射(一种学习过程,通过将原本无关的刺激与自然产生某种反应的刺激联系起来,使得原本无关的刺激也能引发类似的反应),在神经科学领域有奖励系统(一种激励和鼓励个体实现目标的机制)。
有监督学习:利用一组已知类别的训练样本调整分类器的参数,使习得的分类器能够对未知样本进行分类或预测
无监督学习:从无标注的数据中学习隐含的结构或模式
强化学习:学习“做什么才能使数值化的收益信号最大化”,是机器通过与环境交互来实现目标的一种计算方法。
历史是观测、行动和奖励的序列
H t = O 1 , R 1 , A 1 , O 2 , R 2 , A 2 , . . . , O t − 1 , R t − 1 , A t − 1 , O t , R t H_t=O_1,R_1,A_1,O_2,R_2,A_2,...,O_{t-1},R_{t-1},A_{t-1},O_t,R_t Ht=O1,R1,A1,O2,R2,A2,...,Ot−1,Rt−1,At−1,Ot,Rt
根据这个历史可以决定接下来会发生什么
智能体选择行动
环境选择观测及奖励
状态是一种用于确定接下来会发生的事情(行动、观察、奖励)的信息
智能体状态 S t a S_t^a Sta是智能体内部对信息的表达
智能体状态是历史的函数
S t a = f ( H t ) S_t^a=f(H_t) Sta=f(Ht)
信息状态,也叫马尔可夫状态,Markov State,包含了历史上所有有用的信息。
马尔可夫状态:状态具有马尔可夫性,当且仅当 P [ S t + 1 ∣ S t ] = P [ S t + 1 ∣ S 1 , . . . , S t ] P[S_{t+1}|S_t]=P[S_{t+1}|S_1,...,S_t] P[St+1∣St]=P[St+1∣S1,...,St]
给定当前时刻的状态,将来与历史无关,将来只与当前状态相关。
完全可观测:智能体可以直接观察到全部环境状态,比如下围棋棋盘的情况就是完全可观测的
O t = S t a = S t e O_t=S_t^a=S_t^e Ot=Sta=Ste
智能体状态=环境状态=信息状态
正式地说,这是马尔可夫决策过程(MDP)
部分可观测:智能体可以观测到环境的部分,比如打麻将和斗地主,不能看到别人的牌
智能体状态不等于环境状态
正式地说,这是部分可观测马尔可夫决策过程(POMDP)
强化学习智能体由下述三个组件中的一个或多个组成:
策略是学习智能体在特定时间的行为方式
随即策略示例:
智能体能看见附近格子的信息,如果智能体停在灰色格子上,两个方块上的状态是一样的
采用确定性策略,如中间图所示,可能会学到在灰色方块上向左走,如果智能体在左边的灰色方块上,他永远都不可能通关游戏
采用随机策略,如最右图所示,便可以在任意格子上有概率地通关游戏
价值函数是对于未来累积奖励的预测
V π ( s ) = E π [ R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . ∣ S t = s ] V_\pi(s)=\mathbb{E}_\pi[R_{t+1}+\gamma R_{t+2}+\gamma ^2R_{t+3}+...|S_t=s] Vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]
其中, s s s是状态, π \pi π是智能体, γ \gamma γ是一个系数,越未来的数据,赋予的权重越小
模型用于模拟环境的行为,建模环境的动态特征
解决下列两个问题:
P s s ′ a = P [ S t + 1 = s ′ ∣ S t = s , A t = a ] \mathcal{P}_{s s^{\prime}}^a=\mathbb{P}\left[S_{t+1}=s^{\prime} \mid S_t=s, A_t=a\right] Pss′a=P[St+1=s′∣St=s,At=a]
R s a = E [ R t + 1 ∣ S t = s , A t = a ] \mathcal{R}_s^a=\mathbb{E}\left[ R_{t+1} \mid S_t=s, A_t=a\right] Rsa=E[Rt+1∣St=s,At=a]
环境真实的运行机制通常不称为模型,而称为环境动力学
模型并不能立即给我们一个好的策略
基于策略的更新与学习方法,强化学习方法可分为:
根据强化学习算法是否依赖模型,强化学习方法可分为:
根据环境返回的回报函数是否已知,强化学习方法可分为:
序列决策中的两个基础问题:
强化学习示例:
游戏内在运行机制未知,直接与游戏交互,操作摇杆,观测到画面及分数
规划示例:
游戏内在运行机制已知;如果在状态s采取了动作a接下的状态与分数全部可知;在大脑里找到最优策略(不与环境交互):基于树的搜索策略
强化学习类似于一个试错的学习
智能体从其与环境的交互中发现一个好的策略
在试错的过程中不会损失太多奖励
探索会发现有关环境的更多信息,有选择地放弃某些奖励
利用已知信息来最大化回报,强调开发利用已有的信息
探索和利用是决策时需要平衡的两个方面
例子:饭店选择,利用:去最喜欢的饭店,探索:去一个新的饭店
预测:评估未来,策略已经给定
控制:最大化未来,找到最优的策略
强化学习基础 北京邮电大学 鲁鹏 强化学习基础 (本科生课程) 北京邮电大学 鲁鹏_哔哩哔哩_bilibili
深度强化学习 台湾大学 李宏毅 DRL Lecture 1_ Policy Gradient (Review)_哔哩哔哩_bilibili
蘑菇书EasyRL datawhalechina/easy-rl: 强化学习中文教程(蘑菇书),在线阅读地址:https://datawhalechina.github.io/easy-rl/