第一章 绪论1

1.1 这是一本什么书

1.2 强化学习可以解决什么问题

一 强化学习所能解决的问题

强化学习所能解决的问题:智能决策问题强化

更准确的说是:序贯决策问题

何为序贯决策问题:需要连续不断做出决策,才能实现最终⽬标的问题

1.3 强化学习如何解决问题

一  如何解决序贯决策问题

1.监督学习

解决的问题:智能感知的问题。

例⼦:数字⼿写体识别

首先,监督学习要先感知输入的模样(特征);然后,智能体对其进行分类(标签)。

因此,智能感知的前提:需要 海量、有差异的输入 + 输入相关的标签。

小结:监督学习解决问题的方法:输入大量有标签的数据,让智能体从中习得输入的特征并可对其分类。


数字⼿写体识别        

2.强化学习

不同与监督学习

强化学习不关心输入的模样,只关心在当前输入的情况下要采取什么动作来实现最终目的。

采取何种动作的出发点:使整个任务序列达到最优(这就需要智能体不断地与环境交互,不断尝试。因为此时智能体也没有上帝视角,完全不知哪个动作最有利于实现目标)

2.1 强化学习解决问题的框架


强化学习基本框架

智能体通过动作与环境进⾏交互时,环境会返给智能体⼀个当前的回报,智能体则根据当前的回报评估所采取的动作:有利于实现⽬标的动作被保留,不利于实现⽬标的动作被衰减。


强化学习与监督学习的共同点:二者都需要大量的数据进行训练

强化学习与监督学习的不同点:监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互数据。即数据类型不同。

3.强化学习发展史

1998,Richard S.Sutton《强化学习导论第⼀版》,即Reinforcement Learning:An Introduction

2013,DeepMind提出DQN(Deep Q Network),将深度⽹络与强化学习算法结合形成深度强化学习

2016年和2017年,⾕歌的AlphaGo连续两年击败世界围棋冠军

现今

你可能感兴趣的:(第一章 绪论1)