强化学习2020-03-17

机器学习可以分为预测型和决策性,有监督学习和无监督学习属于预测型,强化学习属于决策型。

策略是从状态到行为的映射,分为随机策略和确定性策略。随机性策略是状态s下产生的行为的概率分布。

价值函数是对于未来累积奖励的预测,评估给定策略下状态的好坏。

基于模型的强化学习和模型无关的强化学习的根本区别在于学习过程中有没有环境模型。在基于模型的强化学习中环境模型已知,而在模型无关的强化学习中我们不知道环境模型。













基本概念

强化学习:通过从交互中学习来实现目标的计算方法。

交互过程:在每一步t,智能体:获得观察O_t,获得奖励R_t,执行行动A_t,环境:获得行动A_t,给出观察O_{t+1},给出奖励R_{t+1}

历史(History):是观察、奖励、行动的序列,即一直到时间t为止的所有可观测变量。

状态(State):是一种用于确定接下来会发生的事情(A,R,O),状态是关于历史的函数。

状态通常是整个环境的, 观察可以理解为是状态的一部分,仅仅是agent可以观察到的那一部分。

策略(Policy):是学习智能体在特定时间的行为方式。是从状态到行为的映射。

确定性策略:函数表示,随机策略:条件概率表示

奖励(Reward):立即感知到什么是好的,一般情况下就是一个标量

价值函数(Value function):长期而言什么是好的

价值函数是对于未来累计奖励预测,用于评估给定策略下,状态的好坏

环境的模型(Model):用于模拟环境的行为,预测下一个状态,预测下一个立即奖励(reward

强化学习智能体的分类

model-based RL:模型可以被环境所知道,agent可以直接利用模型执行下一步的动作,而无需与实际环境进行交互学习。

比如:围棋、迷宫

model_free RL:真正意义上的强化学习,环境是黑箱

比如Atari游戏,需要大量的采样

基于价值:没有策略(隐含)、价值函数

基于策略:策略、没有价值函数

Actor-Critic:策略、价值函数

你可能感兴趣的:(强化学习2020-03-17)