强化学习的简单认知

强化学习是一门神奇的学科

DeepMind团队先后在Atari,围棋,以至于最新的AlphaStar在魔兽争霸游戏中,利用强化学习技术,屡次打败世界顶尖玩家,证明了我们栏目的主题:Reinfoecement Learning具有无限的可能。

几个小例子

我先用一段认知科学著名的实验:巴普洛夫的狗 来开头

强化学习的简单认知_第1张图片

著名的心理学家巴甫洛夫用狗做了这样一个实验:每次给狗送食物以前打开红灯、响起铃声。这样经过一段时间以后,铃声一响或红灯一亮,狗就开始分泌唾液。

在未经训练之前,狗狗因为吃肉而流口水,是因为本能反应,生物学把它叫做条件反射或者本能反射。但是实验证明:原来并不能引起某种本能反射的中性刺激物(铃声、红灯),由于它总是伴随某个能引起该本能反射的刺激物出现,如此多次重复之后,这个中性刺激物也能引起该本能反射。这就是强化学习的基本原理。那将中性刺激物与反射相连接的过程,我们就把它叫做强化(Reinforcement)。

那映射到我们的强化学习任务:以斗地主为例,“地主”本能反射就是:当一位农民手牌为0,单数我还有手牌的条件时,我就输了,这是显而易见的。那我们经过强化学习的强化作用之后,当我们的牌发到手里,我们就知道当前的手牌状态下能获胜的概率是多少,我的下一步操作的获胜概率是多少……这样我们就获得了比较厉害的打牌能力,赢到三千七百万欢乐豆了。

强化学习的简单认知_第2张图片强化学习的简单认知_第3张图片

 强化学习到底学习了什么?

言归正传,强化学习是建立在一个对时间序贯过程模型的基础上的,一种不同于其他系机器学习方法的一种算法,它旨在让智能体(Agent)在环境(Env)中探索,在面临不同状态(State)下做出决策动作(Action),得到奖(Reward),并最大化期望奖励(G),从而得到一个端到端的最优策略(Policy)

不难看出,强化学习利用的正是智能体与环境交互得到交互信息来改进自己的策略。

在交互的过程中,有三个要素:状态,动作与奖励。他们的关系可以由以下一段话来描述:

智能体(Agent)根据从环境中观测到的状态(state),做出动作(action), 在改变环境(environment)状态的同时,得到环境给予的奖励(reward)。

接下来我就将从描述这一过程的MDP(马尔可夫决策过程)开始,对强化学习的原理与经典算法,前沿论文进行讲解与代码实战。

你可能感兴趣的:(强化学习由浅入深,人工智能,机器学习,python)