强化学习中的递归神经网络

在解决模型训练的机器学习问题时,可以使用已知的输出(监督学习),或者模型可以在事先不知道正确结果的情况下自行学习在可用数据中寻找模式(无监督学习)。

强化学习(RL)不属于这两种类型;然而,它同时具有监督和非监督方法的特性。这种机器学习类型最近得到了快速发展,因此出现了许多理论算法[1]。然而,对 RL 产生浓厚兴趣背后的真正原因是可以实现 RL 的各种实际问题,例如自动化、优化和机器人化。当系统需要分析环境并考虑收到的反馈选择行为策略时,强化学习最有效。

2013 年,DeepMind 团队提出了一种算法,用于训练计算机玩 7 个Atari 2600没有人类参与的游戏[2]。计算机自己执行所有动作,估计哪些动作在游戏中带来最大收益,并选择获胜策略。该算法基于 RL 算法。目前,雅达利游戏被用作新强化学习方法的基准。最近由同一个 DeepMind 团队设计的 R2D2 算法比普通人类玩家 [3] 的表现要好大约 20 倍。R2D2 的优势在于实现循环神经网络。尽管这些神经网络之前已经在其他算法中实现过,但新方法使所有其他深度 Q 学习增强功能保持有效。在本文中,我们将讨论结果是如何实现的。

RL 和 Q 学习简介

强化学习 (RL) 介于监督学习(当每个案例都有正确答案时)和无监督学习(根本没有正确答案)之间。在 RL 中,经过训练的模型通常称为代理。代理与特定环境交互。应该为代理确定可以在给定环境中执行的动作空间。作为对代理行为的响应,环境发送奖励并报告其新状态。通过这种方式,智能体积累了有关其在某些状态下的行为的奖励的知识。代理的目标是在设定的时间内获得最大的奖励。因此,评价也适用于类似于监督学习的强化学习;但是,这些评估不一定正确,它们通常反映了代理制定的行动策略的效率。

Q-learning 是 RL [1] 中的基本方法。该方法应用 Q 函数,它将每个可能的奖励与在特定环境状态下执行的动作相关联。表示 Q 函数的最简单方法是表格,其中行表示所有可能的状态,列表示所有可能的动作,而单元格存储有关在特定状态下的特定动作获得的奖励的信息。

强化学习中的递归神经网络_第1张图片

详细算法请看:如何强化学习中的递归神经网络icon-default.png?t=M276https://mp.weixin.qq.com/s/_L9TedOP8scUypStZy8hiw

强化学习中的递归神经网络_第2张图片

你可能感兴趣的:(深度学习,机器学习,神经网络,机器学习,深度学习)