David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning

Lecture 1: Introduction to Reinforcement
Learning
https://www.davidsilver.uk/teaching/

Admin

Website:
http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
Contact me: [email protected]

About Reinforcement Learning

David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第1张图片
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第2张图片
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第3张图片
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第4张图片

The Reinforcement Learning Problem

之前的例子:
①强化学习是做出最佳决策的科学。它可以帮助我们制定活的物种所表现出的奖励动机行为。比方说,你想让一个孩子坐下来学习考试。要做到这一点非常困难,但是如果每次完成一章/主题时都给他一块巧克力,他就会明白,如果他继续学习,他会得到更多的巧克力棒。所以他会有一些学习考试的动机。
②孩子代表着Agent代理 。奖励制度和考试代表了Environment环境。今天的题目是类似于强化学习的States状态。所以,孩子必须决定哪些话题更重要(即计算每种行为的价值)。这将是我们的工作的 Value-Function价值方程。所以,每次他从一个国家到另一个国家旅行时,他都会得到Reward奖励,他用来在时间内完成主题的方法就是我们的Policy决策。

Rewards

所有的目标都可以用最大化的预期结果来描述积累的奖励。
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第5张图片

Agent and Environment

David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第6张图片

History

history包含了一次经历中全部的observation、action和reward。

David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第7张图片

三种State

agent state 是 agent 内部状态,用于通过 observation 得到输出的 action。

environment state 是环境的私有状态,用于通过agent 的 action 得到定输出的 reward 和 observation。

information state 包含全部history中的information,是马尔可夫状态。

David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第8张图片
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第9张图片
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第10张图片

Inside An RL Agent(Major Components )

An RL agent may include one or more of these components:
Policy: agent’s behaviour function
Value function: how good is each state and/or action
Model: agent’s representation of the environment
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第11张图片
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第12张图片
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第13张图片

Problems within Reinforcement Learning

RL代理人的分类方式

按照有无价值方程和策略分类
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第14张图片
按照有无模型分类
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning_第15张图片

你可能感兴趣的:(强化学习,强化学习,人工智能,alphago)