<强化学习>开门帖

今天是2020年2月7日,开始二刷david silver ulc课程。https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ

还记得去年九月份在YOUTUBE上硬刚david silver课的时候的激情。

david silver课件汇总:(共10节课)

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

 

 强化学习,比较形象地说,是找到求生法则的一门技术。这是我最开始对这门技术感兴趣的原因。我最初对RL感兴趣是因为机器通过这门技术竟然能像智慧生命体一样摸爬滚打学到求生法则并“活”下去。这就很迷了。当时下决心一定要搞清楚是怎么回事。

强化学习把世界抽象为两部分,主观能动体agent和客观环境env。 智能主体,称为agent。相当于生命体。而外部环境称为env(envirnment)。

我们要做的,就是训练这个agent,提升它的智力能力,使之更好的应对env。就像大自然草原上刚出生的一只小鹿,逐渐学会在草原上生存。

将事物的发展变化抽象为一组State序列。每一个State是具体某个时间点的状态。

对于agent。把agent的行为抽象为行为空间A。A可以是离散的可以是连续的。把agent应对环境的反应方案抽象为策略pai:OxA—>[0,1]

 对于env。reward激励是agent在做出行为a之后env给agent的feedback。比如说,小鹿吃到草了,那么reward为+1,小鹿被老虎吃了,reward为-99。

一些小总结:

1.强化学习不同于其他机器学习算法,它们的基础理论可以说正交.其他的机器学习算法大多在贝叶斯理论的基础上发展而来.而强化学习是以马尔可夫决策过程MDP为基础而来.它依靠反馈有一定延时的Reward激励信号而学习.

 

2.马尔可夫性:

未来stage只受当前stage影响,而与过去stage无关,即

 

3.agent状态  &  env状态   辩解(摘自叶强知乎)

  • 完全可观测的环境 Fully Observable Environments(个体对环境的观测 = 个体状态 = 环境状态

正式地说,这种问题是一个马儿可夫决定过程(Markov Decision Process, MDP)

 

  • 部分可观测的环境 Partially Observable Environments(个体状态 ≠ 环境状态

         个体间接观测环境。举了几个例子:

  1. 一个可拍照的机器人个体对于其周围环境的观测并不能说明其绝度位置,它必须自己去估计自己的绝对位置,而绝对位置则是非常重要的环境状态特征之一;
  2. 一个交易员只能看到当前的交易价格;
  3. 一个扑克牌玩家只能看到自己的牌和其他已经出过的牌,而不知道整个环境(包括对手的牌)状态。

正式地说,这种问题是一个部分可观测马儿可夫决策过程。个体必须构建它自己的状态呈现形式,比如:记住完整的历史: 

这种方法比较原始、幼稚。还有其他办法,例如 :

1. Beliefs of environment state:此时虽然个体不知道环境状态到底是什么样,但个体可以利用已有经验(数据),用各种个体已知状态的概率分布作为当前时刻的个体状态的呈现:

2. Recurrent neural network:不需要知道概率,只根据当前的个体状态以及当前时刻个体的观测,送入循环神经网络(RNN)中得到一个当前个体状态的呈现:

4.两对儿哲学理念辩解

4(1).预测和控制 Prediction & Control

预测:预测不知道的情况。

控制:agent已经彻底掌控了env的情况。例如我们已经知道了V(s) for any s in S 。那么只要运筹帷幄拿出一套agent的控制方案就好了。

4(2).探索和利用 Exploration & Exploitation

拿跳舞来说吧。菜鸟bboy AC刚跳舞的时候不会windmill,他花了一段时间去掌握这个招。期间受伤很多次,吃了很多苦,这段就是“探索”。经过了一段时间的“探索”,bboy AC能熟练应用windmill了,他就在夜店舞池转风车并泡到高质量妞。这就是“利用”。

5.强化学习解决规划问题 & 强化学习解决学习问题 辩解

你可能感兴趣的:(<强化学习>开门帖)