【笔记2-1】李宏毅深度强化学习笔记(一)Outline

李宏毅深度强化学习- Outline

  • 李宏毅深度强化学习课程评价:
  • 强化学习:
    • 举例
    • 深度学习的特点:
    • 强化学习方法
      • Policy-based approach -- learn an actor
      • Value-based approach -- learn a critic
      • Actor-Critic

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记(二)Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记(三)Q-Learning
李宏毅深度强化学习笔记(四)Actor-Critic
李宏毅深度强化学习笔记(五)Sparse Reward
李宏毅深度强化学习笔记(六)Imitation Learning
李宏毅深度强化学习课件

李宏毅深度强化学习课程评价:

个人觉得,李宏毅教授的这门课可以说是强化学习的入门课程,对于初学者来说比较友好,老师上课举的例子很形象,很有趣,对于理解相关的概念知识非常有帮助。

课程以讲述理论知识为主,关于强化学习方面的实际应用以及代码实现较少,可以考虑完成该课程布置的作业,以加深对算法的理解。

另外,要学习深度学习的实际应用,可以考虑看莫烦的强化学习教程,与李宏毅教授的课程不同,该课程则较少涉及理论方面的知识,而侧重于强化学习算法的代码实现,也是十分有趣的实际应用。

希望大家在学完相关课程之后都能有所收获~

强化学习:

什么是强化学习
寻找一个合适的函数,将观察到的环境(environment)作为输入,目标是最大化回报(reward)(从经验中学习)

举例

  1. Alpha GO: 监督学习+强化学习
  2. chat robot: 生成对话,并对生成的对话进行评估
  3. play video games: 最大化整个游戏过程中的累积期望reward

深度学习的特点:

  1. 推迟得到的回报: 有些action可能和reward的获得没有直接的关系,还有的action可能会在最初产生负的reward,后期生成较大的正的reward
  2. 采取的action会对后期接受的数据产生影响

强化学习方法

  1. model-based
  2. model-free (policy-based and/or value-based)
    (Alpha GO: policy-based+value-based+model-based)

Policy-based approach – learn an actor

step1: 将神经网络作为actor (模型的泛华能力较好)

step2: 衡量actor的好坏 (使用总回报reward的期望值来进行评估)

step3: 选择最好的actor

Value-based approach – learn a critic

Critic: 用来评估actor
State value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V:

  1. Monte-Carlo(MC): critic会观察actor π \pi π 玩游戏的整个过程, 具有不确定性,较大的方差,但结果无偏
  2. Temporal-difference(TD): 只计算状态与状态之间的收益reward,具有较小的方差,但是结果可能造成偏误
  3. State action value function: 基于状态state和行动action得到收益reward
  4. Q-learning: actor π \pi π 和环境做互动,然后不断用一个更好的 π ′ \pi' π来更新 π \pi π

Actor-Critic

会在之后的笔记中进行详细介绍

你可能感兴趣的:(笔记,李宏毅深度强化学习笔记)