7天强化学习营学习笔记

7天飞桨深度学习学院--强化学习笔记1

  • 基础知识
  • Lesson1学习笔记--RL初印象
    • 相关概念
    • RL应用
    • 课外学习资料
    • 强化学习与监督学习的区别
    • 强化学习的算法和环境
    • 实践

基础知识

只是大概的内容,包括5大部分:
1.机器学习基础知识(神经网络等)
2.数学基础知识(概率论与梳理统计,高数,线性代数等)
3.Python基础(numpy)
4.PaddlePaddle入门
5.使用环境基础知识(此处为AIstudio的Notebook)

Lesson1学习笔记–RL初印象

RL, reinforcement learning, 强化学习,是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

相关概念

1.核心思想:智能体(agent)在环境(environment)中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。
2.state V.S. observation
从环境中获取的状态,有时候叫state,有时候叫observation,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚开始学习遇到的环境还没有那么复杂,可以先把这两个概念划上等号。
7天强化学习营学习笔记_第1张图片
3.从智能到人工智能
人类的智能=遗传+学习
学习=Interaction with environment + imitation
人工智能是指让机器像人一样学习。

4.强化学习
强化学习强调自学,且不像已知环境下的有路线能规划,它是基于未知环境下的探索试错式地学习。
强化学习有两种学习方案:基于价值(value-based)、基于策略(policy-based)

RL应用

-游戏(马里奥、Atari、Alpha Go、星际争霸等)
-机器人控制(机械臂、机器人、自动驾驶、四轴飞行器等)
-用户交互(推荐、广告、NLP等)
-交通(拥堵管理等)
-资源调度(物流、带宽、功率等)
-金融(投资组合、股票买卖等)
-其他

课外学习资料

《Reinforcement learning: An introduction》 by Andrew Barto and Richard S. Sutton------基础理论入门
其他公开课:UC Berkeley CS285, Stanford U CS234 等

强化学习与监督学习的区别

强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。

监督学习寻找输入到输出之间的映射,比如分类和回归问题。

非监督学习主要寻找数据之间的隐藏关系,比如聚类问题。

强化学习则需要在与环境的交互中学习和寻找最佳决策方案。

监督学习处理认知问题,强化学习处理决策问题。

强化学习的算法和环境

经典算法:Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO

环境分类:离散控制场景(输出动作可数)、连续控制场景(输出动作值不可数)

强化学习经典环境库GYM将环境交互接口规范化为:重置环境reset()、交互step()、渲染render()

强化学习框架库PARL将强化学习框架抽象为Model、Algorithm、Agent三层,使得强化学习算法的实现和调试更方便和灵活。

实践

GYM是强化学习中经典的环境库,要把握 CliffWalkingWapper 和 FrozenLake 环境,可以在PARL代码库中的examples/tutorials/lesson1中下载gridworld.py使用。

PARL开源库地址:https://github.com/PaddlePaddle/PARL

你可能感兴趣的:(AI学习笔记,强化学习)