第十章 强化学习

场景与原理

1.强化学习模型五个基本要素
代理Agent、环境Environment、行为Action、状态State、反馈Reward
策略Policy和价值Value
2.基于价值的算法
假设已经知道了所有State的价值,那么只要在所有行为中选择能产生最大Value的那个Action就能达到完成最终任务的目的。
Q-learning和Sarsa
3.基于策略的算法
对于能获得正向结果的Action,增加他们在今后被选中的概率;繁殖则降低。
马尔可夫决策过程(MDP)
解决MDP问题的具体方法:Policy Gradient
综合两个策略优势的算法:Actor-Critic
4.基于模型的算法
建立一个与真是场景类似的环境模型,使得在收到来在Agent的指令后能够给出正确State与Reward


OpenAI Gym

强化学习需要一个能根据Action提供State和Reward的动态虚拟环境。
OpenAI Gym是专注于强化学习的工具包,提供了很多游戏、模拟控制的实验环境。


深度强化学习

1.Deep Q-Networks(DQN)及改进
2.Deep Policy Network(DPN)、Deep Deterministic Policy Gradient(DDPG)及Asynchronous Advantage Actor-Critic(A3C)


博弈原理

1.深度搜索与广度搜索
深度搜索更快,广度搜索更准
2.完美决策
Minmax算法和Alpha-Beta算法能够寻找到博弈中的最佳策略,但是代价往往太高。
3.蒙特卡洛搜索树
结合了深度搜索和广度搜索


你可能感兴趣的:(第十章 强化学习)