reinforcement learning

参考周莫烦的视频课程


reinforcement learning_第1张图片
强化学习是非监督学习的例子 ,只给行为打分,机器自己想办法提高分数


reinforcement learning_第2张图片

机器自动学习避开低分区 

reinforcement learning_第3张图片

强化学习需要自己学习获得标签,,然后类似非监督学习了

reinforcement learning_第4张图片

以下是强化学习的一些算法

reinforcement learning_第5张图片


reinforcement learning_第6张图片


reinforcement learning_第7张图片

强化学习分类:

1、理不理解所在的环境

2、基于概率和基于价值

3、回合更新与单步更新

4、在线学习与离线学习

reinforcement learning_第8张图片
理解环境后就去炸虚拟环境,而不是自己生存的地球

按照理不理解分算法

reinforcement learning_第9张图片


reinforcement learning_第10张图片


model free 只能根据现实发生的一步一步的走,

model -based 可以根据想象虚拟来选择最好的,alpha go 使用这种,提前算。


reinforcement learning_第11张图片

离散的动作,,基于价值的动作确定,选择价值高的。

连续的动作,,基于价值的无能为力,基于概率的有优势。

reinforcement learning_第12张图片

具体的算法分类:


reinforcement learning_第13张图片

Actor-Critic 结合了基于概率和基于价值的优势,,表现更加强大。



reinforcement learning_第14张图片

回合更新必须一局完成后总结经验,而单步更新每一步都会总结。


reinforcement learning_第15张图片


reinforcement learning_第16张图片

离线学习是过往的经验,以及可以学习别人的经验,,看着别人玩,自己也学会了。

也可以白天储存记忆,晚上回来学习。

reinforcement learning_第17张图片

你可能感兴趣的:(reinforcement learning)