强化学习之Q-learning算法

Q-learning算法

    以前在阿里云上面搭了一个wordpress博客,最近快毕业了,阿里云真的很贵,所以转到CSDN上写博客,主要是为了方便以后查询。

    Q-learning算法是强化学习的一种算法,强化学习目前主要应用到游戏中,主要是目的是训练一个知道怎么做才能得到高分的model。强化学习的介绍很多,李宏毅在https://www.youtube.com/watch?v=W8XF3ME8G2I上的课程就做了一些介绍,此外。强化学习和深度学习究竟是什么关系??很多地方所增强学习(就是强化学习,reinforcement learning)是深度学习的一种,其实不能这么说,强化学习可以结合深度学习算法,比如说Google的DQN项目就是使用卷积神经网络学习一个自动打游戏的模型,https://blog.csdn.net/jiandanjinxin/article/details/54133521文章较好的介绍了深度学习和强化学习的关系。

    AlphaGo是强化学习的一个例子,个人感觉,监督学习不能够实现真正的人工智能,需要一些半监督,无监督学习方法才有可能实现真的的人工智能。强化学习感觉和自动机的原理差不多,都是在一些state里面采取一些action,然后不断的进行。只不过自动机没有reward这个东西,在强化学习中,每采取一些action,环境(environment)会给一些reward,然后我们可以用于对modle进行更新。

    Q-learning算法的简介可以查看http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc,主要详细介绍下面几点:

    1:Q-table的更新原则

    

    这里的r是reward,指的是每次进行一步的时候,environment所给的分数,和Q(s,a)是不一样的,http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc使用一个例子介绍了Q-table的更新过程。

    2:疑虑???

     Q-learning必须要知道所有的state和action,那么训练之后得到的实际上就是一个能够得到高reward的模型。能不能不指定state,那么得到的model才能够对未知的情况进行判断。

 

你可能感兴趣的:(强化学习)