【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象

最近参加了百度paddlepaddle第一期的强化学习课程,是百度工程师李科浇老师讲解的,特在此分享一下内容和心得。

课程分为7节,内容比较基础,但是讲解的很细致、深刻,主要介绍了值函数、策略梯度的强化学习。

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第1张图片

下面就分别介绍一下课程内容、和大作业“四轴飞行器”项目的调参心得。

会分为好几期,目前先讲第一课的内容。

一、课程内容

1.强化学习初印象:

课程大纲如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第2张图片

强化学习分为2部分和3要素:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第3张图片

应用领域有个性推荐、股票交易、交通灯、对话系统等。

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第4张图片

强化学习可基本分为2种类型,value-based和policy-based(一说另外还有actor-critic)

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第5张图片

也可以分为model-based和policy-based,on-policy和off-policy

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第6张图片

下面是一些强化学习算法框架,对各个算法的实现。(另外我觉得Tianshou也不错,清华本科生实现的那个框架)

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第7张图片

RL的仿真环境,paddlepaddle直接调用了OpenAI的gym环境:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第8张图片

Gym环境的基本操作如下:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第9张图片

paddlepaddle对强化学习有个专门的库叫PARL,我觉得抽象的还是非常好,

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第10张图片

也可以很方便地部署到多台机器上:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第11张图片

并行的性能也是有极大的提升:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第12张图片

最后来个总结:

【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.1】强化学习初印象_第13张图片

你可能感兴趣的:(深度学习,强化学习,深度学习,神经网络)