深度强化学习——机械臂

趁暑假有空,在实验室机械臂上复现OpenAI Fetch中的一项任务:FetchPickAndPlace-v0

根据原论文的提示,在原DDPG算法的基础上引入HER机制,解决了在探索环境(step>40)中奖励稀疏,难以收敛的问题,但是原任务默认是以初始几步抓中小方块为开始

在此基础上引入先验经验,即将任务完整:先抓随机小方块,再到随机终点处

因此,结合DDPG+HER+模仿学习(行为克隆,BC)成功在xarm6机械臂上完成整个任务

理论全过程,可参考论文:https://arxiv.org/pdf/1509.02971.pdf

估计也没人看,就留个实验结果的视频吧:复现 DDPG+HER+模仿学习(行为克隆,BC)

下一个实验要么复现VPG,要么引入避障试试(´・_・`),有错的大家可以指出来

你可能感兴趣的:(深度强化学习,人工智能,深度学习)