使用现有的开源框架可以使我们更好地完成强化学习的入门,其中OpenAI给我们提供了gym、baselines、mujoco这些方便学习的环境和算法,要能够很好地使用这些资源,首先需要进行的就是安装与配置。由于OpenAI提供的文档资源并不多,成功配置成为了很多人学习道路上的阻碍。所以把整个过程记录下来分享学习。
博主的环境:
虚拟机VMware Workstation12 + Ubuntu18.04
个人认为使用Anaconda管理各种环境比较方便简洁,建议先安装Anaconda,我安装的版本是Anaconda3-4.3.0,清华有开源镜像,下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive
具体的安装过程可以参考我之前的一篇教程:https://www.jianshu.com/p/9f83e172a1ec
Anaconda准备好虚拟环境以后,现在开始安装配置gym、baselines、mujoco、mujoco_py
一、安装gym
安装gym的过程我已经写在了之前的文章里,这里就不再赘述。
安装gym教程链接:https://www.jianshu.com/p/9f83e172a1ec
二、安装baselines
安装baselines的过程与安装gym非常相似,可以直接安装在同一个虚拟环境下面。具体过程:
2.1 进入虚拟环境,用git直接克隆
source activate gymlab #写你自己的虚拟环境名称
git clone https://github.com/openai/baselines.git
2.2 进入baselines文件夹,用pip进行完全安装
cd baselines
pip install -e '.[all]'
2.3 安装过程中如果缺少依赖包就会报错,缺少什么包就补什么包。
三、安装mujoco
MuJoCo(Multi-Joint dynamics with Contact)是一个物理模拟器,开源的强化学习框架中很多实例都会用到这个物理模拟器,所以你想要学习更多的强化学习算法,安装好mujoco是非常必要的。
3.1 准备工作:
在官网(https://www.roboti.us/)上下载mjpro150 linux
,点击License
进入许可证页面。
两种试用:
第一种:试用30天
填入Full name
, Email address
, Computer id
其中根据下载 getid_linux
(可执行文件) 获取Computer id
,步骤如下:
点击上图中红圈的Linux
,下载getid_linux
文件,然后给予执行权利并执行文件
$ chmod a+x getid_linux
$ ./getid_linux
执行后会输出Computer id
,直接填入到官网上面的Computer id
,Submit
以后邮箱里就会收到证书mjkey.txt
了。
第二种:试用1年
试用1年仅限教育邮箱,所以如果你有教育邮箱的话,就可以申请1年的试用期。
填入相应的信息以后点
Request license
,你会在
第二天(注意是第二天!)收到邮件,邮件内会有一个
Account number
,把
Account number
Computer id
填入到官网上,获取
Computer id
的方法同第一种方法所述。
3.2 配置环境
3.2.1 在Home目录下面创建隐藏文件夹.mujoco
并将 之前下载好的mjpro150_linux
拷贝到隐藏文件夹中
$ mkdir ~/.mujoco
$ cp mjpro150_linux.zip ~/.mujoco
$ cd ~/.mujoco
$ unzip mjpro150_linux.zip
3.2.2 把下载好的证书mjkey.txt
拷贝到.mujoco
中
cp mjkey.txt ~/.mujoco
cp mjkey.txt ~/.mujoco/mjpro150/bin
3.2.3 添加环境变量, 用nano打开~/.bashrc
文件并添加命令
sudo nano ~/.bashrc
export LD_LIBRARY_PATH=~/.mujoco/mjpro150/bin${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export MUJOCO_KEY_PATH=~/.mujoco${MUJOCO_KEY_PATH}
3.2.4 运行结果以检验是否安装成功
cd ~/.mujoco/mjpro150/bin
./simulate ../model/humanoid.xml
运行后结果:
四、安装mujoco_py
安装方式并不唯一,可自行选择,在这里只分享博主自己安装的方式以供参考。
4.1 进入虚拟环境,用git直接克隆
source activate gymlab #写你自己的虚拟环境名称
git clone https://github.com/openai/mujoco-py.git
4.2 先安装可能会缺少的东西(建议更改一下软件源)
更改软件源能够加快下载速度,具体方法可以参考我之前的博文:https://www.jianshu.com/p/04d804f52109
sudo apt-get update -q
sudo DEBIAN_FRONTEND=noninteractive apt-get install -y curl git libgl1-mesa-dev libgl1-mesa-glx libglew-dev libosmesa6-dev python3-pip python3-numpy python3-scipy net-tools unzip vim wget xpra xserver-xorg-dev
sudo apt-get clean
rm -rf /var/lib/apt/lists/*
4.3 安装patchelf
sudo -s
curl -o /usr/local/bin/patchelf https://s3-us-west-2.amazonaws.com/openai-sci-artifacts/manual-builds/patchelf_0.9_amd64.elf
chmod +x /usr/local/bin/patchelf
4.4 进入mujoco_py
目录,进行安装
pip install -U 'mujoco-py<1.50.2,>=1.50.1'
4.5 安装过程中依然遵循缺什么补什么的原则,直到完全安装成功为止
一般来说,这个过程不会很顺利,根据所报的错误一步一步排查安装缺少的东西。耐心点,都是这么崩溃过来的 :)
4.6 安装完成后检验是否安装成功
在虚拟环境下面进入python,如果你能顺利执行以下代码就说明安装成功了。
>>> import mujoco_py
>>> from os.path import dirname
>>> model = mujoco_py.load_model_from_path(dirname(dirname(mujoco_py.__file__)) + "/xmls/claw.xml")
>>> sim = mujoco_py.MjSim(model)
>>> print(sim.data.qpos)
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
>>> sim.step()
>>> print(sim.data.qpos)
[ 2.09217903e-06 -1.82329050e-12 -1.16711384e-07 -4.69613872e-11
-1.43931860e-05 4.73350204e-10 -3.23749942e-05 -1.19854057e-13
-2.39251380e-08 -4.46750545e-07 1.78771599e-09 -1.04232280e-08]
>>> model = mujoco_py.load_model_from_path(dirname(dirname(mujoco_py.__file__)) + "/xmls/claw.xml")
如果你在执行以上代码的时候报错找不到文件的话
请把mujoco_py
目录下面的xmls
文件夹拷贝到报错信息所提示的文件夹下,具体文件夹根据自己的报错信息决定。如上图中的报错信息,即将xmls
文件夹拷贝到/home/jjiawen/anaconda3/envs/gymlab/lib/python3.5/site-packages/mujoco_py-1.50.1.68-py3.5.egg
下,再重新导入model就不会报错了。
五、总结:
至此已经完成了gym、baselines、mujoco 和 mujoco_py 的安装,在安装过程中可能会有不少错误,逐一排查即可。