Ubuntu18.04使用docker构建不同深度学习环境

需求: 很多时候我们在GitHub找到的一些深度学习代码,由于环境依赖等原因无法跑通,比如基于tf编写的代码库,由于tf各版本API变得非常大(大坑),要想复现最简单的办法是配置和作者相同的tf环境,相应带来的麻烦是cuda版本和cudnn的重新配置,非常麻烦。
解决方案: 一个可行的解决方案是使用docker,pytorch和tensorflow官方都提供了不同版本的docker镜像,只需拉取相应镜像即可。

0.前提

前台需要在Ubuntu主机上安装好英伟达显卡驱动(另行搜索)

1. 安装docker

参考官方帮助文档:https://docs.docker.com/engine/install/ubuntu/,笔者是按照其他教程安装的,但是找不到原出处了,docker官网中的安装方法应该也是没问题的。
截至2020.05.05,最新版本的docker为:19.03.04

2. 安装nvidia-docker

网速很多教程是说安装nvidia-docker2,但是最新的官方教程已经改变了,命令如下:

# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

nvidia-docker2状态是Deprecated,不过也还支持,执行下面命令测试是否安装成功:

#### Test nvidia-smi with the latest official CUDA image
docker run --gpus all nvidia/cuda:10.0-base nvidia-smi

3. 安装pytorch docker镜像

镜像地址列表:https://hub.docker.com/r/pytorch/pytorch/tags?page=1
例如需要拉取pytorch0.4.1版本,则执行:

$ sudo docker pull pytorch/pytorch:0.4.1-cuda9-cudnn7-devel

查看安装的镜像:

$ sudo docker images

在这里插入图片描述

3.1 启动容器

执行下面命令:

$ sudo docker run --name torch041 --gpus all -it -v $PWD:/home pytorch/pytorch:0.4.1-cuda9-cudnn7-devel bash

上述命令中:

  • run:代表启动一个容器,还有其他命令,例如rm(删除容器),exec,stop,kill等,可以查看链接:https://www.runoob.com/docker/docker-command-manual.html;
  • --name:代表容器名称,自行确定,如果没有指定,会随机生成;
  • --gpus:指定使用的gpu数量,这里为所有all,一定要设置该参数,否则无法调用gpu
  • -it:使用交互式interactive
  • -v:磁盘挂载,$PWD:/home的意思是将当前路径挂载到容器/home目录下,这样进入容器之后cd/home,就可以运行当前路径下的文件了;
  • pytorch/pytorch:0.4.1-cuda9-cudnn7-devel:表示docker镜像
  • -bash:最后一项表示执行容器的命令,在交互模式下执行bash,就可以进入容器的bash了

3.2 停止容器

$ sudo docker stop torch041

torch041就是之前创建容器时赋予的名字,也可以用id,根据命令:

$ sudo docker ps

查看正在运行的容器在这里插入图片描述
通过命令:

$ sudo docker ps -a

查看所有容器,包括已经停止的容器。
Ubuntu18.04使用docker构建不同深度学习环境_第1张图片

3.3 删除停止的容器

通过命令:

$ sudo docker rm ${NAMES}

便可以删除名字为${IMAGE ID}的容器,也可以根据CONTAINER ID进行删除。

4. 删除镜像

通过命令:

$ sudo docker image rm ${IMAGE ID}

可以删除镜像,如果提示有容器在占用,需要先删除容器,再删除镜像,这里的${IMAGE ID}就是镜像的ID号

你可能感兴趣的:(Ubuntu18.04使用docker构建不同深度学习环境)