Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置

Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置

1. NVIDIA的GPU驱动安装

根据显卡型号去NVIDIA官网下载驱动,官网链接https://www.nvidia.com/Download/index.aspx?lang=en-us

Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置_第1张图片

通过型号查找最新可用驱动程序版本,一定要装最新或者比较新的,这里选择的是460.84版本

Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置_第2张图片

下载之后上传到服务器

安装之前先清除可能存在的旧版本NVIDIA驱动(对没有安装过 NVIDIA驱动的主机,这步可以省略):

$sudo apt-get remove --purge nvidia*

安装驱动可能需要的依赖(可选)

$sudo apt-get update

把 nouveau 驱动加入黑名单

$sudo vim /etc/modprobe.d/blacklist-nouveau.conf

在文件 blacklist-nouveau.conf 中加入如下内容:

blacklist nouveau
options nouveau modeset=0

禁用 nouveau 内核模块

$sudo update-initramfs -u

如果禁用nouveau不成功可以参考这篇博客方法:https://blog.csdn.net/max_loo/article/details/81304949

之后进行重启

$sudo reboot

重启后再次进入命令行

lsmod | grep nouveau  #没有输出,即说明安装成

关闭图形界面

$sudo service lightdm stop

然后在驱动安装包的同目录下安装;

$sudo chmod u+x NVIDIA-Linux-x86_64-460.84.run
$sudo ./NVIDIA-Linux-x86_64-418.56.run –no-x-check –no-nouveau-check  –no-opengl-files

–no-opengl-files 只安装驱动文件,不安装OpenGL文件。这个参数最重要,不加会出现登录界面循环重启

–no-x-check 安装驱动时不检查X服务

–no-nouveau-check 安装驱动时不检查nouveau

之后检查是否安装成功:

nvidia-smi

若出现下图则成功:

Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置_第3张图片

2 .docker安装

官方教程:Install Docker Engine on Ubuntu | Docker Documentation

2.1 docker-ce安装

更新apt工具包

sudo apt-get update

sudo apt-get install \
    apt-transport-https \
    ca-certificates \
    curl \
    gnupg \
    lsb-release

添加docker官方密钥

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg

会出来一个warning,不用管:
gpg: WARNING: unsafe ownership on homedir '/home/user/.gnupg'

配置稳定版仓库(这里需要根据系统架构选,不过大部分主机都是x86_64/amd64的)

echo \
  "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu \
  $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

然后再更新一下apt工具包,安装最新版本的Docker Engine and containerd,也可以安装指定版本

sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io

如果需要安装指定版本,列出可用版本,然后选择并安装:

apt-cache madison docker-ce

Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置_第4张图片

sudo apt-get install docker-ce=<VERSION_STRING> docker-ce-cli=<VERSION_STRING> containerd.io

其中自行选择,例如可选择5:20.10.6~3-0~ubuntu-bionic

验证 Docker 引擎是否正确安装

sudo docker run hello-world

Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置_第5张图片

出现此页面,说明安装成功

2.2 docker后安装

为了每次运行不用都加sudo,可以添加用户组:

sudo groupadd docker

返回:groupadd: group 'docker' already exists

将用户添加到组里,$USER要换成自己的用户名:

sudo usermod -aG docker $USER

注销并重新登录,以便重新评估其组成员资格:

newgrp docker 

然后运行

docker version
docker run hello-world

结果与sudo docker run hello-world一致

4. Nvidia-docker安装

4.1 Nvidia Docker Image拉取

官方链接:https://hub.docker.com/r/nvidia/cuda/tags?page=1&ordering=last_updated

按照自己的需要选取所需要的镜像,之后拉取下来

例选择cuda10.2版本

docker pull nvidia/cuda:10.2-base-ubuntu18.04

4.2 配置NVIDIA Container Toolkit

官方教程:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker

设置存储库和 GPG 密钥:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
   && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

可能出现两个问题:

gpg: 找不到有效的 OpenPGP (源于指令:curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -)

E: 无法定位软件包 nvidia-docker2 (源于指令:curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list)

需要把ip地址写入host文件中

sudo vi /etc/hosts

复制以下ip到host中

185.199.108.153 nvidia.github.io
185.199.109.153 nvidia.github.io
185.199.110.153 nvidia.github.io
185.199.111.153 nvidia.github.io

重复官方代码即可

之后更新包列表后安装nvidia-docker2

sudo apt-get update
sudo apt-get install -y nvidia-docker2

在设置默认运行时间后重新启动 Docker daemon 以完成安装:

sudo systemctl restart docker

之后可以通过运行基础 CUDA 容器来测试:

sudo docker run --rm --gpus all nvidia/cuda:10.2-base-ubuntu18.04 nvidia-smi

注:

  • all后面的参数要换成自己pull下来的Image的名字,nvidia/cuda:10.2-base-ubuntu18.04只是范例
  • 完成docker后安装后,可不加sudo

Ubuntu18.04/16.04+RTX2080Ti+docker的深度学习环境配置_第6张图片

出现此页面说明安装成功

5. docker使用

拉取镜像,配置深度学习环境

具体docker使用参考Docker使用介绍

你可能感兴趣的:(Docker,Linux,docker,ubuntu,linux,深度学习)