TensorFlow2.0系列教程之0:Docker GPU版本安装

鉴于目前官方提倡我们在Docker中运行TensorFlow,并且现在Docker版本也已经有了GPU的支持,安装也相对简单,于是此文就介绍Docker版的安装方式。

安装显卡驱动

首先,我们要去安装显卡驱动NVIDIA® GPU drivers ,CUDA 10.0 requires 410.x or higher.

公司解散后,我把训练模型的4卡并联的机器留下来了,用的是当年性价比最高的GPU——GTX 1080TI:

1.png

你选择自己的GPU型号,点击Search,然后下载对应的驱动程序。

wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/430.50/NVIDIA-Linux-x86_64-430.50.run

先别急着安装,因为没做前置工作会带来各种失败。

在安装这个之前,我们还需要几个准备工作:

安装gcc

如果你的系统没装gcc的话,需要先安装,安装方式如下:

sudo apt install build-essential

上面的语句会安装build-essential包,该命令将安装一组新的包,包括gcc、g++和make。

你也可以安装使用GNU/Linux进行开发的手册页:

sudo apt-get install manpages-dev

要验证GCC编译器是否成功安装,可以使用gcc --version命令,该命令将打印GCC版本。

禁用 nouveau 驱动

(nouveau 就是linux 下的一个兼容性很好,但是功能不怎样的显卡驱动)

将其加入到黑名单,运行sudo vim /etc/modprobe.d/blacklist.conf,在文件末尾添加以下几行:

blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist rivatv
blacklist nvidiafb 

关闭 X server

X server 就是图形接口服务器

使用以下语句关闭

sudo service lightdm stop

如果提示unit lightdm.service not loaded,那就先安装它:

sudo apt install lightdm

安装完毕后跳出一个界面,选择lightdm,再sudo service lightdm stop,如果选择了gdm,那就运行sudo /etc/init.d/gdm stop

安装驱动

sudo chmod a+x NVIDIA-Linux-x86_64-430.50.run
sudo NVIDIA-Linux-x86_64-430.50.run

重启电脑,输入

nvidia-smi

如果看到各个显卡的信息,就说明安装成功了

2.png

安装Docker Engine

如果你的电脑还没装Docker Engine的话,让我们先安装它。

如果你安装了旧版的Docker,可以先卸载它:

sudo apt-get remove docker docker-engine docker.io containerd runc

然我我们根据官方教程安装Docker Engine - Community。

这里咱使用存储库安装的方式。

设置存储库

1.更新apt包索引:

sudo apt-get update

2.安装软件包以允许apt通过HTTPS使用存储库:

sudo apt-get install \
    apt-transport-https \
    ca-certificates \
    curl \
    gnupg-agent \
    software-properties-common

3.添加Docker的官方GPG密钥:

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

9DC8 5822 9FC7 DD38 854A E2D8 8D81 803C 0EBF CD88通过搜索指纹的后8个字符,验证您现在是否拥有带有指纹的密钥 。

sudo apt-key fingerprint 0EBFCD88

4.使用以下命令来设置稳定的存储库

sudo add-apt-repository \
   "deb [arch=amd64] https://download.docker.com/linux/ubuntu \
   $(lsb_release -cs) \
   stable"

安装Docker Engine 社区版

装这个鬼东西建议翻墙...不然死慢死慢的......

sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io

通过运行hello-world来验证是否正确安装:

这个命令可能需要设置国内镜像...不然..很可能没法连接..

 sudo docker run hello-world

此命令下载测试图像并在容器中运行。容器运行时,它会打印参考消息并退出。

3.png

安装 nvidia-docker

nvidia-docker 仅适用于 Linux

检查GPU是否可用

lspci | grep -i nvidia
4.png

安装nvidia-docker

sudo apt-get install -y nvidia-docker2
sudo systemctl daemon-reload
sudo systemctl restart docker

验证 nvidia-docker 安装:

sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

这个地方可能会有一个很坑爹报错:docker: Error response from daemon: Unknown runtime specified nvidia.因为我一开始是按照github上的方法安装nvidia-docker的,后来改用apt来装就好了,如果还有问题,

可以重新写了下/etc/docker/daemon.json文件,我是这么写的:

{
  "registry-mirrors": [
    "https://dockerhub.azk8s.cn",
    "https://reg-mirror.qiniu.com"
  ],
  "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
         }  
    }
}

下载并运行支持 GPU 的 TensorFlow 映像

sudo docker run -it --rm --runtime=nvidia tensorflow/tensorflow:latest-gpu-py3 python

设置支持 GPU 的映像可能需要一段时间。如果重复运行基于 GPU 的脚本,您可以使用 docker exec 重用容器。

使用最新的 TensorFlow GPU 映像在容器中启动 bash shell 会话:

 sudo docker run -it tensorflow/tensorflow:latest-gpu-py3 bash
5.png

ok,到这里大功告成了。

可以进入python环境试一下:

import tensorflow as tf
print(tf.reduce_sum(tf.random_normal([1000, 1000])))

你可能感兴趣的:(TensorFlow2.0系列教程之0:Docker GPU版本安装)