ubuntu18.04安装tensorflow 的docker-华为MagicBook Pro

文章的内容基本是参考TensorFlow官网https://www.tensorflow.org/install/docker上的指南来做的,甚至很多语句都是这上面的原句子。

Docker 使用容器创建虚拟环境,以便将 TensorFlow 安装结果与系统的其余部分隔离开来。TensorFlow 程序在此虚拟环境中运行,该环境能够与其主机共享资源(访问目录、使用 GPU、连接到互联网等)。TensorFlow官网会针对每个版本测试 TensorFlow Docker 映像。

Docker 是在 Linux 上启用 TensorFlow GPU 支持的最简单方法,因为只需在主机上安装 NVIDIA® GPU 驱动程序,而不必安装 NVIDIA® CUDA® 工具包。

TensorFlow Docker 要求:

  1. 在本地主机上安装 Docker。
  2. 要在 Linux 上启用 GPU 支持,请安装 NVIDIA Docker 支持。
    • 请通过 docker -v 检查 Docker 版本。对于 19.03 之前的版本,您需要使用 nvidia-docker2 和 --runtime=nvidia 标记;对于 19.03 及之后的版本,您将需要使用 nvidia-container-toolkit 软件包和 --gpus all 标记。这两个选项都记录在上面链接的网页上。

在本地主机上安装 Docker

参见ubuntu16.04安装Docker-华为荣耀MagicBook Pro,我在ubuntu18.04上也是同样的安装过程。

启用GPU支持

Docker 是在 GPU 上运行 TensorFlow 的最简单方法,因为主机只需安装 NVIDIA® 驱动程序,而不必安装 NVIDIA® CUDA® 工具包。

安装NVIDIA驱动程序

我在ubuntu18.04安装CUDA、cuDNN-华为MagicBook Pro中完成了这一个工作。

安装 Nvidia 容器工具包以向 Docker 添加 NVIDIA® GPU 支持

步骤参考了 Nvidia 容器工具包页面的指南。我是在自己的电脑上第一次使用Docker 19.03和GPU,采用的是如下的安装过程。

# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

sudo apt update的时候出现了如下错误:

Err:5 https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu1804/x86_64  InRelease
  Clearsigned file isn't valid, got 'NOSPLIT' (does the network require authentication?)
Reading package lists... Done
E: Failed to fetch http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/InRelease  Clearsigned file isn't valid, got 'NOSPLIT' (does the network require authentication?)
E: The repository 'http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease' is no longer signed.
N: Updating from such a repository can't be done securely, and is therefore disabled by default.
N: See apt-secure(8) manpage for repository creation and user configuration details.

我没有管它

检查GPU是否可用

    lspci | grep -i nvidia
    

输出内容为

02:00.0 3D controller: NVIDIA Corporation Device 1d13 (rev a1)

应该是可用的意思吧。

验证 nvidia-docker 安装效果

docker run --gpus all --rm nvidia/cuda:10.0-base nvidia-smi

通过这个验证我发现nvidia-smi命令中显示的CUDA Version为10.2,但是使用cat /usr/local/cuda/version.txtcat /usr/local/cuda-10.0/version.txt显示为CUDA Version 10.0.130。奇怪。

启动 TensorFlow Docker 容器

要启动配置 TensorFlow 的容器,请使用以下命令格式:

docker run [-it] [--rm] [-p hostPort:containerPort] tensorflow/tensorflow[:tag] [command]

有关详情,请参阅 Docker 运行参考文档。
下面是我下载并使用运行支持GPU的TensorFlow的过程

下载 TensorFlow Docker 映像

从网站https://hub.docker.com/r/tensorflow/tensorflow/tags上下载自己需要的版本的镜像,比如,我需要的是1.10.0版本、支持GPU、支持python3的镜像,那么我下载的镜像的tag是1.10.0-gpu-py3,下载命令为:

docker pull tensorflow/tensorflow:1.10.0-gpu-py3

运行镜像

docker run --gpus all -it --rm tensorflow/tensorflow:1.10.0-gpu-py3 python -c "import tensorflow as tf; print(tf.reduce_sum(tf.random_uniform([1000, 1000])))"

输出为

Tensor("Sum:0", shape=(), dtype=float32)

应该表示运行成功。

至此结束。

你可能感兴趣的:(ubuntu18.04安装tensorflow 的docker-华为MagicBook Pro)