使用Docker打包Tensorflow项目（GPU）

前言

相信大家都会遇到这个问题，无论是Coder还是Researcher，希望打包和发布自己的深度学习项目，可能学过Python的人都知道可以用py2exe、pyinstaller等等打包工具（将py文件转换成exe格式，使其能在没有安装python的windows系统上运行），但是对于深度学习框架Tensorflow和Cuda环境就不行了，那么这些深度学习项目一般是怎么开发的呢？在windows上的话一般是用VS编译Tensorflow c++版本然后进行开发,（可以参考如何用C++在TensorFlow中训练深度神经网络），Android也有相应的版本。另外，如果是在线部署Tensorflow项目的话请参考Tensorflow serving。

但是如果我们的项目本来就是在Tensorflow框架上进行训练的，又不想进行二次开发，想要使我们的项目能在没有安装Tensorflow的系统上运行，那么Docker也许能满足我们的需求。

Docker介绍

Docker原本是一个开源的项目，可以让应用部署在Docker上自动运行，相当于建立一个容器（Container），功能类似于虚拟机，作用类似于一艘大船上的集装箱，每个集装箱之间互不影响（引自知乎如何通俗解释Docker是什么？），而且开销比虚拟机小。后来Docker公司讲这个开源项目改名Moby，意味着Docker这个软件就属于Docker公司的了（有兴趣了解的，对于 Docker 改名 Moby ，大家怎么看?）。

官方的Docker示意图

Docker使用

既然Docker这么好，我们就学学怎么用：
B站有Docker的教程，很不错，有兴趣的可以去看看Docker入坑教程。
那么这里主要介绍如何安装，首先我们跟着官方的手册来安装:
这里以Ubuntu 16.04为例：

更新apt包

$ sudo apt-get update

安装需要用到的工具

$ sudo apt-get install \
    apt-transport-https \
    ca-certificates \
    curl \
    software-properties-common

添加Docker的官方GPG key：

$ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

添加Docker仓库

$ sudo add-apt-repository \
   "deb [arch=amd64] https://download.docker.com/linux/ubuntu \
   $(lsb_release -cs) \
   stable"

接下来就是安装Docker，安装前要更新apt包：

$ sudo apt-get update

$ sudo apt-get install docker-ce

测试是否安装成功：

$ sudo docker run hello-world

如果出现以下问题：

docker: Error response from daemon: Get https://registry-1.docker.io/v2/library/hello-world/manifests/latest: Get https://auth.docker.io/token?scope=repository%3Alibrary%2Fhello-world%3Apull&service=registry.docker.io: net/http: TLS handshake timeout.

需要修改HTTP_PROXY：

$ sudo vim /etc/default/docker

然后注释export这一句：

# If you need Docker to use an HTTP proxy, it can also be specified here.
export http_proxy="http://127.0.0.1:3128/"

重新测试一下就没问题了。这里有个问题需要注意一下，我们执行Docker都是以root权限（原因是docker进程绑定的是Unix socket而不是TCP端口），那么为了方便呢，我们还要设置一下，创建一个用户组docker，权限跟root一样，然后让我的用户加入这个组里。但是这么做存在一些风险（Docker daemon attack surface）

创建docker组：

$ sudo groupadd docker

让当前用户加入组：

$ sudo usermod -aG docker $USER

*然后要先注销账户，或者重启。修改docker组的权限：

$ sudo chown "$USER":"$USER" /home/"$USER"/.docker -R
$ sudo chmod g+rwx "/home/$USER/.docker" -R

安装nvidia-docker

因为希望我们的Docker是可以用GPU的，所以还需要安装nvidia-docker。

添加nvidia-docker的仓库：

$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -

$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-docker.list

更新apt包：

$ sudo apt-get update

安装nvidia-docker2:

$ sudo apt-get install -y nvidia-docker2

$ sudo pkill -SIGHUP dockerd

Docker安装Tensorflow

你可以在Docker官网上挑选自己想安装的tensorflow版本（Tensorflow镜像）
也可以之间安装最新的tensorflow镜像：

$ nvidia-docker run -it tensorflow/tensorflow:latest-gpu bash

如果你是使用Jupyter来开发你的项目的，可以修改hostPort和containerPort：

$ nvidia-docker run -it -p 8888:8888 tensorflow/tensorflow:latest-gpu

开发项目

在加载了Tensorflow的镜像后，就可以开始在Docker上进行训练模型了。
但是如果我们不仅仅需要Tensorflow一个深度学习框架怎么办，比如我们还需要用到Caffe、Torch，我在安装Torch的时候，就出现很多cuda依赖和莫名其妙的错误。我尝试找了一下，github上就有人制作了集合所有常见的深度学习框架的镜像，感谢分享https://github.com/ufoym/deepo。

当我们训练好我们的深度学习模型，准备发布版本的时候，就需要打包我们整个工程的Docker镜像。
首先我们去Docker Hub注册帐号，相当于云盘一样，注册好了就创建一个仓库，然后在本地构建Docker镜像后上传到仓库。

显示目前docker容器的ID

$ docker ps -l

找到CONTAINER ID

构建Docker镜像

$ docker commit 容器ID 用户名/仓库名

这就已经保存为本地的Docker镜像了。

查看已保存的镜像文件

$ docker images

上传Docker镜像

$ docker push 用户名/仓库名

这时系统会提示你登陆帐号，登陆成功后就会上传到仓库。
这时整个流程就结束了，你可以分享给其他人，或者在其他电脑用Docker运行这个镜像就可以了。

PS：本文是我记录学习过程的笔记，其中难免会有纰漏，希望各位朋友指正。如果有帮助到你，like一下，我们互相交流，互相进步。Life is awesome!