Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程

系统环境:
centos7.7
两块GeForce RTX 2080 TI
流程来源
Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程_第1张图片

1、安装docker(19.03.8)

(1)、Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。
通过 uname -r 命令查看你当前的内核版本

$ uname -r

(2)、使用 root 权限登录 Centos。确保 yum 包更新到最新。

$ sudo yum update

(3)、卸载旧版本(如果安装过旧版本的话)

$ sudo yum remove docker docker-common docker-selinux docker-engine

注意:这里如果无法安装,如果有其他版本docker存在的话,上面的命令无法全部卸载旧版本,需要手动删除
搜索已经安装的docker安装包

yum list installed | grep docker

分别删除安装包即可

yum -y remove docker docker-ce-cli.x86_64

(4)、安装需要的软件包, yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的

$ sudo yum install -y yum-utils device-mapper-persistent-data lvm2

(5)、设置yum源

$ sudo yum-config-manager --add-repo
https://download.docker.com/linux/centos/docker-ce.repo

(6)、可以查看所有仓库中所有docker版本,并选择特定版本安装

$ yum list docker-ce --showduplicates | sort -r
Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程_第2张图片
(7)、安装docker

$ sudo yum install docker-ce #由于repo中默认只开启stable仓库,故这里安装的是最新稳定版19.03.8
$ sudo yum install # 例如:sudo yum install
docker-ce-18.06.0.ce,可以安装特定版本

(8)、启动并加入开机启动

$ sudo systemctl start docker $ sudo systemctl enable docker

(9)、验证安装是否成功(有client和service两部分表示docker安装启动都成功了)

$ docker version
Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程_第3张图片

2、docker安装问题

如果出现问题,上官网进行搜索答案

3、安装nvidia-docker

必须先安装docker-ce才行,这里安装方法参考nvidia-docker GitHub官网(https://github.com/NVIDIA/nvidia-docker#quick-start)
(1)、如果有旧版,先移除旧版

$ docker volume ls -q -f driver=nvidia-docker | xargs -r -I{} -n1
docker ps -q -a -f volume={} | xargs -r docker rm -f sudo yum remove nvidia-docker

(2)、加入repositories

distribution=$(. /etc/os-release;echo I D ID IDVERSION_ID) curl -s -L
https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo

(3)、安装nvidia-container-toolkit,不是nvidia-docker2,因为被Deprecated了

sudo yum install -y nvidia-container-toolkit
sudo systemctl restart docker

(4)、测试

docker run --runtime=nvidia --rm nvidia/cuda:9.0-base nvidia-smi

输出以下页面:表明nvidia-docker安装成功
Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程_第4张图片
默认的docker需要sudo权限才能运行,为了让当前用户可以运行docker,需要把当前用户加到docker组里:

sudo groupadd docker

确认环境遍历 U S E R 是 否 正 确 , 如 果 不 对 需 要 设 置 正 确 或 者 执 行 下 面 的 命 令 时 把 USER是否正确,如果不对需要设置正确或者执行下面的命令时把 USERUSER替换成当前的用户名。

echo $USER
sudo usermod -aG docker $USER

然后需要退出再重新登录,对于ssh远程登录来说退出后再次ssh登进去就可以了。但是如果是直接在本机登录,那么需要重启后才能生效,这比较麻烦,如果不想重启,可以这样:
#执行下面的命令确保当前用户在docker组里,如果不在,需要退出重新登录或者使用下面的su命令。

groups

把lili改成你的文件名

sudo su - lili

注意:至此是没有安装完毕的,少了一个模块没有安装和配置,后面会报错,后面看到错误了再安装即可
有任何问题上nvidia-docker官网找答案

4、服务具体安装步骤

tensorflow/serving的镜像有很多种,这里使用GPU版本的即可
Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程_第5张图片
注意看tensorflow的官方网站对于镜像的描述
Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程_第6张图片
tensorflow/serving具体安装步骤:
1、拉取带Tensorflow Serving的docker镜像,这样我们服务器上就有了一个安装了ModelServer的docker容器,这个容器就可以看做一台虚拟机,这个虚拟机上已经安装好了Tensorflow Serving,环境有了,就可以用它来部署我们的模型了。注意这个拉取下来后不是直接放在当前目录的,而是docker默认存储的路径,这个是docker容器,和第2步clone下来的不是同一个东西
#版本号可以在后面进行修改,这里我们使用GPU版本的

$docker pull tensorflow/serving:latest-gpu

#镜像拉取会慢一点,大概2个多G
拉取完毕后:
在这里插入图片描述
2、获取例子模型(当然,也可以直接用上面容器中自带的例子),当然这里是直接拉取了tensorflow serving的源码,源码中有一些训练好的例子模型

$cd /root/software
$git clone https://github.com/tensorflow/serving

3、用第一步拉取的docker容器运行例子模型
第2步中clone下来的serving源码中有这样一个训练好的例子模型,路径为:

/root/software/serving/tensorflow_serving/servables/tensorflow/testdata/saved_model_half_plus_two_gpu

现在我们就要用第1步拉下来的docker容器来运行部署这个例子模型(CPU版本的)

$docker run -p 8501:8501 \ --mount type=bind,
source=/root/software/serving/tensorflow_serving/serevables/tensorflow/testdata/saved_model_half_plus_two_cpu,
target=/models/half_plus_two \ -e MODEL_NAME=half_plus_two \ -t tensorflow/serving &

参数说明:
–mount:表示要进行挂载 source:指定要运行部署的模型地址,也就是挂载的源,这个是在宿主机上的模型目录 target:这个是要挂载的目标位置,也就是挂载到docker容器中的哪个位置,这是docker容器中的目录 -t:指定的是挂载到哪个容器 -p:指定主机到docker容器中的端口映射 docker run:启动这个容器并启动模型服务(这里是如何同时启动容器中的模型服务的还是不太清楚) 综合解释: 将source目录中的例子模型,挂载到-t指定的docker容器中的target目录,并启动。
这步注意,如果执行报错无法识别type=bind,那应该是source的路径有问题。
注意GPU版本的部署代码为:

docker run --runtime=nvidia -p 8501:8501 \
–mount
type=bind,source=/root/serving_model/serving/tensorflow_serving/servables/tensorflow/testdata/saved_model_half_plus_two_gpu,\ target=/models/half_plus_two -e MODEL_NAME=half_plus_two -t tensorflow/serving:latest-gpu &

这里要注意:type=bind,source=/root,target=/models中间不能有空格,一定不能有空格!
nvidia-docker中的问题会在这里出现:docker:Error response from daemon: Unknown runtime specified nvidia,github原始问题,解决方法
原因是:nvidia-docker没有注册:
(1)、安装nvidia-container-runtime

yum install nvidia-container-runtime

(2)、注册即可(配置英伟达运行时)

sudo mkdir -p /etc/systemd/system/docker.service.d
sudo tee /etc/systemd/system/docker.service.d/override.conf <<EOF
[Service]
ExecStart=
ExecStart=/usr/bin/dockerd --host=fd:// --add-runtime=nvidia=/usr/bin/nvidia-container-runtime
EOF
sudo systemctl daemon-reload
sudo systemctl restart docker

再输入以下配置即可

sudo tee /etc/docker/daemon.json <<EOF
{
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}
EOF
sudo pkill -SIGHUP dockerd

至此,再次运行上述启动代码开启镜像,会显示以下页面内容:
Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程_第7张图片
在这里插入图片描述
这里成功开启8501端口
4、调用这个服务,这里用的是http接口
$curl -d ‘{“instances”:[1.0, 2.0, 5.0]}’ \ -X POST http://localhost:8501/v1/models/half_plus_two:predict
得到的结果如下:
在这里插入图片描述
这就表明服务已经部署成功了,并且成功调用nvidia GPU环境了,当然你也可以用requests模块来模拟http请求

你可能感兴趣的:(Centos7上使用docker nvidia-docker部署tensorflow/serving项目流程)