kubernetes调度gpu

# kubectl exec -it <容器名> /bin/bash
kubernetes调度gpu_第1张图片

# mnist测试结果

一、环境介绍:阿里云新购4台vps(新加坡区),其中一台带GPU显卡

二、GPU驱动安装

kubernetes调度gpu_第2张图片

  wget http://cn.download.nvidia.com/tesla/384.66/nvidia-diag-driver-local-repo-ubuntu1604-384.66_1.0-1_amd64.deb
# 注意dpkg安装后,需要导入密钥
kubernetes调度gpu_第3张图片

三、GPU node安装nvidia-docker

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | apt-key add -

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) 

curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | tee /etc/apt/sources.list.d/nvidia-docker.list

apt-get update
	
apt-get install -y nvidia-docker2

pkill -SIGHUP dockerd

四、修改/etc/docker/daemon.json

kubernetes调度gpu_第4张图片

五、GPU node增加kubelet启动参数

--feature-gates=DevicePlugins=true

六、GPU node重启kubelet

systemctl daemon-reload

systemctl restart kubelet

七、开启GPU支持

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v1.9/nvidia-device-plugin.yml

八、GPU node打label

kubectl label nodes node4 accelerator=nvidia-tesla-p100

九、测试

kubernetes调度gpu_第5张图片



你可能感兴趣的:(DevOps)