根据显卡型号去NVIDIA官网下载驱动,官网链接https://www.nvidia.com/Download/index.aspx?lang=en-us
通过型号查找最新可用驱动程序版本,一定要装最新或者比较新的,这里选择的是460.84版本
下载之后上传到服务器
安装之前先清除可能存在的旧版本NVIDIA驱动(对没有安装过 NVIDIA驱动的主机,这步可以省略):
$sudo apt-get remove --purge nvidia*
安装驱动可能需要的依赖(可选)
$sudo apt-get update
把 nouveau 驱动加入黑名单
$sudo vim /etc/modprobe.d/blacklist-nouveau.conf
在文件 blacklist-nouveau.conf 中加入如下内容:
blacklist nouveau
options nouveau modeset=0
禁用 nouveau 内核模块
$sudo update-initramfs -u
如果禁用nouveau不成功可以参考这篇博客方法:https://blog.csdn.net/max_loo/article/details/81304949
之后进行重启
$sudo reboot
重启后再次进入命令行
lsmod | grep nouveau #没有输出,即说明安装成
关闭图形界面
$sudo service lightdm stop
然后在驱动安装包的同目录下安装;
$sudo chmod u+x NVIDIA-Linux-x86_64-460.84.run
$sudo ./NVIDIA-Linux-x86_64-418.56.run –no-x-check –no-nouveau-check –no-opengl-files
–no-opengl-files 只安装驱动文件,不安装OpenGL文件。这个参数最重要,不加会出现登录界面循环重启
–no-x-check 安装驱动时不检查X服务
–no-nouveau-check 安装驱动时不检查nouveau
之后检查是否安装成功:
nvidia-smi
若出现下图则成功:
官方教程:Install Docker Engine on Ubuntu | Docker Documentation
更新apt工具包
sudo apt-get update
sudo apt-get install \
apt-transport-https \
ca-certificates \
curl \
gnupg \
lsb-release
添加docker官方密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
会出来一个warning,不用管:
gpg: WARNING: unsafe ownership on homedir '/home/user/.gnupg'
配置稳定版仓库(这里需要根据系统架构选,不过大部分主机都是x86_64/amd64的)
echo \
"deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu \
$(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
然后再更新一下apt工具包,安装最新版本的Docker Engine and containerd,也可以安装指定版本
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io
如果需要安装指定版本,列出可用版本,然后选择并安装:
apt-cache madison docker-ce
sudo apt-get install docker-ce=<VERSION_STRING> docker-ce-cli=<VERSION_STRING> containerd.io
其中5:20.10.6~3-0~ubuntu-bionic
验证 Docker 引擎是否正确安装
sudo docker run hello-world
出现此页面,说明安装成功
为了每次运行不用都加sudo,可以添加用户组:
sudo groupadd docker
返回:groupadd: group 'docker' already exists
将用户添加到组里,$USER要换成自己的用户名:
sudo usermod -aG docker $USER
注销并重新登录,以便重新评估其组成员资格:
newgrp docker
然后运行
docker version
docker run hello-world
结果与sudo docker run hello-world
一致
官方链接:https://hub.docker.com/r/nvidia/cuda/tags?page=1&ordering=last_updated
按照自己的需要选取所需要的镜像,之后拉取下来
例选择cuda10.2
版本
docker pull nvidia/cuda:10.2-base-ubuntu18.04
官方教程:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker
设置存储库和 GPG 密钥:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
&& curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
&& curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
可能出现两个问题:
gpg: 找不到有效的 OpenPGP (源于指令:curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -)
E: 无法定位软件包 nvidia-docker2 (源于指令:curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list)
需要把ip地址写入host文件中
sudo vi /etc/hosts
复制以下ip到host中
185.199.108.153 nvidia.github.io
185.199.109.153 nvidia.github.io
185.199.110.153 nvidia.github.io
185.199.111.153 nvidia.github.io
重复官方代码即可
之后更新包列表后安装nvidia-docker2
sudo apt-get update
sudo apt-get install -y nvidia-docker2
在设置默认运行时间后重新启动 Docker daemon 以完成安装:
sudo systemctl restart docker
之后可以通过运行基础 CUDA 容器来测试:
sudo docker run --rm --gpus all nvidia/cuda:10.2-base-ubuntu18.04 nvidia-smi
注:
nvidia/cuda:10.2-base-ubuntu18.04
只是范例出现此页面说明安装成功
拉取镜像,配置深度学习环境
具体docker使用参考Docker使用介绍