安装 nvidia 驱动是一个很坑的问题。至少对于我来说,按照 nvidia 官网的方式下载 .run 文件安装从来没成功过。最后我搜了内外网,找到了本文即将介绍的安装方式,很好用!
安装 nvidia 驱动
- 添加 nvidia repository
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
- 选择驱动版本并安装
ubuntu-drivers devices
显示可用的驱动版本,例如:
driver : nvidia-410 - third-party free
driver : nvidia-415 - third-party free
driver : nvidia-418 - third-party free
driver : nvidia-384 - distro non-free
driver : nvidia-430 - third-party free recommended
driver : xserver-xorg-video-nouveau - distro free builtin
如果要安装 410 版本,就用如下命令
sudo apt install nvidia-410
也可以选择 415, 418 等其他驱动版本。
上边显示的驱动可能会有变化,例如这样(中间多了 "driver" 字样)
driver : nvidia-driver-410 - third-party free
driver : nvidia-driver-415 - third-party free
driver : nvidia-driver-440 - third-party free recommended
driver : nvidia-driver-430 - third-party free
driver : nvidia-driver-390 - third-party free
driver : nvidia-driver-435 - third-party free
driver : xserver-xorg-video-nouveau - distro free builtin
依然安装对应的驱动,例如
sudo apt install nvidia-driver-410
注意:如果在 BIOS 中将 secure boot 设置为 on,在上述安装过程中可能出现设置 secure boot 密码的相关提示。如果在安全性方面要求不是很苛刻,可以考虑将 secure boot 设置为 off.
- 重启,然后看看系统设置中的附加驱动中是否添加了 nvidia 的驱动,如下
也可以通过用如下命令查看
nvidia-smi
其中 smi = System Management Interface。 如果安装成功,上述命令应该会显示驱动版本号 410。
如果重启之后运行 “nvidia-smi” 时出现如下错误:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
一种可能的解决方法是在上述 "Software & Updates" 界面中选择其他驱动版本,尤其是较新的版本,Apply changes 之后重启,可能解决问题。
如果上述方式安装失败,可以参考这篇文章,尝试其他的安装方法。也可以参考这篇文章 中的安装方式。
安装 cuda
安装 cuda 是为了加速训练神经网络。首先去下边的网站确定一下本机 NVIDIA 显卡类型是否支持 cuda
https://developer.nvidia.com/cuda-gpus
只要不是太古老的 NVIDIA 显卡一般都支持 cuda。
如果训练中用到了 tensorflow,应该确认一下 cuda 版本与 tensorflow 版本的兼容性问题。有些程序指定要用某个版本的 tensorflow,那么就应该安装与之兼容的 cuda 版本。
如果装了 cuda 10 ,但是训练程序使用 tensorflow 1.11,版本不匹配,运行程序时会提示类似如下的错误:
ImportError: libcublas.so.9.0: cannot open shared object file
版本对应关系可以在这里查询。
PyTorch 的版本与 cuda 版本也有对应关系,在 PyTorch 主页 可以下载与 cuda 对应的版本,如果要下载更旧的版本,可以在这里 和 这里查找。
说到版本对应关系,cuda 对 nvidia GPU 驱动也是有最低版本要求的,可以查看这里。
确定要安装的 cuda 版本之后,按照 官网步骤安装即可。
例如,我选择的是 cuda 10.0
安装完了还需要检查一下是否成功。用如下命令:
nvcc -V
应该会显示 cuda compiler 版本,这样就说明 cuda 安装成功了。但是,有时候上述命令会提示找不到 nvcc,一个原因可能是确实没装好,但是也有可能cuda 装好了,但是 nvcc 所在路径没有加入系统路径中,所以系统找不到 nvcc 。
如果cuda 安装好了, nvcc 程序应该在路径 /usr/local/cuda/bin 中,可以直接在该路径下执行
./nvcc -V
也可以把 nvcc 加入系统路径中,例如在 .bashrc 文件最后加一句
export PATH=$PATH:/usr/local/cuda/bin
安装 cudnn
这一部分也是按照官网的指导安装即可 https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html。
比较麻烦的一点是,需要先注册才能下载 cudnn 安装文件。
选择安装文件版本的时候,要与 cuda 版本匹配,就是上边 nvcc -V
显示的版本。注意,不是nvidia-smi
中显示的 cuda 版本。这两个版本可能是不一致的,以 nvcc 为准。
如果
nvcc -V
和nvidia-smi
显示的版本不一致,可能的原因可以参考这里: https://www.nuomiphp.com/eplan/en/163997.html
简单来说, cuda 有两类 API:cuda driver API 和 cuda runtime API。在安装 nvidia 驱动时,附带安装了 driver API,nvidia-smi
显示的是 driver API 版本;在安装 cuda 时安装了 runtime API,nvcc -V
显示的时 runtime API 版本。一般基于 cuda 开发的程序都是考虑 runtime API 版本,也就是nvcc -V
显示的版本。
然后就是安装,我的机子是 ubuntu 16.04,所以就选了如下三个文件
下载之后安装三个文件
sudo dpkg -i libcudnn*.deb
然后验证是否安装成功
cp -r /usr/src/cudnn_samples_*/ $HOME
cd $HOME/cudnn_samples_*/mnistCUDNN
make clean && make
./mnistCUDNN
如果一切顺利,尤其是版本匹配没有问题,应该会提示 "......Test passed!”
如果编译过程中提示没有头文件 FreeImage,通过如下方式安装:
sudo apt-get install libfreeimage3 libfreeimage-dev
对于有些 test 不通过的情况,重启一下机子可能就解决问题了。