Debian11 | 安装NVIDIA机器学习环境

Debian11 | 安装NVIDIA机器学习环境

1. 下载驱动

查看显卡信息

  • lspci查看PCI硬件信息
  • lspci -v -s 01:00.0查看详情

lspci -v -s 01:00.0

01:00.0 VGA compatible controller: NVIDIA Corporation TU116 [GeForce GTX 1660 SUPER] (rev a1) (prog-if 00 [VGA controller])
    	Subsystem: Device 7377:2000
    	Flags: bus master, fast devsel, latency 0, IRQ 162, IOMMU group 13
    	Memory at 82000000 (32-bit, non-prefetchable) [size=16M]
    	Memory at 4000000000 (64-bit, prefetchable) [size=256M]
    	Memory at 4010000000 (64-bit, prefetchable) [size=32M]
    	I/O ports at 6000 [size=128]
    	Expansion ROM at 83000000 [disabled] [size=512K]
    	Capabilities: 
    	Kernel driver in use: nouveau
    	Kernel modules: nouveau

注意

输出末尾,显示驱动不是Nvidia官方的驱动

    	Kernel driver in use: nouveau
    	Kernel modules: nouveau

如果安装是官方驱动显示应该如下

	Kernel driver in use: nvidia
	Kernel modules: nvidia

下载驱动

NVIDIA 驱动程序下载

2. 安装驱动

禁用nouveau驱动

如果不禁用默认的驱动,NVIDIA安装会提示错误

sudo echo 'blacklist nouveau
options nouveau modeset=0' >> /etc/modprobe.d/blacklist-nouveau.conf

sudo update-initramfs -u
sudo reboot

安装驱动

注意:替换驱动名

sudo apt update
sudo apt install linux-headers-`uname -r`
sudo bash NVIDIA-Linux-x86_64-515.65.01.run
sudo reboot

查看安装

当前CUDA版本可能不是你希望的,安装下面的CUDA Toolkit,CUDA会被替换成你想要的版本

nvidia-smi

每秒刷新显示:watch -n 1 nvidia-smi
如果watch提示不存在:sudo apt install -y watch

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.65.01    Driver Version: 515.65.01    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  Off  | 00000000:01:00.0  On |                  N/A |
| 44%   34C    P8    19W / 125W |     90MiB /  6144MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1540      G   /usr/lib/xorg/Xorg                 36MiB |
|    0   N/A  N/A      1654      G   /usr/bin/gnome-shell               51MiB |
+-----------------------------------------------------------------------------+

3. 安装CUDA Toolkit

注意!
注意!
注意!
安装自己需要版本!

安装方法

CUDA Toolkit Archive

注意

因为上面显卡安装的驱动是最新版本的CUDA,而Toolkit是你指定版本,可能安装完过后,CUDA Toolkit与显卡CUDA驱动版本不一致,使用nvidia-smi会出现提示版本不匹配错误。

这时sudo reboot重启电脑,重启完成过后,nvidia-smi显示的CUDA版本就是CUDA Toolkit版本。

4. 安装cuDNN

注意!

  1. 需要登录才能下载
  2. 下载时不要选xxx.deb包,选择xxx.tar.zx,dep容易碰到问题

直接官方cuDNN安装部分:Installation Guide-官方

5. 附加资料

  • 卸载驱动
  • NVIDIA Cloud Native Documentation
  • nvidia Docker镜像

6. 参考

  • Installation Guide-官方
  • 「Debian」- 禁用Nouveau驱动 @20210315

你可能感兴趣的:(Python,python,人工智能)