Ubuntu安装CUDA Toolkit

参考NVIDIA官网提供的安装说明,并结合自己多次尝试后的安装经验,完成了本文,希望能为大家提供便捷。
总体来看,在Linux操作系统上,不同版本安装方式基本一致,本教程适用于v10.2以前的CUDA Toolkit在各个Linux发行版本的.run文件安装。

准备工作

  1. 确定你有支持CUDA的NVIDIA GPU

    $ lspci | grep -i nvidia
    3b:00.0 3D controller: NVIDIA Corporation GP100GL [Tesla P100 PCIe 16GB] (rev a1)
    

    并前往这里对应位置查看当前GPU是否支持CUDA。

  2. 确定要安装的CUDA Toolkit版本
    注意: 如果是用来训练TensorFlow、Pytorch等深度学习框架,请参考此类深度学习框架GPU版本的编译环境进行安装。

    • 版本向下兼容??(不确定,但应安装较新版本的CUDA)
  3. 获取安装文件

    $ wget http://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
    

    名称解释 cuda_10.2.89_440.33.01_linux.run
    10.2.89 :CUDA版本    440.33.01 :当前文件附带的NVIDIA显卡驱动版本

  4. 请自行验证文件的md5码。


环境配置

依据下图确定CUDA Toolkit依赖的系统环境(以v10.2在Ubuntu上的安装为例)。
注意: 为保证.run安装的顺利进行,请保证系统的Kernel版本与表格严格一致。
Ubuntu安装CUDA Toolkit_第1张图片

若不一致很可能导致GPU驱动安装失败,甚至无法进入图形界面。

  1. 查看Linux发行版本

    $ uname -m && cat /etc/*release
    x86_64
    DISTRIB_ID=Ubuntu
    DISTRIB_RELEASE=18.04
    DISTRIB_CODENAME=bionic
    DISTRIB_DESCRIPTION="Ubuntu 18.04.3 LTS"
    
  2. 查看内核(Kernel)版本

    $ uname -r
    5.0.0-37-generic
    

    kernel版本与CUDA 10.2的安装环境要求不一致,应更改内核版本至4.15.0

  3. 查看GCC版本

    $ gcc --version
    gcc (Ubuntu 7.4.0-1ubuntu1~18.04.1) 7.4.0
    Copyright (C) 2017 Free Software Foundation, Inc.
    This is free software; see the source for copying conditions.  There is NO
    warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
    

    gcc版本与CUDA10.2的安装环境要求不一致,应更改gcc版本。
    Ubuntu 18.04 无法通过apt install安装gcc 7.3.0,解决方案是自己动手编译安装GCC,耗时较长,且不利于后续版本更新。


    注意: 当前(Dec. 4, 2019),TensorFlow和Pytorch的GPU版本仍没有依据CUDA Toolkit 10.2进行编译,v10.2不是主流选择,请下载安装 v10.1 update2

    Ubuntu 18.04安装 CUDA Toolkit 10.1 update2 不需要更改内核和GCC。


  4. 安装内核头文件和开发工具包

    $ sudo apt-get install linux-headers-$(uname -r)
    

禁用 Nouveau

安装NVIDIA驱动驱动之前,应先禁用Nouveau驱动(此节方法仅适用于Ubuntu,其他发行版其参考官网说明)。

  1. 查看Nouveau驱动是否已载入
    $ lsmod | grep nouveau #若该命令有输出,则说明已载入
    
  2. 禁用Nouveau
    -新建文件
    $ sudo vi /etc/modprobe.d/blacklist-nouveau.conf
    
    输入a后添加
    blacklist nouveau
    options nouveau modeset=0
    
    ESC后输入:wq保存并退出。
    -重新生成内核的initramfs
    $ sudo update-initramfs -u
    
    -重启系统
    reboot
    

安装CUDA

禁用图形界面

重启后,输入Crtl+Alt+F1~F6键进入非图形界面,并登陆

  1. 确认Nouveau是否载入
    $ lsmod | grep nouveau # 无任何输出说明已被禁止
    
  2. Ubuntu18.04 禁用图形界面
    sudo systemctl set-default multi-user.target
    sudo reboot
    
  3. Ubuntu 16.04 禁用图形界面
    $ sudo service lightdm stop
    
安装驱动和CUDA
  1. cd.run所在目录,以--no-opengl-libs参数安装

    $ sudo sh cuda_10.1.243_418.87.00_linux.run --no-opengl-libs
    
  2. accept 安装协议,并选择安装所有组件

  3. 验证安装成功

    $ nvidia-smi
    

    输出

    Fri Dec  * 17:07:54 2019  
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 418.87.00    Driver Version: 418.87.00    CUDA Version: 10.1     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  Tesla P100-PCIE...  Off  | 00000000:3B:00.0 Off |                    0 |
    | N/A   41C    P0    28W / 250W |      0MiB / 16280MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
                                                                                   
    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    |  GPU       PID   Type   Process name                             Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+
    
    $ cat /proc/driver/nvidia/version
    

    输出

    NVRM version: NVIDIA UNIX x86_64 Kernel Module  418.87.00  Thu Aug  8 15:35:46 CDT 2019
    GCC version:  gcc version 7.4.0 (Ubuntu 7.4.0-1ubuntu1~18.04.1) 
    

    注意: 如输出出现问题,请卸载已安装的驱动和CUDA,以避免无法进入图形界面

    $ sudo /usr/bin/nvidia-uninstall   # 卸载驱动
    $ sudo /usr/local/cuda-10.1/bin/cuda-uninstaller   # 卸载CUDA
    
  4. 若验证无问题,开启图形界面并重启计算机
    对于Ubuntu 18.04

    sudo systemctl set-default graphical.target
    sudo reboot
    

    对于Ubuntu 16.04

    $ sudo service lightdm start
    sudo reboot
    

配置环境变量

  1. 终端中输入
    $ sudo gedit /etc/profile
    
  2. 在打开的文件末尾,添加以下两行。
    64位系统:
    export PATH=/usr/local/cuda-10.1/bin:/usr/local/cuda-10.1/NsightCompute-2019.4.0${PATH:+:${PATH}}
    export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64\
                             ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
    
    32位系统:
    export PATH=/usr/local/cuda-10.1/bin:/usr/local/cuda-10.1/NsightCompute-2019.4.0${PATH:+:${PATH}}
    export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib\
                             ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
    
  3. 使更改生效
    输入
    $ source /etc/profile
    
    或者
    $ sudo reboot
    
  4. 查看环境变量配置成功
    $ nvcc -V
    
    Built on Sun_Jul_28_19:07:16_PDT_2019
    Cuda compilation tools, release 10.1, V10.1.243
    

总结

  1. 排版有问题,后续会更改。
  2. 遇到问题欢迎各位一起交流,我会尽量回复。
  3. 这是出错最少的安装方法。
  4. GPU驱动和CUDA分开安装也行,请先确定所安装的驱动版本支持对应的CUDA版本和系统内核版本。

你可能感兴趣的:(Ubuntu安装CUDA Toolkit)