最全:在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论

由于实验室的项目需要运用到Ubuntu 18和Cuda 10.2版本,只能放弃之前使用的配置。本篇博文主要记录本人配置Ubuntu 18, Nvidia Driver, Cuda 10.2, Pytorch的过程及一些疑问的解答,抛砖引玉,欢迎客官留下意见。

 

0. 安装前

为了后面顺利进行,确保系统不存在Nvidia Driver,Cuda相关文件。

sudo apt-get purge nvidia*

sudo apt --purge remove "cublas*" "cuda*"

sudo apt --purge remove libcudnn7 libcudnn7-dev libnccl2

sudo apt-get autoremove

(参考1,参考2)

  • 安装Python 3.7
sudo apt install python3.7
sudo apt-get install python3.7-dev

1. 安装 Nvidia Driver

这是风险最大的一步。(若使用run file进行安装完之后,若果没有相关的系统变量设置,会导致reboot后卡在ubuntu的登录界面,无法进入系统。若使用runfile请看参考4。)

  • 本文通过apt在standard Ubuntu Repository进行driver的安装:

ubuntu-drivers devices
sudo apt install nvidia-driver-460

其中nvidia-driver-中的版本号可以通过ubuntu-drivers devices来查看相关推荐,并且也可以查看本机的Gpu卡型。

最全:在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论_第1张图片

(本文选择:driver : nvidia-driver-460 - third-party non-free recommended)

  • 安装成功后,重启电脑

reboot

本步骤参考网址。

 

  • 疑问:为什么安装Nvidia driver完之后,输入nvidia-smi也会出现Cuda的本版号信息(右上角)?

最全:在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论_第2张图片

这是因为大约在发布Nvidia driver的410版本时,NVIDIA决定将CUDA driver API纳入到Nvidia driver的installer(安装程序)中,而不是再由CUDA toolkit installer进行安装。

要搞懂这里,还要说明的一个概念是,CUDA大致上有两套API,一套是用于runtime (比如libcudart.so, nvcc),一套用于driver API (比如libcuda.so),这两套API不一定是相同的版本号。而在Nvidia driver installer安装的仅仅是driver API。而runtime API则需用通过CUDA Toolkit来进行安装,即本文第二部分。(参考网址)

(本人在此困了很久,因为在nvidia-smi中显示cuda的版本与本人在第二步安装的版本不一致,所以一直以为安装cuda不成功,最后才发现CUDA的两套API机制。随后可通过将cuda的binary 路径包含到PATH中,nvidia-smi即可显示出CUDA的runtime API的版本号,详细请见下文。)

 

2. 安装Cuda 10.2

(本段可略过不看):Cuda Toolkit可以通过两种方式安装,一种是distribution-specific packages (即类似与Debian packages), 另一种是distribution-independent package (即runfile packages)。而CUDA的安装需要承上启下,即若第一步用的是Debian的方式安装NVIDIA DRIVER,安装cuda可以直接通过debian,但若使用的是runfile安装,则需要卸载此前的nvidia driver安装。详情可看官方文档。

  • 由于本文第一部分已经采用了Debian的方式(使用apt)进行了Nvidia driver的安装,因此CUDA也继续采用Debian方式进行安装。由于pytorch需要CUDA 10.2的支持(或CUDA 11.1,截止2020.05.13),因此可以在这里进行CUDA的deb文件的下载与安装:

最全:在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论_第3张图片

  • 输入以下命令进行安装:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda-repo-ubuntu1804-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1804-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo apt-key add /var/cuda-repo-ubuntu1804-11-3-local/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda
  • 安装完成后,输入nvcc --version不显示所安装CUDA的版本号,需要添加以下路径到~/.bashrc :
export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda-10.2/bin:$PATH

 

 

3. 安装Pytorch:

  • 在pytorch官网按照指示下载即可(注:不一定要用pip,根据各自习惯的系统作出选择即可)

最全:在Ubuntu 18安装Nvidia Driver, Cuda 10.2, Pytorch及一些疑问的解答和讨论_第4张图片

  • 本人采用virtualenv与pip进行安装:

首先安装virtualenv:

sudo apt-get install python3-dev
sudo pip install virtualenv

然后创建虚拟环境:

mkdir pytorch_workspace
cd pytorch_workspace
virtualenv py37venv --python=python3.7
source py37venv/bin/activate

然后安装pytorch:

pip3 install torch torchvision torchaudio

 

  • 疑问:若安装的CUDA版本与Pytorch所支持的不同,会出现什么报错?

若安装的Cuda版本不是Pytorch所支持的,进行loss的时候会出现类似以下的报错

RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED ...

解决方法:首先卸载CUDA相关文件

sudo apt --purge remove "cublas*" "cuda*"
sudo apt --purge remove libcudnn7 libcudnn7-dev libnccl2

然后重复本文第二步(或相应的CUDA版本)即可。注,安装完成后需要重启,nvidia-smi才能正常显示。

 

 

欢迎转载,转载请注明出处:

https://zhuanlan.zhihu.com/p/372397379

https://blog.csdn.net/linyijiong/article/details/116818319

你可能感兴趣的:(Ubuntu,强化学习,深度学习)