由于实验室的项目需要运用到Ubuntu 18和Cuda 10.2版本,只能放弃之前使用的配置。本篇博文主要记录本人配置Ubuntu 18, Nvidia Driver, Cuda 10.2, Pytorch的过程及一些疑问的解答,抛砖引玉,欢迎客官留下意见。
为了后面顺利进行,确保系统不存在Nvidia Driver,Cuda相关文件。
sudo apt-get purge nvidia*
sudo apt --purge remove "cublas*" "cuda*"
sudo apt --purge remove libcudnn7 libcudnn7-dev libnccl2
sudo apt-get autoremove
(参考1,参考2)
sudo apt install python3.7
sudo apt-get install python3.7-dev
这是风险最大的一步。(若使用run file进行安装完之后,若果没有相关的系统变量设置,会导致reboot后卡在ubuntu的登录界面,无法进入系统。若使用runfile请看参考4。)
本文通过apt在standard Ubuntu Repository进行driver的安装:
ubuntu-drivers devices
sudo apt install nvidia-driver-460
其中nvidia-driver-
(本文选择:driver : nvidia-driver-460 - third-party non-free recommended)
安装成功后,重启电脑
reboot
本步骤参考网址。
疑问:为什么安装Nvidia driver完之后,输入nvidia-smi也会出现Cuda的本版号信息(右上角)?
这是因为大约在发布Nvidia driver的410版本时,NVIDIA决定将CUDA driver API纳入到Nvidia driver的installer(安装程序)中,而不是再由CUDA toolkit installer进行安装。
要搞懂这里,还要说明的一个概念是,CUDA大致上有两套API,一套是用于runtime (比如libcudart.so, nvcc),一套用于driver API (比如libcuda.so),这两套API不一定是相同的版本号。而在Nvidia driver installer安装的仅仅是driver API。而runtime API则需用通过CUDA Toolkit来进行安装,即本文第二部分。(参考网址)
(本人在此困了很久,因为在nvidia-smi中显示cuda的版本与本人在第二步安装的版本不一致,所以一直以为安装cuda不成功,最后才发现CUDA的两套API机制。随后可通过将cuda的binary 路径包含到PATH中,nvidia-smi即可显示出CUDA的runtime API的版本号,详细请见下文。)
(本段可略过不看):Cuda Toolkit可以通过两种方式安装,一种是distribution-specific packages (即类似与Debian packages), 另一种是distribution-independent package (即runfile packages)。而CUDA的安装需要承上启下,即若第一步用的是Debian的方式安装NVIDIA DRIVER,安装cuda可以直接通过debian,但若使用的是runfile安装,则需要卸载此前的nvidia driver安装。详情可看官方文档。
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda-repo-ubuntu1804-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1804-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo apt-key add /var/cuda-repo-ubuntu1804-11-3-local/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda
export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda-10.2/bin:$PATH
在pytorch官网按照指示下载即可(注:不一定要用pip,根据各自习惯的系统作出选择即可)
本人采用virtualenv与pip进行安装:
首先安装virtualenv:
sudo apt-get install python3-dev
sudo pip install virtualenv
然后创建虚拟环境:
mkdir pytorch_workspace
cd pytorch_workspace
virtualenv py37venv --python=python3.7
source py37venv/bin/activate
然后安装pytorch:
pip3 install torch torchvision torchaudio
疑问:若安装的CUDA版本与Pytorch所支持的不同,会出现什么报错?
若安装的Cuda版本不是Pytorch所支持的,进行loss的时候会出现类似以下的报错
RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED ...
解决方法:首先卸载CUDA相关文件
sudo apt --purge remove "cublas*" "cuda*"
sudo apt --purge remove libcudnn7 libcudnn7-dev libnccl2
然后重复本文第二步(或相应的CUDA版本)即可。注,安装完成后需要重启,nvidia-smi才能正常显示。
欢迎转载,转载请注明出处:
https://zhuanlan.zhihu.com/p/372397379
与
https://blog.csdn.net/linyijiong/article/details/116818319