在Windows11下安装完Ubuntu20.04双系统后配置环境的过程

1.NVIDIA驱动检测及安装

1.1 查看显卡信息

# 显示系统中所有通过PCI总线连接的VGA兼容控制器信息。包括集成显卡即与CPU内置在同一块芯片上的显卡)以及独立显卡。
lspci | grep VGA  
# 将显示有关系统中所有NVIDIA显卡的信息。
lspci | grep NVIDIA

解释:

VGA compatible controller: Intel Corporation Device a788 (rev 04) :表示系统中有一个Intel的VGA兼容控制器,设备ID为"a788",修订版本为"rev 04"。可能是集成在CPU中的Intel显卡。

VGA compatible controller: NVIDIA Corporation Device 28e0 (rev a1):表示系统中有一个NVIDIA的VGA兼容控制器,设备ID为"28e0",修订版本为"rev a1"。应该是独立的NVIDIA显卡。

Audio device: NVIDIA Corporation Device 22be (rev a1) :表示系统中有一个NVIDIA的音频设备,设备ID为"22be",修订版本也为"rev a1"。这个音频设备很可能与前面的NVIDIA显卡相关,可能是显卡上的HDMI或DisplayPort音频输出接口。

1.2 查看当前显卡的驱动信息

nvidia-smi # 报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

1.3 调用显卡驱动程序

nvidia-settings # 显示找不到这个命令

至此说明系统中没有驱动或者原本的驱动不能使用了。(因为系统是刚刚装好,应该是不存在驱动的。有的教程要禁止使用默认驱动或者清除掉以前的驱动信息,这里我都没有涉及到。) 

1.4 安装驱动

1.4.1 正常安装
第一步:查看系统推荐的版本
ubuntu-drivers devices

在Windows11下安装完Ubuntu20.04双系统后配置环境的过程_第1张图片

我选择的是系统推荐的版本:nvidia-driver-545-open

第二步:安装命令

(我这里直接安装成功,若使用此命令安装失败或者报错请查询其他资料)

sudo apt install nvidia-driver-545-open

在Windows11下安装完Ubuntu20.04双系统后配置环境的过程_第2张图片

第三步:重启
reboot

安装成功之后要重启,不然没有效果

至此系统里就有了自己的驱动

1.4.2 报错

使用ubuntu-drivers devices命令时,没有输出内容,具体是怎么解决的,想不起来了,请参考其他博客吧。

1.4.3 驱动查看

命令
nvidia-smi

在Windows11下安装完Ubuntu20.04双系统后配置环境的过程_第3张图片

图片中Driver Version: 545.29.06 是指安装的显卡驱动版本;CUDA Version: 12.3是指安装的CUDA版本,即cudatoolkit版本,也是指本机器支持的最高版本。

CUDA版本与驱动版本的对应

查询网站:

https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

在Windows11下安装完Ubuntu20.04双系统后配置环境的过程_第4张图片

Linux系统下:如果想要安装CUDA 11.6 GA,那你的驱动版本起码得是510.39.01

如果你的驱动版本已经达到了546.12,那上表里的CUDA你都能安装(CUDA Toolkit是可以同时安装多个版本的,用哪个版本的CUDA就把该版本写入环境变量就可以)。

2.Anaconda的安装

下载自己需要的anaconda版本版本就可以了

https://www.anaconda.com/download#downloads

Linux-Ubuntu18.04安装anaconda及python解释器环境的配置

3.安装cuda、cudnn、pytorch

最初我是按照一篇博客Linux 的 anaconda 虚拟环境下安装指定的 cuda、cudnn、pytorch的步骤安装了如下版本的cuda和cudnn。由于我一直想使用torch0.4.1版本,因此是根据torch的版本确定cuda和cudnn的版本。

在Windows11下安装完Ubuntu20.04双系统后配置环境的过程_第5张图片

三者的对应的关系可以在pytorch找到:

https://pytorch.org/get-started/previous-versions/

在Windows11下安装完Ubuntu20.04双系统后配置环境的过程_第6张图片

但是我安装完之后,运行自己代码出现了错误:

RuntimeError: cublas runtime error : the GPU program failed to execute at /tmp/pip-req-build-jh50bw28/aten/src/THC/THCBlas.cu:259

解决方案一:

pytorch出现RuntimeError: cublas runtime error :cu:259问题,及解决方法

直觉认为可能有这方面的原因,因为torch0.4.1版本能正确安装就不容易。另外,cudnn7.1.2  cuda9.0  torch0.4.1就针对版本来说应该是适配的。

解决方案二:

cublas 运行时错误:GPU 程序无法在 /pytorch/aten/src/THC/THCBlas.cu:450 处执行

采取了这篇博客的处理方式,对torch版本进行升级

4.其他报错

File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_internal/network/utils.py", line 87, in response_chunks decode_content=False, File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 576, in stream data = self.read(amt=amt, decode_content=decode_content) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 541, in read raise IncompleteRead(self._fp_bytes_read, self.length_remaining) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/contextlib.py", line 99, in exit self.gen.throw(type, value, traceback) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 443, in _error_catcher raise ReadTimeoutError(self._pool, None, "Read timed out.") pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.

解决方案:网络不稳定

配置阿里云镜像源:

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

参考博客

四、ubuntu20.04下找不到NVIDIA相关命令

给Ubuntu安装驱动(nvidia)保姆级教程(方法一)

显卡版本(算力)、驱动版本(Driver Version)、CUDA Toolkit(CUDA Version)、PyTorch版本之间的匹配

你可能感兴趣的:(Linux,Python,linux,ubuntu,python,cuda,NVIDIA)