# 显示系统中所有通过PCI总线连接的VGA兼容控制器信息。包括集成显卡即与CPU内置在同一块芯片上的显卡)以及独立显卡。
lspci | grep VGA
# 将显示有关系统中所有NVIDIA显卡的信息。
lspci | grep NVIDIA
解释:
VGA compatible controller: Intel Corporation Device a788 (rev 04)
:表示系统中有一个Intel的VGA兼容控制器,设备ID为"a788",修订版本为"rev 04"。可能是集成在CPU中的Intel显卡。
VGA compatible controller: NVIDIA Corporation Device 28e0 (rev a1):表示系统中有一个NVIDIA的VGA兼容控制器,设备ID为"28e0",修订版本为"rev a1"。应该是独立的NVIDIA显卡。
Audio device: NVIDIA Corporation Device 22be (rev a1)
:表示系统中有一个NVIDIA的音频设备,设备ID为"22be",修订版本也为"rev a1"。这个音频设备很可能与前面的NVIDIA显卡相关,可能是显卡上的HDMI或DisplayPort音频输出接口。
nvidia-smi # 报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
nvidia-settings # 显示找不到这个命令
至此说明系统中没有驱动或者原本的驱动不能使用了。(因为系统是刚刚装好,应该是不存在驱动的。有的教程要禁止使用默认驱动或者清除掉以前的驱动信息,这里我都没有涉及到。)
ubuntu-drivers devices
我选择的是系统推荐的版本:nvidia-driver-545-open
(我这里直接安装成功,若使用此命令安装失败或者报错请查询其他资料)
sudo apt install nvidia-driver-545-open
reboot
安装成功之后要重启,不然没有效果
至此系统里就有了自己的驱动
使用ubuntu-drivers devices命令时,没有输出内容,具体是怎么解决的,想不起来了,请参考其他博客吧。
nvidia-smi
图片中Driver Version: 545.29.06 是指安装的显卡驱动版本;CUDA Version: 12.3是指安装的CUDA版本,即cudatoolkit版本,也是指本机器支持的最高版本。
查询网站:
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
Linux系统下:如果想要安装CUDA 11.6 GA,那你的驱动版本起码得是510.39.01
如果你的驱动版本已经达到了546.12,那上表里的CUDA你都能安装(CUDA Toolkit是可以同时安装多个版本的,用哪个版本的CUDA就把该版本写入环境变量就可以)。
下载自己需要的anaconda版本版本就可以了
https://www.anaconda.com/download#downloads
Linux-Ubuntu18.04安装anaconda及python解释器环境的配置
最初我是按照一篇博客Linux 的 anaconda 虚拟环境下安装指定的 cuda、cudnn、pytorch的步骤安装了如下版本的cuda和cudnn。由于我一直想使用torch0.4.1版本,因此是根据torch的版本确定cuda和cudnn的版本。
三者的对应的关系可以在pytorch找到:
https://pytorch.org/get-started/previous-versions/
但是我安装完之后,运行自己代码出现了错误:
RuntimeError: cublas runtime error : the GPU program failed to execute at /tmp/pip-req-build-jh50bw28/aten/src/THC/THCBlas.cu:259
解决方案一:
pytorch出现RuntimeError: cublas runtime error :cu:259问题,及解决方法
直觉认为可能有这方面的原因,因为torch0.4.1版本能正确安装就不容易。另外,cudnn7.1.2 cuda9.0 torch0.4.1就针对版本来说应该是适配的。
解决方案二:
cublas 运行时错误:GPU 程序无法在 /pytorch/aten/src/THC/THCBlas.cu:450 处执行
采取了这篇博客的处理方式,对torch版本进行升级
File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_internal/network/utils.py", line 87, in response_chunks decode_content=False, File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 576, in stream data = self.read(amt=amt, decode_content=decode_content) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 541, in read raise IncompleteRead(self._fp_bytes_read, self.length_remaining) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/contextlib.py", line 99, in exit self.gen.throw(type, value, traceback) File "/home/xiaowang/anaconda3/envs/py3.6_subject/lib/python3.6/site-packages/pip/_vendor/urllib3/response.py", line 443, in _error_catcher raise ReadTimeoutError(self._pool, None, "Read timed out.") pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.
解决方案:网络不稳定
配置阿里云镜像源:
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
四、ubuntu20.04下找不到NVIDIA相关命令
给Ubuntu安装驱动(nvidia)保姆级教程(方法一)
显卡版本(算力)、驱动版本(Driver Version)、CUDA Toolkit(CUDA Version)、PyTorch版本之间的匹配