NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver is installed and runni

今天在训练模型的时候,阿里云GPU服务器异常重启,重新连接后发现想要查看GPU信息的时候执行查询命令:

nvidia-smi

报错如下:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

 查询了一番,网上倒是有很多相同的问题,也提供了几乎相同的解决方法。

如下:

1、首先查看CUDA,如下:

nvcc --version

 能够正常输出说明还在。

2、接下来查看自己的nvidia驱动版本,如下:

ls /usr/src | grep nvidia

 这里可以看到410.129就是我的驱动版本。

3、完成上面两个步骤之后,终端执行安装命令,如下:

yum install dkms
dkms install -m nvidia -v 410.129

正常来讲,问题就应该解决了,但是实际上并没有解决,反而报错了,如下:

 执行下面的命令查看详情,如下:

cat /var/lib/dkms/nvidia/410.129/build/make.log

 这里出现了一个新的错误:

*** CONFIG_RETPOLINE=y, but not supported by the compiler. Compiler update recommended..  Stop.

大体的意思就是说:需要执行编译命令,但是呢:编译器不支持。

我回想了一下之前的确是升级过原生的编译器版本的,可能真的是这里出了问题了。

这里只好冲洗安装驱动了,nvidia驱动下载链接在这里。

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver is installed and runni_第1张图片

 根据个人需要下载需要的驱动版本即可。

如果对于完整环境搭建安装有疑问的可以看我之前的阿里云服务器GPU环境配置教程,如下:

《实地踩坑,新鲜出炉,阿里云GPU服务器Centos7.7深度学习环境搭建实战》

重新安装完成之后,忽略gcc版本校验:

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver is installed and runni_第2张图片

 完成之后重新执行如下命令:

nvidia-smi

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver is installed and runni_第3张图片

 问题终得解决,记录一下备忘!

你可能感兴趣的:(软件安装,深度学习,软件工具使用,目标检测)