【服务器】NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

近期在跑模型时发现代码忽然停止运行,也没抛出异常或退出。重启服务器后,发现nvidia-smi命令会报错。

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

解决方案:

  1. ls /usr/src | grep nvidia
    这里我的驱动版本为 nvidia-510.73.05
  2. sudo apt-get install dkms
  3. sudo dkms install -m nvidia -v 510.73.05

安装完成即恢复正常。
还可使用nvidia-smi -pm 1进行该命令的加速。

你可能感兴趣的:(服务器,linux)