系统可以识别到多块 NVIDIA GPU,且驱动模块已加载,但 nvidia_uvm
被占用,nvidia-smi
卡死,通常是由于以下原因导致:
lsof /dev/nvidia*
如果输出中有程序(如 python
, t-rex
),记录其 PID
。
sudo kill -9
如果无法识别占用者,尝试直接结束相关用户的会话:
pkill -9 python pkill -9 t-rex
sudo systemctl stop docker sudo systemctl stop kubelet
sudo modprobe -r nvidia_uvm nvidia_drm nvidia_modeset nvidia
如仍提示 "in use",可使用以下命令强制卸载:
sudo rmmod nvidia_uvm
sudo modprobe nvidia
nvidia-smi
sudo yum remove '*nvidia*'
sudo rm -rf /usr/local/cuda*
sudo rm -rf /etc/modprobe.d/nvidia*
sudo rm -rf /etc/systemd/system/nvidia*
sudo yum install epel-release -y sudo yum install dkms -y # 确保你有正确的驱动版本
wget https://us.download.nvidia.com/tesla/535.154.05/NVIDIA-Linux-x86_64-535.154.05.run sudo bash NVIDIA-Linux-x86_64-535.154.05.run
若问题仍存在,建议检查硬件相关问题:
dmesg | grep NVRM
journalctl -k | grep -i nvidia
若问题仍未解决,可提供以下输出进一步排查:
lsof /dev/nvidia*
dmesg | grep NVRM
journalctl -k | grep -i nvidia