Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost. Reboot the sys

在使用tensor2tensor进行训练的时候,设置worker_gpu=4  (显卡总数为4),运行一会儿就会出现下面的情况:

Unable to determine the device handle for GPU 0000:02:00.0: GPU is lost.  Reboot the system to recover this GPU

暂时还没查到原因,有查找的可以私信或是在评论中探讨一下!


最近看到了一些解决方式,可以参考。不过未做测试,有兴趣的可以测试一些,在评论区回复是否可用!

方案1:

vim /etc/rc.local , 加入:/usr/bin/nvidia-smi -pm 1, 保存重启。测试即可

方案2:

vim /etc/default/grub, 在GRUB_CMDLINE_LINUX_DEFAULT 值里面添加  acpi=noirq  thermal.off=1,

例如: GRUB_CMDLINE_LINUX_DEFAULT="quiet splash acpi=noirq thermal.off=1"

save and type update-grub ,然后重启

你可能感兴趣的:(机器学习,GPU,tensor2tensor,issue)