使用GPU训练时出现的一些问题

torch.backends.cudnn.CuDNNError: 8:b’CUDNN_STATUS_EXECUTION_FAILED’ 解决方案

利用gpu跑代码时报了这个错,因为该项目需要的环境是:

  • Ubuntu 16.0.4
  • Python 3.5
  • Pytorch 0.3.1
  • pyrouge
  • matplotlib (for the visualization of attention heatmaps)
    = Tensorflow (>=1.5.0) and TensorboardX (for data visualization on Tensorboard)

在网上寻找解决方案,说是和版本不匹配导致的,但是一直也没试出合适的版本搭配,折腾了好几天。最后还是按照这里 所说的,引入了以下语句:

import torch
torch.backends.cudnn.enabled = False

选择不用cudnn加速,这个错误就被解决了。
(note:这样 gpu 照样能工作,但可能没有用上 cudnn 那么快。)

但是设为False了以后又报了下面那个错误。

RuntimeError: cublas runtime error : the GPU program failed to execute at /opt/conda/conda-bld/pytorch_xxxx

经过在网上查找,发现还是版本问题。
我之前基本上都是使用命令行来安装pytorch,如

conda install pytorch=0.4.1 cuda90 -c pytorch

但是似乎这并不能下到适合我的版本。于是我又第100次卸载了pytorch,然后通过官网 上的previous-versions找到了适合我的版本。注意,强烈建议通过pip+whl下载,即下图这种方式。
使用GPU训练时出现的一些问题_第1张图片
选择自己的cuda版本后,进入上面的网页再选择适合自己的pytorch版本和python版本,右键复制下载链接。然后用

pip install [链接]

下载即可。
困扰一周的问题终于解决。

你可能感兴趣的:(debug)