SRGAN环境搭建|简记

git 代码库


环境搭建:

当前作者已经把这个代码更新到 TensorFlow 2.0 and the TensorLayer 2.0+

conda create -n tf20 python=3.6.6

pip install tensorflow-gpu==2.0.0

pip install tensorlayer

pip install easydict

1
tensorflow-gpu 2.0 需要匹配的 cuda 和 cudnn 如上;
因为我的此次训练使用的服务器是 cuda 10.0 cudnn 是 7.4.2

所以训练报错如下:

Loaded runtime CuDNN library: 7.4.2 but source was compiled with: 7.6.0.  

解决方法:

  1. 把服务器CuDNN libcudnn.so 文件进行替换,但是 需要 root 权限
  2. 安装一个当前用户自己的cuda, 这样不影响其他用户使用 root 的cuda
  3. 换一台新的服务器
  4. 使用作者先前版本的代码进行测试

最终选择方法二:安装一个当前用户自己的cuda
上面这篇链接,解决了这个小问题。


Start Train:


  • 如果遇到输入如下:
Could not load dynamic library 'libcudnn.so.7'; dlerror: libcudnn.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/usr/local/cuda-10.0/lib64:/usr/local/lib/

Skipping registering GPU devices...

分析:
srgan 此次训练 因为 libcudnn 加载失败,因此 无法使用 GPU来进行训练学习, 它会选择 不使用 GPU ,而选择 使用 CPU来训练,这个时候你会发现 显卡虽然 被占用了,但是 利用率却很低,这就是 实际上 并没有 使用 GPU。

如果是其他程序,cudnn 加载失败的话,无法使用GPU, 可能就会直接报错了。
解决方法:
正确配置 cuda 和 cudnn,在环境变量中设置路径,并 source .bashrc 使生效。







你可能感兴趣的:(计算机视觉)