Python报错:cuDNN error: CUDNN_STATUS_NOT_INITIALIZED 和 CUDA_LAUNCH_BLOCKING=1.

安装服务器环境的血泪史!

最近在3090服务器上搭建了一个环境用于跑Padim的程序,发现自己制作的数据集跑不了,期间遇到了很多bug。

  1. pip和conda都不能使用,下载包都不行,试了很多种方式,还是删除重新安装一遍anaconda最见效。
  2. 配置好的环境,没换源的话,很卡,下载速度龟速,尝试网上的命令行换源,效果很不好,参考了一个更改condarc的文件的博主(多深度学习框架融合环境),效果很好,直接就能使用,但是有一些可能下载慢,那就带源下载。
  3. 安装好之后,又遇到了
    RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
    这个问题,查找资料之后,有的说法大概就是3090显卡对于CUDA是有要求的,我一开始用的是cuda10.2版本的pytorch,3090最好是使用cuda11.x版本的pytorch
  4. 因为我的服务器cuda是11.2就在官网上找,结果没有发现对应的版本的pytorch,异想天开的随便选择了 一个低版本的pytorch,但是遇到了很不理解的问题,代码可以直接运行,但是当我想分步调试的时候,代码就会在模型运算的地方报错:cuDNN error: CUDNN_STATUS_NOT_INITIALIZED很烦,找了很多资料,大概意思有很多种,最可能的是,cuda和pytorch版本不匹配,我醉了,又在官网上找了好几个版本的pytorch,但是没有一个成功的,气得呀无从下手
  5. 抱着侥幸的心理,重新换了个词条搜索,linux cuda11.2支持的pytorch,找到了一篇保姆级的教程,博主非常仔细的讲述了怎么安装一个cuda11.2支持的pytorch,服务器Linux系统安装pytorch配置环境 ,跟着重新安装了一个环境,结果成功了!

找了两天的bug总算能够结束了,科研的激情都毁灭在了安装环境上,淦!

你可能感兴趣的:(深度学习,python,python,linux,深度学习)