复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题

nvcc -V 与nvidia-smi查看得到的cuda版本问题

复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题,由于我水平又不够,每次都很困惑。
比如这次,README里面明确指定了要安装了cuda11.6,但是我们实验室的显卡用nvidia-smi查看后显示最高只支持cuda11.4,那么我该怎么办呢?
经过在网上一番查找,又发现网友说只要显卡驱动满足就可以。我又用nvidia-smi看了下显卡驱动,如下
复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题_第1张图片

显卡驱动 470.233.02

根据网友的说法,参考:https://www.zhihu.com/question/622711856

这个显卡驱动是能够满足cuda11.6的,但我还是很困惑,到底是根据什么看,到底能不能用11.6。

但是这个 CUDA Version 11.4又是什么意思?

根据:zhuanlan.zhihu.com/p/490153818
这位答主的说法,这个是说明当前驱动最高支持cuda11.4,所以我不能装cuda11.6??
那上面那个显卡驱动又是啥?
要是可以安装cuda11.6,装上能正常运行吗?
要如何在我的虚拟环境中安装cuda11.6?

救命,到现在还是解决不了

参考下面两位的博客
1:https://blog.csdn.net/qq_44961869/article/details/115954258
2:https://blog.csdn.net/weixin_45944960/article/details/130000445
试图安装cuda11.6,结果报错:
经过查询,原来是我默认安装路径没有搞对,因为实验室的服务器我没有sudo权限,所以不能安装在默认位置,参考:
https://blog.csdn.net/2301_79152843/article/details/133817444
后,成功安装,如下:
复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题_第2张图片
接下来要配置环境变量,参考:
https://blog.csdn.net/qq_44961869/article/details/115954258
在这里遇到一个大坑,花费了我一个中午的时间,饭都还没吃,呜呜呜,这个坑就是nvcc -V和stat cuda显示的cuda版本不一样,在网上找了好多博客都没有解决,最后看到一个博主说这种情况是环境没弄好,具体就是./bashrc文件里面的CUDA_PATH什么的不能设置为具体的版本,要设置为软连接的cuda,我说得也不太清楚,遇到此问题的朋友参考这篇博客:
https://blog.csdn.net/qq_41917697/article/details/114437924

救命,到这里的时候不知道我之前不小心进行了哪个操作,导致nvcc不见了

郁闷死,花了好几个小时研究这个问题。
结果从头开始,
没办法,我太菜了,555~
下面记录一下我的整个过程

1. 下载cuda安装包

路径:https://developer.nvidia.com/cuda-toolkit-archive
参考博客:https://blog.csdn.net/weixin_45944960/article/details/130000445
复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题_第3张图片
这里我把这个文件下载到我的:home/用户名/usr/local文件夹下面,如图:
在这里插入图片描述
然后运行 sh cudaxxxxx.run(就是你下载的那个文件名),由于我不是管理员账号,所以不要sudo,这里要安装在自己账号的路径下面,不然安装不了。

2. 当安装了多个版本cuda时,切换cuda

参考的博客:https://blog.csdn.net/qq_41917697/article/details/114437924
关键点就是:

  • 记得改软连接,即stat cuda命令查询得到的就是软连接
  • 在环境配置文件里面(即~./bashrc文件)记得把CUDA_PATH之类的改为cuda的,不要具体的版本号,这样的话它每次会跟随软链接的变化而变化。

我的如图:
在这里插入图片描述
注意: P A T H 什么的最好放在后面,这样系统会先找你定义好的路径,找不到再找 P A T H 之前绑定的。因为很多博客这里也有另一种更改方式:如: P A T H = PATH什么的最好放在后面,这样系统会先找你定义好的路径,找不到再找PATH之前绑定的。 因为很多博客这里也有另一种更改方式: 如:PATH= PATH什么的最好放在后面,这样系统会先找你定义好的路径,找不到再找PATH之前绑定的。因为很多博客这里也有另一种更改方式:如:PATH=PATH:/home/dengdan/usr/local/cuda/bin

3. 检查nvcc -V, stat cuda版本是不是一样

复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题_第4张图片
终于一致了,我真的是喜极而泣,555~

4. 切换一下cuda版本,看看能不能正常工作

具体做法就是:

  1. 删除原来的软链接 rm -rf cuda
    复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题_第5张图片
    如图,删除后没有cuda了。

  2. 新建新的软链接 ln -s 想要的cuda版本路径 创建的cuda路径
    在这里插入图片描述
    如图,建立后,又有cudal1,图中浅蓝色为cuda,表示是软链接(看网友说的,我不敢保证一定是这个意思)

  3. 检查nvcc -V 是否切换成功
    复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题_第6张图片
    可见,已经成功由之前的11.6切换到了新建的11.3

  4. 检查stat cuda是否切换成功
    复现论文代码的时候老是遇到需要安装各种不同版本的cuda的问题_第7张图片

至此,这个问题就算是解决了。

你可能感兴趣的:(深度学习,python)