Ubuntu配置nvidia-driver、cuda、cudnn记录 apt install nvidia-cuda-toolkit踩坑

目录

      • 记录
      • 正确动作:设置环境变量

记录

只是一次记录!不是教程不是教程不是教程!供大家注意一些避坑点,笑笑就好 : D

搞了一个nvidia-driver 440.64.00+cuda9.0.176+cudnn7.0.5的服务器镜像,按理说是安装好显卡驱动、cuda、cudnn的
结果上去一看,好嘛,安装包都下载好了还在auto-install目录下,但是usr目录下没有cuda目录,明显没装好
看了下安装的log文件,得嘞,刚安装完driver就出来一个terminated,整个垮掉
只能自己改了改自动安装的sh文件,接着安装好了cuda、cudnn
到这里一切顺利

结果在使用nvcc -V查看cuda安装是否成功的时候,出来个提示:没有nvcc,建议apt install nvidia-cuda-toolkit
⚠千万不要运行这个命令!!!千万不要!!!如果有这个提示直接查一下环境配置就可以!不要运行这个命令!!!Q皿Q
【正确步骤写在最后】
然鹅当时已经一脚踩进去了
运行完直接连nvidia-smi命令都提示 failed 了orz
为什么呢?查了一圈,这个命令他会给你自动安装一套nvidia-driver、cuda等等的还不一定是对的版本
用dpkg -l | grep nvidia看了下,它给直接整了个384的driver,用nvcc -V看了下cuda整了个7.9
(我已经报警了.jpg)

然后想着大不了再安装一下driver440版本,重新回去改自动安装的程序,结果运行安装一直报错
按报错提示前往/var/log/nvidia-install.log文件,看大意是已经安装了driver其他版本,不会自动覆盖所以安装过程给停了

那就找卸载driver384的方法,先是dpkg -l | grep nvidia输出nvidia的相关文件,找到nvidia-xxx的
再执行 apt purge nvidia-xxx 进行卸载
然后重新执行自动安装的sh文件里driver、cuda、cudnn的安装步骤,这个文件执行完会在60s后进行重启
ok,执行、因为重启所以远程断开(之前安装cuda、cudnn也是这样所以不是异常情况)

……现在很慌,服务器直接连接不上!连不上了!!
去控制台进入服务器是正常的,查看driver、cuda、cudnn的安装也都顺利完成了!
就是远程连接不上服务器,ssh提示connection refused
就一种好不容易把别墅建好了,结果去别墅的路被拆了的感觉
(尴尬而不失礼貌的微笑.jpg)

很难受,最后还是退回到那个安装一半的镜像文件,重新再安一遍cuda、cudnn、anaconda……
TvT 总之现在就是很安详 (安详.jpg)


正确动作:设置环境变量

首先前往/usr/local/cuda/bin下确认有nvcc:
Ubuntu配置nvidia-driver、cuda、cudnn记录 apt install nvidia-cuda-toolkit踩坑_第1张图片

执行 vim ~/.bashrc
在文件末尾添加

export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin

执行:source ~/.bashrc 进行激活路径
然后再执行 nvcc -V 就正常出来了
在这里插入图片描述

你可能感兴趣的:(linux,ubuntu,cuda)