资源:centOS在清华源下载,其他在英伟达官方下载,要对应自己电脑的显卡条件
过程参考:
操作系统安装过程
烧制U盘——进入服务器BIOS——进入U盘——安装程序,这其中需要修改安装地址为U盘(特定的识别号,可在更换系统前进入原系统查看 fdisk -l,一般以服务器有的磁盘排序sda,sdb,sdc,U盘为最后一个)——卸载原来的系统,建议自动分区,安装
Nvidia Driver410+CUDA10.0
参考:https://blog.csdn.net/u013378306/article/details/69229919
https://www.jianshu.com/p/48016c73eec2
在一开始没有禁止驱动和选择Xorg.conf为yes,导致驱动安装后,图形化桌面失效,只好重启,利用ssh进入,卸载驱动。
因为安装前需要下载对应的devel header库,需要特别注意的是库的版本一定要一致,否则会报错,安装失败!
很郁闷的是,第一次下载完整的库后安装成功,然后当卸载后,内核版本似乎升级了,下载rpm包进行安装,但无法覆盖前者,所以版本信息仍然是不一致的。正确姿势是把和内核不一致的库卸载,再重新安装rpm。亲测成功。
驱动安装后,用 nvidia-smi查看是否安装成功。
cuda选择rpm的network版安装,按照官网的三句命令,yum安装,最好yum update一下。
为了所有用户可以使用到安装的环境,修改/etc/profile文件,加入环境变量。
yum安装cuda成功后利用cuda里面的sample测试,结果出现错误。nvidia-smi也gg。
deviceQuery.exe Starting...
CUDA Device Query (Runtime API) version (CUDART static linking)
cudaGetDeviceCount returned 30
-> unknown error
Result = FAIL
查找很多资料,有些人通过重启/冷启动(关闭电源再启动)都对我无效。
无奈下卸载。但是!!安装官网指引,并找不到对应的
/usr/local/cuda-8.0/bin/uninstall_***
最后用yum install cuda,发现文件路径并没有被删除,很郁闷,然后再按照官网指引把/usr/local/nvidia-install(应该没记错)
驱动卸载,然后再nvidia-smi发现驱动正常了。但不清楚为什么cuda安装失败,而且原路径并没有删除,于是yum install cuda,这次不用重新下载1.8g的包,直接就安装了。然后!!就可以了,nvidia-smi也是正常的,一脸懵逼。
猜测原因可能是cuda自带了驱动,有些人说安装的时候会问,然而我用yum并没有自动问。
不成熟的小建议:直接装CUDA即可,不需要先装驱动。(博主并没有尝试)
cuDNN7.4
官网下载https://developer.nvidia.com/rdp/cudnn-download
下载.tgz后解压到cuda的源路径中(/usr/local/)
因为压缩包解压后名为cuda,所以解压到cuda路径,会自动把lib和include的头文件放进去。