这周折腾cuda的安装将近3天,非常痛苦,在此记录一下,好久没有写过博客了。
原因:因为使用了mxnet的version是0.12.0,而之前的cuda支持的是0.9.0所以需要重装cuda
最初的那台机器是不支持mxnet=0.12.0的,但是后来找的机器也没有看是否支持mxnet=0.12.0,就开始直接装cuda8.61;
导致根本就没搞清楚这台机器的最初版本是否支持mxnet=0.12.0;这是一个错误;
下载:cuda的版本可以从这里下载 https://developer.nvidia.com/cuda-toolkit-archive
选择CUDA Toolkit 8.0 GA1->然后,按如图选择
下载之后,sh cuda_8.0.44_linux.run就行,网页上也有说明;
安装过程中所有的都选是;
安装完之后,发现nvidia-smi运行之后是失败的,虽然绝大多数的数据都出来了但是里面的设备型号没有别识别出来。
正常的nvidia-smi的结果是
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.98 Driver Version: 384.98 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 108... Off | 00000000:02:00.0 Off | N/A |
| 23% 25C P8 8W / 250W | 2750MiB / 11172MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
但我的nvidia-smi的结果是
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.98 Driver Version: 384.98 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 err Off | 00000000:02:00.0 Off | N/A |
| 23% 25C P8 8W / 250W | 2750MiB / 11172MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
运行deviceQuery,也是显示no CUDA-capable device is detected,还有就是运行启动服务代码的时候也是“Check failed: e == cudaSuccess || e == cudaErrorCudartUnloading CUDA: no CUDA-capable device is detected”
期间折腾了很久,又是安装cuda9,反复的卸载和安装,依然如此,此刻内心是奔溃的,之后就去做别的事了;
次日又去看cuda的安装手册,安装完之后所在的目录有CUDA_Installation_Guide_Linux.pdf,大致看了一下
lspci | grep -i nvidia
发现也不能显示NVIDIA的型号,很伤心;执行update-pciids 后显示正常,能显示NVIDIA型号
但是"no CUDA-capable device is detected”和nvidia-smi的问题依然存在,由此想到这应该是和驱动相关,和业务代码肯定是没有关系的。
最后在这个页面根据系统和NVIDIA型号选择了驱动,试了安装一下新驱动就好了,nvidia-smi的结果也是正常的显示的驱动号是384.98
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.98 Driver Version: 384.98 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 108... Off | 00000000:02:00.0 Off | N/A |
| 23% 25C P8 8W / 250W | 2750MiB / 11172MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce GTX 108... Off | 00000000:03:00.0 Off | N/A |
| 23% 30C P8 9W / 250W | 861MiB / 11172MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 GeForce GTX 108... Off | 00000000:82:00.0 Off | N/A |
| 23% 29C P8 9W / 250W | 861MiB / 11172MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 GeForce GTX 108... Off | 00000000:83:00.0 Off | N/A |
| 23% 31C P8 8W / 250W | 861MiB / 11172MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
真的很开心!感觉cuda真的好坑,安装太麻烦,shit