Debian安装cuda的过程

这周折腾cuda的安装将近3天,非常痛苦,在此记录一下,好久没有写过博客了。

原因:因为使用了mxnet的version是0.12.0,而之前的cuda支持的是0.9.0所以需要重装cuda

最初的那台机器是不支持mxnet=0.12.0的,但是后来找的机器也没有看是否支持mxnet=0.12.0,就开始直接装cuda8.61;

导致根本就没搞清楚这台机器的最初版本是否支持mxnet=0.12.0;这是一个错误;

下载:cuda的版本可以从这里下载 https://developer.nvidia.com/cuda-toolkit-archive

选择CUDA Toolkit 8.0 GA1->然后,按如图选择


下载之后,sh cuda_8.0.44_linux.run就行,网页上也有说明;

安装过程中所有的都选是;

安装完之后,发现nvidia-smi运行之后是失败的,虽然绝大多数的数据都出来了但是里面的设备型号没有别识别出来。

正常的nvidia-smi的结果是

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.98                 Driver Version: 384.98                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:02:00.0 Off |                  N/A |
| 23%   25C    P8     8W / 250W |   2750MiB / 11172MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

但我的nvidia-smi的结果是

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.98                 Driver Version: 384.98                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0       err                                Off  | 00000000:02:00.0 Off |                  N/A |
| 23%   25C    P8     8W / 250W |   2750MiB / 11172MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

运行deviceQuery,也是显示no CUDA-capable device is detected,还有就是运行启动服务代码的时候也是“Check failed: e == cudaSuccess || e == cudaErrorCudartUnloading CUDA: no CUDA-capable device is detected”

期间折腾了很久,又是安装cuda9,反复的卸载和安装,依然如此,此刻内心是奔溃的,之后就去做别的事了;

次日又去看cuda的安装手册,安装完之后所在的目录有CUDA_Installation_Guide_Linux.pdf,大致看了一下

lspci | grep -i nvidia

发现也不能显示NVIDIA的型号,很伤心;执行update-pciids 后显示正常,能显示NVIDIA型号

但是"no CUDA-capable device is detected”和nvidia-smi的问题依然存在,由此想到这应该是和驱动相关,和业务代码肯定是没有关系的。

最后在这个页面根据系统和NVIDIA型号选择了驱动,试了安装一下新驱动就好了,nvidia-smi的结果也是正常的显示的驱动号是384.98

          +-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.98                 Driver Version: 384.98                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:02:00.0 Off |                  N/A |
| 23%   25C    P8     8W / 250W |   2750MiB / 11172MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  Off  | 00000000:03:00.0 Off |                  N/A |
| 23%   30C    P8     9W / 250W |    861MiB / 11172MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX 108...  Off  | 00000000:82:00.0 Off |                  N/A |
| 23%   29C    P8     9W / 250W |    861MiB / 11172MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GeForce GTX 108...  Off  | 00000000:83:00.0 Off |                  N/A |
| 23%   31C    P8     8W / 250W |    861MiB / 11172MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

真的很开心!感觉cuda真的好坑,安装太麻烦,shit

你可能感兴趣的:(Debian安装cuda的过程)