在Centos7服务器上安装Annaconda+CUDA10

首先保证显卡驱动是有的

  1. 安装Annaconda,直接bash运行sh文件,不能运行的话用chmod +x更改读写权限,注意anaconda安装会询问是否加入环境变量

    Do you wish the installer to prepend the Anaconda3 install location
    to PATH in your ~/.bashrc ? [yes|no]
    [no] >>> yes
    

    一般人的教程会让你输入yes自动加入环境变量,但是centos7貌似并不行,因为这会导致tigervnc出错误!你重新创建一个vncserver的实例,会发错黑屏,并显示Could not start D-bus. Can you call qdbus?
    在Centos7服务器上安装Annaconda+CUDA10_第1张图片
    我为什么发现了这个错误,因为我发现安装完anaconda以后vnc不能正常通信了,然后把anaconda自动加入的环境变量注释以后,又可以使用了,但是不能使用conda命令了,我猜这是有解决方法的,因为另一台linux服务器可以共同使用conda和vnc,哪位大佬懂的话叫教我一下,我目前想到的解决方法是:
    先加入环境变量,然后注释掉,注释掉以后source ~/.bashrc就可以创建新的可以使用的vncserver,然后再把环境变量的注释删掉以后重新source,这样就可以使用conda命令了,同时刚才创建的vnc实例也还可以运行

    造成这个问题的原因参考:链接,大致的意思就是 VNCserver 也是用 Python 编写,所以它也依赖 Python 的版本。往往新安装的 Python 版本都比 VNC 需要的要求高。关键在于如果你的环境变量 PATH 发生了变化,即调用了不同版本的 Python,VNCserver 的运行自然会出错,造成黑屏。

  2. 下载正确版本的CUDA和CUDNN,一般CUDA10配CUDNN7,至于具体到这个网站下载:CUDA下载

  3. 安装CUDA10,cd到相应的路径里面,然后运行文件(需要使用sudo权限)

    sudo sh cuda_10.2.89_440.33.01_linux.run
    

    这时候报错,错误的内容在/var/log/cuda-installer.log和/var/log/nvidia-installer.log里面,在前面这个文件里没什么有用的信息但是在后面这个文件里这样写道:

    -> The file '/tmp/.X1-lock' exists and appears to contain the process ID '25772' of a runnning X server.
    ERROR: You appear to be running an X server; please exit X before installing.  For further details, please see the section INSTALLING THE NVIDIA DRIVER in the README available on the Linux driver download page at www.nvidia.com.
    ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' for details.  You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.
    

    错误的意思是你正在运行一个X server,这实际上就是graphical interface,你可以关闭这个进程,这样理论上就可以解决,我直接重启了也没有这个进程了。然后accept所有条款再install。安装之后会有文字提醒你需要加入到环境变量:

    ===========
    = Summary =
    ===========
    
    Driver:   Installed
    Toolkit:  Installed in /usr/local/cuda-10.2/
    Samples:  Installed in /home/[email protected]/, but missing recommended libraries
    
    Please make sure that
     -   PATH includes /usr/local/cuda-10.2/bin
     -   LD_LIBRARY_PATH includes /usr/local/cuda-10.2/lib64, or, add /usr/local/cuda-10.2/lib64 to /etc/ld.so.conf and run ldconfig as root
    
    To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-10.2/bin
    To uninstall the NVIDIA Driver, run nvidia-uninstall
    
    Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-10.2/doc/pdf for detailed information on setting up CUDA.
    Logfile is /var/log/cuda-installer.log
    

    然后我加入环境变量:

    export CUDA_HOME=/usr/local/cuda-10.2
    export PATH=$PATH:$CUDA_HOME/bin:/usr/src/
    export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
    

    加入以后source一下,运行nvcc -V就会出现cuda的版本了,说明cuda安装好了。

    测试了一下pytorch,简单的命令没有问题,cuDNN难道不用了?不知,但是先到此为止。
    20.6.26更新 并不是cuDNN不需要安装,而是一般我们使用anaconda对深度学习包进行管理,anaconda一般都是自带cuDNN backend的,(实际上cuda也是自带的cudatoolkit有的,不安装我觉得也可以调用,感兴趣可以试试)大家可以按照这几条代码测试一下:

    #判断是否安装了cuda
    import torch
    print(torch.cuda.is_available())  
    #判断是否安装了cuDNN
    from torch.backends import  cudnn 
    print(cudnn.is_available()) 
    

附上NVIDIA driver下载地址,但是这个不建议随便更改
附上CUDNN.solitairetheme8解压方式,以备不时之需
附上Pycharm安装参考1、安装参考2
附上VNC异常,手动杀进程

你可能感兴趣的:(Linux,Anaconda,linux,centos,云服务器,anaconda,cuda)