Ubuntu16.04+1080ti+tensorflow+pytorch+teamviewer 配置

踩过太多次坑了,每次不记录结果每次再装又会出问题,记录如下:

自己又重新来了一次,没有什么问题。

1、首先安装Ubuntu系统

在第一步就出了问题,因为1080ti卡算是版本(水平?性能?,相对于一般的卡)比较高的卡,ubuntu系统是没有可以直接给大卡用的驱动的,所以在进入U盘引导界面的时候就会出现提示驱动问题的错误。

解决方法:从别的电脑上拆下一个低端一点儿的显卡,把1080ti换下来,再重新引导,就可以正常安装系统了。

安装过程中,我分区如下,大概50g:

swap: 16g(我的内存大小是16g)

/boot:1g

/:15g

/home: 20g(很多文件都直接放到home下了,其实我感觉可以大一些)

2、接下来是1080ti驱动安装问题

 

    2.1 ubuntu系统,下载最新的nvidia官网驱动(NVIDIA-Linux-x86_64.run)
  
    2.2 配置kernel以text模式启动(需要用sudo vim等,如果没有vim:sudo apt install vim):
           修改/etc/default/grub文件:
               GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
           修改为:
               GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nomodeset"
    2.3 sudo reboot重启电脑(好像是得重启一下,我有一次没重启,导致显卡驱动安装失败,好像是说目前的低版本驱动正在使用无法安装)

           修改完,执行: sudo update-grub 使其生效  

    2.4 按Ctrl+Alt+F1进入命令行模式
 

        添加root用户: sudo passwd root (这里开始好像是建立root密码,一般人都是安装的中文版ubuntu,显示有乱码)

        输入密码(这里输入两次是确认密码应该是,进入root应该是输入 $ su root)

    2.5 关闭图形系统
        $sudo service lightdm stop

 

    2.6 添加显卡驱动权限

           chmod +x Nvidia.....(全名)

    2.7 终端中执行安装文件
            ./NVIDIA-Linux-x86_64-352.21.run(路径自行修改)
    2.8 安装完成后,启动图形系统

               $sudo service lightdm start

    然后你就可以关机换大卡了,如果你有核弹,赶紧上!

    重启后输入nvidia-smi 应该就可以看到相应的显卡信息了,输入nvidia-settings 应该可以弹出控制界面。

卧槽庆祝一下,刚刚tensorflow-gpu运行居然成功了...

3、驱动装完之后就可以安装CUDA了

    网上很多建议安装.run版本的,我试了一次,没成功,最后还是用的.deb版本,我这里用的是8.0版本。

    https://developer.nvidia.com/cuda-toolkit-archive 这个连接可以下载各个版本的cuda。

    按照官方的安装步骤就很好用,如下:

  1. `sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb`
  2. `sudo apt-get update` #在这一步遇到点儿问题,进度条卡在0%不往前走,因为他链接的是ipv6地址,要不你连接ipv6(一般校园网),或者去改配置只能用ipv4什么的,我没细查,具体大家自己去查吧。
  3. `sudo apt-get install cuda`

 

过程中我没遇到问题,而且我也直接在terminal中运行的,没有关闭图形界面之类的。这里cuda就安装完成了,然后是配置路径。    

    CUDA相关的环境变量可以放在~/.bashrc中,

    vim ~/.bash_profile

        ps:vim使用大概介绍:进入界面后,输入”i“,就可以开始编辑,按”esc“,退出编辑,按”:“,输入”wq“ 保存退回terminal。

    在其中,增加如下两行,

    export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-  8.0/lib64:/usr/local/cuda-8.0/extras/CUPTI/lib64"
    export CUDA_HOME=/usr/local/cuda-8.0

 

4、 接下来安装cudnn

    我直接下的cuda 8.0对应的6.0版本cudnn”cuDNN v6.0 Library for Linux“,按说应该下下来是.tgz格式的,结果我今天下下来是个奇奇怪怪的格式,linux认不出来,我就直接右键重名民给改成.tgz,用的很好。

    解压之后移动文件如下:

    sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
    sudo cp -d cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*

    自己改路径去吧,前边是解压出来的文件路径,后边儿是cuda的文件路径。

 

5、闲谈:有人说需要gcc降版本的,安装bazel的我都没有弄,没啥问题最后。gcc说是因为cuda8.0不支持,但是现在基本都会用到9.0了,估计gcc降级越来越不是问题了。

6、安装Anaconda3

    去官网下载。

    bash 那个.sh文件。安装过程中让你选是不是默认加入到路径中,你记得选是就可以了,没选的话自己加,官网有说明。

    我有的时候也忘记加了...官网说明如下:/home//.bashrc 添加  export PATH="/ toanaconda>/bin:$PATH"就可以了

    安装完之后,运行 source ~/.bashrc ,你就可以去terminal输入python试一试了

7、重头儿,最简单的验证你前面对不对的就是直接看这一步结果对不对了。

    我是比较懒,也没去学直接编译源码什么的,我就直接pip install tensorflow-gpu 安装的,不过后来总是报错,大概如下:

    ImportError:libcublas.so.9.0:cannot open shared object file, no such file or directory.

    (github下有这个问题的讨论:https://github.com/tensorflow/tensorflow/issues/15604, 里面有一个兄弟一语道破原因,说:

        第一句:tensorflow-gpu-1.5版本需要cuda 9.0(我安装的是cuda8.0 tf-1.6),我应该卸了现在的重新安装1.4版本的tf才可以,”pip install --upgrade tensorflow-gpu==1.4“

          第二句:我们还是应该多看官方文档啊,里面都有啊,比如tf的运行环境啊什么的(python,gcc,cuda,cudnn and so on)

    重新装了tf-gpu 1.4之后就没问题了,写了一个简单的回归问题,100步毫秒算完。我要贴图了

Ubuntu16.04+1080ti+tensorflow+pytorch+teamviewer 配置_第1张图片Ubuntu16.04+1080ti+tensorflow+pytorch+teamviewer 配置_第2张图片

    

然后最后是,我的系统崩了,我是在recovery系统里试的,回头我还得再装一遍......不过有了经验也快了,希望能帮到大家,装了两三次了,这回终于装好了。

最终: cuda8.0; cudnn6.0; tensorflow-gpu-1.4

新添加:

安装teamviewer:就正常安装,会遇到依赖问题,输入 sudo apt-get -f install 会自动解决依赖问题,再安装就没问题了。

安装opencv:pip install opencv-python

安装chrome浏览器:就按照百度经验走就ok

安装shutter截图工具:http://blog.csdn.net/hanshileiai/article/details/46843713

安装pytorch(py3.5/cuda8.0):

pip3 install http://download.pytorch.org/whl/cu80/torch-0.3.1-cp35-cp35m-linux_x86_64.whl 

pip3 install torchvision

更新一下windows安装的坑:

    可以参考:https://blog.csdn.net/xiangxianghehe/article/details/78736482 这篇博客,里面有下载链接,不过他的好像是支持cuda版本的,但是我上一个cpu也安装成功了,DLL问题被我莫名的解决了,然后在也解决不了了......

然后评论有一个哥们的方法比较直接:

conda install -c peterjc123 pytorch-cpu 可以直接安装cpu版本

--------------------------------------------------------------添加清华源-------------------------------------------------------------------------------

然后是linux的坑:

直接下载会很慢,可以加入清华源下载,速度飞起:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

然后conda install pytorch torchvision就ok了

ps: 目前清华源中的torch 0.3.0cuda有点慢,conda install pytorch torchvision cuda80 -c soumith 用这个cuda慢的问题没有了

----------------------------------------------------------------查看CUDA版本信息------------------------------------------------------------------

cat  /usr/local/cuda/version.txt 

 

你可能感兴趣的:(深度学习)