大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1

文章目录

    • 组机缘由:
    • 深度学习需要什么样的GPU?
      • NVIDIA 部分GPU的技术参数:
      • 如何选择:
    • 最终决定的配置:
    • 装机
    • 装机后的感想
    • CUDA10还是CUDA9,Python3.6还是3.7?
    • 最终的深度学习环境
      • TensorRT 5推理加速引擎
    • 卸载cuda
    • 参考

组机缘由:

最近两次实习的工作内容,都与大数据关联不大,所积累的一些本就学得不深的知识便忘得不少。
深度学习和大数据都很感兴趣,考虑到毕设是深度学习项目,故准备过几天投一些大数据的实习岗。利用周末的时间,捣鼓毕设。这样一来,做大数据,好的CPU,大的内存必不可少;做深度学习,大显存的显卡必不可少。于是决定自己装台机器。

深度学习需要什么样的GPU?

NVIDIA 部分GPU的技术参数:

大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1_第1张图片
大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1_第2张图片

如何选择:

CUDA10与图灵架构特性
深度学习需要用到GPU的参数有:

  1. 单精度—深度学习只需要单精度,昂贵的双精度卡适合科学计算
    就单精度浮点性能而言,RTX 2070 Founders Edition为7.9TFLOPS,GTX 1080也有8.2TFLOPS。

  2. CUDA处理器—越多越好,无需解释
    比如这一代图灵显卡,RTX 2080 Ti/2080/2070分别使用不同的核心,全部都是独立型号,而RTX 2070显卡使用的是TU106-400核心。简单来说就是将RTX 2080 Ti规格剁剩一半,3组GPC单元,3×12=36组SM单元,经过计算,36×64=2304个CUDA单元。

  3. 张量处理单元(Tensor Core)—也是越多越好
    Pascal架构由于没有Tensor Core,直接就是0分,而RTX 2070则为252.1TFLOPS。
    所以,如果有钱,就上RTX2080Ti;我感觉RTX2070性价比高。不建议买丐版,卡吧里面,20系目前翻车不少。

最终决定的配置:

年后9代CPU一路狂飙,咬牙某东入了国行,4900Hz 1.35v,估计散片都难以挑出这样的雷。。。
大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1_第3张图片

装机

额。。。实在没精力写这一部分了。也没啥可写的

装机后的感想

  1. 真的快
  2. 电源、水冷不行,有噪音,影响强迫症患者工作

CUDA10还是CUDA9,Python3.6还是3.7?

上面已经说了,19年后组机的朋友,还是上RTX,性能肯定比GTX提升不少,不知有人做过测评没,什么时候看见的话,我把它贴出来
github很多人问为什么自己装了CUDA9.2,tensorflow却报错,说缺少9.0.so

  1. tensorflow目前没有官方的9.1 9.2编译的成品,民间有,docker镜像也有,当然也可以自己源码编译
  2. 1.13开始使用CUDA10 cudnn7.2编译:
    大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1_第4张图片
  3. 一直觉得硬件用新不用旧,软件不要用太新的,这次还真想倒腾下CUDA10,毕竟pytorch 1.0也有支持CUDA10的
  4. python就3.6吧,3.7的“配套设施”估计目前还是不太全,虽然3.7会是社区以后大力发展的版本,就像之前的2.7.X系列
  5. 此文写自2019年3月初

最终的深度学习环境

亲测稳定,安装步骤就不写了,都写烂了
ubuntu16.04.6 【目前不太想折腾18.04】

向老版本说拜拜:

名称 版本
ubuntu 18.04.2
python 3.6.6
CUDA 10.0
cuDNN 7.3.1
tensorflow 1.13.1
keras 2.2.4
pytorch 1.10.1

大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1_第5张图片

TensorRT 5推理加速引擎

大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1_第6张图片
目前我不清楚这个tensorRT所做的工作,以及它的使用对于普通深度学习开发者是否是透明的,甚至是否需要单独安装,不清楚
(貌似是一种推理加速,需要导出模型在tensorRT中工作???)
大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1_第7张图片

卸载cuda

1-1 RPM/Deb 安装的:

$ sudo yum remove # Redhat/CentOS
$ sudo dnf remove # Fedora
$ sudo zypper remove # OpenSUSE/SLES
$ sudo apt-get --purge remove # Ubuntu

1-2 runfile安装的:runfile安装的:

$ sudo /usr/local/cuda-X.Y/bin/uninstall_cuda_X.Y.pl

  1. 删除配置文件中相关export
  2. 卸载驱动(如果满足最低驱动版本限制,则没必要):卸载驱动(如果满足最低驱动版本限制,则没必要):

$ sudo /usr/bin/nvidia-uninstall

2019/3/28更
一直没时间去倒腾cuda10+tf1.13
4/16写完毕设再继续

参考

[1.] CUDA10与图灵架构特性
[2.] [Quadro RTX\GeForce RTX已来,来了解一下深度学习到底要用什么样的GPU] (https://blog.csdn.net/Su_wenfeng/article/details/82907890)
[3.] NVIDIA GeForce RTX 2070同步评测:光影与游戏AI的最佳呈现者
[4.] https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
[5.] https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html
[6.] https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html

你可能感兴趣的:(Deep/Machine,Learning)