Ubuntu 安装 Anaconda 和 tensorflow-gpu 的关键步骤

经过一些折腾,中间重装过系统、碰到一些奇怪的问题,最后环境搭建成功。

网上已经有很多内容描述细节,因此本文只把关键步骤写下来做参考。

<1> 正确步骤

关键的点:

  • 操作系统、GPU驱动、tensorflow版本、CUDA版本、CuDNN版本需要匹配上。这步看似废话,但是至关重要,否则就可能会碰到各类“难缠”的奇怪问题
  • 如果使用 Anaconda 安装tensorflow 开发环境,那么操作系统安装后,只需要在操作系统上直接安装 GPU 驱动,而不用安装CUDA 和 CuDNN 驱动,因为 Anaconda 安装tensorflow 时会自己在 Conda Env 里安装 Cuda 和 CuDNN 驱动

成功安装的步骤:

  • 安装操作系统:ubuntu 20.04
  • 在操作系统上直接安装: nvidia gpu驱动 510.73.05(GPU是rtx 3060 laptop)
  • 安装Anaconda
  • 在Anaconda上:安装tensorflow 开发环境,安装 tensorflow-gpu 2.8,cuda 11.6.0(安装 tf-gpu时自动顺带安装),cudnn 8.4.0.27(安装 tf-gpu时自动顺带安装)
  • 安装 pycharm,然后在项目中绑定 conda env,之后便可以在里面开发运行调试代码

安装步骤中 conda 相关的几个命令:

conda create -n TF280-GPU python=3.8.0

conda activate TF280-GPU

(添加 conda 国内源,网上有很多类似命令,我添加的是阿里的源)

conda install tensorflow-gpu=2.8.0=cuda112py38h0bbbad9_0

conda install matplotlib

<2> 中间碰到的坑

开始的时候,在操作系统上也安装了 Cuda 和 CuDNN 的驱动,没有意识到 conda 安装 tensorflow时也会自动在 conda env 里安装Cuda 和 CuDNN 的驱动,而且自动安装的这两个驱动版本和操作系统上安装的 GPU 驱动版本不匹配。因此碰到了一些奇怪的问题:

1、tensorflow框架使用GPU 训练模型执行速度很慢。一个正常GPU环境上只需要跑几秒的程序,实际跑了十多分钟

2、tensorflow框架使用GPU 训练的模型精度很低。正常能达到 95% 精度的,实际只达到 10%

当按照上述正确步骤安装好环境后,这些问题都消失了

<3> 成功运行的示例程序

可以参考代码: https://blog.csdn.net/weixin_44035915/article/details/110550730 (谢谢原文作者)

分别用 CPU 和 GPU 执行做了性能对比:

  • CPU: 41.7 秒
  • GPU:5.4 秒

你可能感兴趣的:(machine,learning,tensorflow,深度学习,人工智能,pycharm)