基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程

** 基于Tensorflow-gpu的深度学习训练框架搭建教程**


前言

由于个人PC以及工作站的硬件配置差别很大、这将导致显卡驱动与tensorflow-gpu不兼容的问题。本文是在win10系统下一站式深度学习训练框架的搭建流程,主要内容包括GPU驱动版本匹配、下载安装、系统环境变量配置、tensorflow-gpu版本匹配以及安装测试。下列是一次成功案例的各文件版本:
1、GPU型号:Geforce RTX 3060,显卡驱动程序版本:466.92
2、CUDA版本:11.2.0
3、cuDNN版本:8.1.1
4、tensorflow-gpu版本:2.5.0


1、GPU驱动

1.1、CUDA驱动下载与安装

为了寻找与tensorflow-gpu版本相匹配的CUDA驱动与cuDNN驱动版本,首先要确认电脑上显卡的驱动程序版本,查看流程是:打开NVIDIA控制面板——帮助——系统信息——驱动程序版本。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第1张图片
通过显卡驱动版本编号可以与英伟达官方网站的CUDA版本号对应,找到与显卡匹配适用的CUDA版本,例如我的显卡驱动程序版本号为466.92,因此只能选择低于11.3.1以下的CUDA版本,考虑到稳定性就选用了11.2.0版本。官网链接:CUDA版本匹配链接,下拉找到如下图所示的版本对应列表Table 3。基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第2张图片
找到对应且的CUDA驱动版本后,在CUDA驱动官网进行下载,官网链接:CUDA驱动官方下载,点击选择相应地版本后,继续勾选windows版本以及local(exe)格式下载至本地安装,由于文件较大,建议采用迅雷下载。双击exe文件进行安装,使用默认的安装位置即可,之后在安装它的流程中建议以自定义的方式安装,当然也可根据实际情况去掉某些不必要的组件。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第3张图片

1.2、cuDNN下载与安装

当CUDA驱动安装完毕后,需要找到与它相匹配的cuDNN版本,这里可以直接在cuDNN官网进行选择,官网链接:cuDNN官网下载。Tips:登录该网站后,如果想直接点击下载的话,网站会提醒用户注册,若不想注册就下载,则可以按照下图所示操作。复制下载链接后,使用迅雷下载即可。下载完成后将解压,将解压后的文件夹中的三个文件分别复制到CUDA驱动在其默认安装路径下的同名文件夹中,由于在CUDA驱动安装的时候选择的是默认路径,因此我的CUDA驱动位置在C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.2。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第4张图片
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第5张图片

1.3、配置系统环境变量

右击此电脑——属性——高级系统设置——环境变量,将下图中的红色框中的添加至环境变量中,如果用户安装CUDA驱动时选择的是默认路径,那么就仅需要修改CUDA版本号即可,即保持其它的不变,更改下图中的11.2。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第6张图片

1.4、测试CUDA驱动是否安装并配置成功

同时按win+R打开cmd控制面板,如下图所示,输入ncvv -V查看CUDA版本号。此外,也可进一步测试,在下图中的命令行继续输入:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.2\extras\demo_suite\bandwidthTest.exe,若出现result = Pass,则表示配置成功。至此,GPU驱动安装配置完毕。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第7张图片

2、Tensorflow-gpu安装

2.1、Tensorflow-gpu版本适配

至此由于CUDA驱动版本是11.2,因此需要选择与之匹配兼容的tensorflow-gpu版本,否则将直接导致PYTHON编译器无法调用tensorflow-gpu进行深度学习训练,同时报错。可在谷歌官网上查看Tensorflow-gpu版本与CUDA驱动版本的对应关系。官网链接:Tensorflow-gpu与CUDA版本对应关系。由于CUDA与cuDNN的版本已经确定,只需要确认python的版本在合适的范围内即可,最后锁定tensorflow-gpu的范围在2.5.0版本及以上,
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第8张图片

2.2、Tensorflow-gpu安装

在cmd控制面板中将路径转至anaconda3中的pkgs下使用pip install tensorflow-gpu == 2.5.0下载安装即可。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第9张图片

2.3、Tensorflow-gpu测试

安装完毕后输入python在cmd控制面板中进入python编辑环境,随后键入import tensorflow as tf 以及查看是否可以调用GPU的指令:tf.test.is_gpu_available(),点击回车,若在最后出现True则表示成功调用GPU。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第10张图片
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第11张图片

3、可能出现的问题

在python编译器的控制台中,有可能会出现CUDA的某个文件找不到的现象,如下图所示,这是因为在CUDA的驱动文件中的这个文件与tensorflow-gpu需要文件的名称的不匹配,只需要在CUDA驱动文件中将其以管理员的身份改名即可。
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第12张图片
基于Tensorflow-gpu2.5.0的深度学习训练框架搭建教程_第13张图片

总结

至此,整个基于TensorFlow-gpu的深度学习训练框架搭建完毕,祝大家好运,Congratulations!!!

你可能感兴趣的:(tensorflow,深度学习,windows)