本文介绍如何使用 Windows GPU 云服务器,通过云服务器控制台搭建深度学习环境。
在安装驱动前,您需大致了解 CUDA、cuDNN、Pytorch、TensorFlow 及 Python 版本对应关系,以便根据实际配置选择适配版本,免除后续出现版本不匹配等问题。
CUDA(Compute Unified Device Architecture),是显卡厂商 NVIDIA 推出的运算平台。CUDA™ 是一种由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。其包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。
1. 查看显卡算力
在选择 CUDA 驱动版本时,需先了解本文使用(Tesla P40)显卡的算力。可通过 NVIDIA 官网 查询 Tesla P40 显卡算力为6.1。如下图所示:
2. 选择 CUDA 版本
如下图所示 CUDA 版本与显卡算力的关系,Tesla P40 显卡应选择8.0以上的 CUDA 版本。如需了解更多算力与 CUDA 版本信息,请参见 Application Compatibility on the NVIDIA Ampere GPU Architecture。
确定 CUDA 版本后,再选择显卡驱动版本。您可参考如下图所示 CUDA 与驱动对应关系图进行选择。如需了解更多信息,请参见 cuda-toolkit-driver-versions。
NVIDIA cuDNN 是用于深度神经网络的 GPU 加速库。其强调性能、易用性和低内存开销。NVIDIA cuDNN 可以集成到更高级别的机器学习框架中,例如谷歌的 Tensorflow、加州大学伯克利分校的流行 caffe 软件。简单的插入式设计可以让开发人员专注于设计和实现神经网络模型,而不是简单调整性能,同时还可以在 GPU 上实现高性能现代并行计算。
cuDNN 是基于 CUDA 的深度学习 GPU 加速库,有它才能在 GPU 上完成深度学习的计算。如需在 CUDA 上运行深度神经网络,需安装 cuDNN,才能使 GPU 进行深度神经网络的工作,工作速度相较 CPU 快很多。cuDNN 版本与 CUDA 版本的对应关系请参见 cuDNN Archive。
您需根据 CUDA 版本,选择对应的 Pytorch 版本,匹配版本信息请参见 previous-versions。
注意
CUDA 及 Pytorch 最新版本不一定是最佳选择,可能出现适配问题。建议在查阅版本适配信息后,选择合适的版本后再安装对应驱动。
Tensorflow 较 Pytorch 稍复杂,它还需要 Python、编译器的版本支持。CPU、GPU 版本与 Python、CUDA、cuDNN 的版本对应关系如下:
参考 购买 NVIDIA GPU 实例,创建 GPU 云服务器实例。
若您已具备 GPU 云服务器实例,则可参考 重装系统,重置已有实例的操作系统。
安装显卡驱动
安装 CUDA
配置环境变量
sysdm.cpl
,并单击确定。C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\libnvvp
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64
C:\Program Files\NVIDIA Corporation\NVSMI
编辑完成后如下图所示:
检查显卡驱动及 CUDA
cmd
,并单击确定。安装 cuDNN
bin
、include
及 lib
文件夹拷贝至 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2
目录下。安装 Anaconda
建议通过 Anaconda 创建的虚拟环境安装 Pytorch 和 Tensorflow。通过 Anaconda,可便捷获取包并对包进行管理,同时可统一管理环境。Anaconda 包含了 conda、Python 在内的超过180个科学包及其依赖项,安装过程简单,能高性能使用 Python 和 R 语言,且有免费的社区支持。
Anaconda3-2019.03-Windows-x86_64
为例。如下图所示: 配置 Anaconda
conda create -n xxx_env python=3.7
说明
xxx_env
为环境名,python=3.7
为 Python 版本,您可根据实际需求进行修改。
创建成功即如下图所示:
您可使用以下命令进入或退出已创建的虚拟环境。进入虚拟环境后,即可按照实际需求安装包。
#激活命令
conda activate xxx_env
#退出命令
conda deactivate
安装 Pytorch
前往 Pytorch 官网,使用官网推荐的安装代码。
本文已安装 CUDA 版本为10.2,并选择 pip 安装方式,则在已创建的 xxx_env
虚拟环境中执行如下命令进行安装:
# CUDA 10.2
pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html
可通过替换源,加快安装速度,替换为清华源后则执行如下命令:
# CUDA 10.2
pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html -i https://pypi.tuna.tsinghua.edu.cn/simple
安装 Tensorflow
执行以下命令,安装 Tensorflow_gpu_2.2.0。
pip install tensorflow-gpu==2.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
执行以下命令,安装 keras。
pip install keras -i https://pypi.tuna.tsinghua.edu.cn/simple
至此,已完成了基本深度学习库的安装。您可参考本文方法安装更多所需要的包,并利用 Anaconda 自带的 jupyter notebook、Spyder 具或者安装 PyCharm 等工具开始代码学习!