配置云服务器GPU做keras训练

目录

申请GPU加速云服务器

安装64位补丁包

下载GPU驱动,CUDA并安装

下载Nvidia驱动

下载cuda

cuda10.1 update2 (426)实际下载链接:

cuda10.1 update1 (425.25)实际下载链接:

cuda10.0 (411.31)实际下载地址:

下载cudnn(加速包)

测试cuda

安装远程控制软件

安装python环境

1.安装python3.6.8

2.创建虚环境

3.安装相关库

4.测试GPU

错误处理

keras训练参数设置



 

申请GPU加速云服务器

测试了华为云的G1,用的Telsa M60-1Q显卡,预装了Nvidia驱动,但版本很旧,好像是369.71,对应的CUDA,tensorflow版本太低了,CUDA10安装,提示找不到兼容硬件。

 

然后选择了阿里云的vgn5i,用的Telsa P4显卡,可能是虚拟GPU的原因,CUDA10.1能安装,但是没办法启用GPU运算,错误信息是驱动跟CUDA版本对不上。

 

最后选择gn5i,用的Telsa P4显卡,正常安装CUDA。

按需付费模式

 

安装64位补丁包

https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads

 

下载GPU驱动,CUDA并安装

查看云服务器具体配置,下载对应的驱动和CUDA工具包

本次使用:CUDA 10.1 update2

 

下载Nvidia驱动

https://www.nvidia.com/Download/index.aspx?lang=en-us

说明:本次配置未使用,直接用cuda安装的显卡驱动程序

 

查看GPU信息:

cd C:\Program Files\NVIDIA Corporation\NVSMI

执行 nvidia-smi

驱动安装检查版本426.00,CUDA10.1,如下图:

配置云服务器GPU做keras训练_第1张图片

 

下载cuda

本次使用 cuda10.1 update2

版本选择链接:

https://developer.nvidia.com/cuda-10.1-download-archive-update2?target_os=Windows&target_arch=x86_64&target_version=Server2016&target_type=exelocal

 

cuda10.1 update2 (426)实际下载链接:

https://developer.download.nvidia.cn/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_426.00_win10.exe

 

cuda10.1 update1 (425.25)实际下载链接:

https://developer.download.nvidia.cn/compute/cuda/10.1/secure/Prod/local_installers/cuda_10.1.168_425.25_win10.exe?gazno7X2UvxOXezqf1ug4THKW4jk3tZRGWCpu9eUQvX6V4Q72kFVseXRlW2CRfoawkI4sLvQLaF3YZ0VI9hHnX00BU9CrAyVPQnw8O1IXDpjpHPvOkrQ_sotHFhqBWppAKP11TwjHH5bvAFvPCzBDOP_FBRlRhq_5d-1egSDrFaJeG2mlAZpnKPTQWI

 

cuda10.0 (411.31)实际下载地址:

https://developer.download.nvidia.cn/compute/cuda/10.0/secure/Prod/local_installers/cuda_10.0.130_411.31_win10.exe?Ijc5Vlv3MyHnHJPSeD7v5lzAE81HwHstlZsnaLBnnpzwm3ppQSbtTS28ilO2jCFMWFjHwFAMvg4RZByH-TGRQztaNom3kyJazZFB54eRXNKpk8rSrMBwxQ1GNDfvO4lW4kcBbN8Y9e26PKXInn7Fx4FffSj-7I3Z9IPRlC2H7XZxG-FHj21_f3Ch5SY

 

下载cudnn(加速包)

选择for cuda10.1版本,for Windows  10版本

https://developer.nvidia.com/rdp/cudnn-download

解压缩后,将所有目录复制到CUDA根目录即可

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1

 

测试cuda

cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite

执行 bandwidthTest

检查cuda是否安装成功

 

安装远程控制软件

使用mstsc,Nvidia控制面板打不开,可能是导致tensorflow无法调用GPU的原因。

 

安装VNC Server(不知道是不是必须的,后面用远程桌面也能正常,也有可能是因为用vnc登录过)

客户端安装VNC Viewer

 

安装python环境

 

1.安装python3.6.8

 

2.创建虚环境

pip install virtualenv

virtualenv testenv

 

3.安装相关库

pip install tensorflow-gpu==2.1.0 -i https://mirrors.aliyun.com/pypi/simple/

pip install keras==2.3.1 -i https://mirrors.aliyun.com/pypi/simple/

pip install pillow -i https://mirrors.aliyun.com/pypi/simple/

pip install opencv-python -i https://mirrors.aliyun.com/pypi/simple/

pip install sklearn -i https://mirrors.aliyun.com/pypi/simple/

pip install jupyter -i https://mirrors.aliyun.com/pypi/simple/

 

4.测试GPU

python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"

 

python -c "from tensorflow.python.client import device_lib;print(device_lib.list_local_devices())"

错误处理

 Could not load dynamic library 'cudart64_100.dll'; dlerror: cudart64_100.dll not found

将C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin\cudart64_101.dll复制一份,改为cudart64_100.dll

 

keras训练参数设置

batch_size=8       3s-4s/epoch

batch_size=16     2s/epoch

batch_size=64     1s/epoch

batch_size=128   1s/epoch

batch_size=256   1s/epoch

 

每个训练集要反复训练多次,每次随机训练集与验证集。

 

你可能感兴趣的:(python)