目录
申请GPU加速云服务器
安装64位补丁包
下载GPU驱动,CUDA并安装
下载Nvidia驱动
下载cuda
cuda10.1 update2 (426)实际下载链接:
cuda10.1 update1 (425.25)实际下载链接:
cuda10.0 (411.31)实际下载地址:
下载cudnn(加速包)
测试cuda
安装远程控制软件
安装python环境
1.安装python3.6.8
2.创建虚环境
3.安装相关库
4.测试GPU
错误处理
keras训练参数设置
测试了华为云的G1,用的Telsa M60-1Q显卡,预装了Nvidia驱动,但版本很旧,好像是369.71,对应的CUDA,tensorflow版本太低了,CUDA10安装,提示找不到兼容硬件。
然后选择了阿里云的vgn5i,用的Telsa P4显卡,可能是虚拟GPU的原因,CUDA10.1能安装,但是没办法启用GPU运算,错误信息是驱动跟CUDA版本对不上。
最后选择gn5i,用的Telsa P4显卡,正常安装CUDA。
按需付费模式
https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads
查看云服务器具体配置,下载对应的驱动和CUDA工具包
本次使用:CUDA 10.1 update2
https://www.nvidia.com/Download/index.aspx?lang=en-us
说明:本次配置未使用,直接用cuda安装的显卡驱动程序
查看GPU信息:
cd C:\Program Files\NVIDIA Corporation\NVSMI
执行 nvidia-smi
驱动安装检查版本426.00,CUDA10.1,如下图:
本次使用 cuda10.1 update2
版本选择链接:
https://developer.nvidia.com/cuda-10.1-download-archive-update2?target_os=Windows&target_arch=x86_64&target_version=Server2016&target_type=exelocal
https://developer.download.nvidia.cn/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_426.00_win10.exe
https://developer.download.nvidia.cn/compute/cuda/10.1/secure/Prod/local_installers/cuda_10.1.168_425.25_win10.exe?gazno7X2UvxOXezqf1ug4THKW4jk3tZRGWCpu9eUQvX6V4Q72kFVseXRlW2CRfoawkI4sLvQLaF3YZ0VI9hHnX00BU9CrAyVPQnw8O1IXDpjpHPvOkrQ_sotHFhqBWppAKP11TwjHH5bvAFvPCzBDOP_FBRlRhq_5d-1egSDrFaJeG2mlAZpnKPTQWI
https://developer.download.nvidia.cn/compute/cuda/10.0/secure/Prod/local_installers/cuda_10.0.130_411.31_win10.exe?Ijc5Vlv3MyHnHJPSeD7v5lzAE81HwHstlZsnaLBnnpzwm3ppQSbtTS28ilO2jCFMWFjHwFAMvg4RZByH-TGRQztaNom3kyJazZFB54eRXNKpk8rSrMBwxQ1GNDfvO4lW4kcBbN8Y9e26PKXInn7Fx4FffSj-7I3Z9IPRlC2H7XZxG-FHj21_f3Ch5SY
选择for cuda10.1版本,for Windows 10版本
https://developer.nvidia.com/rdp/cudnn-download
解压缩后,将所有目录复制到CUDA根目录即可
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1
cd C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite
执行 bandwidthTest
检查cuda是否安装成功
使用mstsc,Nvidia控制面板打不开,可能是导致tensorflow无法调用GPU的原因。
安装VNC Server(不知道是不是必须的,后面用远程桌面也能正常,也有可能是因为用vnc登录过)
客户端安装VNC Viewer
pip install virtualenv
virtualenv testenv
pip install tensorflow-gpu==2.1.0 -i https://mirrors.aliyun.com/pypi/simple/
pip install keras==2.3.1 -i https://mirrors.aliyun.com/pypi/simple/
pip install pillow -i https://mirrors.aliyun.com/pypi/simple/
pip install opencv-python -i https://mirrors.aliyun.com/pypi/simple/
pip install sklearn -i https://mirrors.aliyun.com/pypi/simple/
pip install jupyter -i https://mirrors.aliyun.com/pypi/simple/
python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
python -c "from tensorflow.python.client import device_lib;print(device_lib.list_local_devices())"
Could not load dynamic library 'cudart64_100.dll'; dlerror: cudart64_100.dll not found
将C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\bin\cudart64_101.dll复制一份,改为cudart64_100.dll
batch_size=8 3s-4s/epoch
batch_size=16 2s/epoch
batch_size=64 1s/epoch
batch_size=128 1s/epoch
batch_size=256 1s/epoch
每个训练集要反复训练多次,每次随机训练集与验证集。