英伟达新发布的RTX 2080 Ti跑深度学习怎么怎么样?
美国人工智能公司Lambda用TensorFlow测试了RTX 2080 Ti。相比1080 Ti, 2080 Ti值得买么?
· 在RTX 2080 Ti上用TensorFlow单精度(FP32)训练CNN比1080 Ti快27%到45%。
· 在RTX 2080 Ti上用TensorFlow半精度(FP16)训练CNN比1080 Ti快60%到65%。
· 如果你做FP16训练,RTX 2080 Ti可能物有所值。做其他训练的话,你需要考虑是否值得为平均增加36%的速度增加71%的成本。
我们用TensorFlow模型对2080 Ti和1080 Ti进行了单精度(FP32)训练的基准测试,计量每秒处理的图像(图像/秒)。基准测试可以在文末传送门处找到,下文会提到具体方法。
半精度算术足以训练许多网络。我们对VGG16和ResNet-152的半精度(FP16)训练的2080 Ti和1080 Ti进行基准测试,计量的还是每秒处理的图像(图像/秒)。使用Yusaku Sako基准脚本进行测试。
因为2080 Ti和1080 Ti这两张款GPU都有11 GB的内存,所以我们会考虑在它们身上花的每一分钱值不值。
计量的指标是每美元每秒处理的图像数量。对于FP32和FP16,1080 Ti每美元会花的更值。
然而,Yusaku Sako基准测试中的FP16 ResNet-152的效率增益仅为1080 Ti的4%。对于FP32,ResNet-152的效率提升为21%,VGG16提高37%。
我们分别以700美元和1200美元的发售价来计算1080 Ti和2080 Ti的价格。
因此,如果你要做FP32训练,1080 Ti可能依然是最佳选择,尤其是在荷包压力比较大的情况下。
· 对于每个模型,我们进行了10次训练实验,计数每秒处理的测量图像,取平均值。
· 加速基准是通过每秒处理的图像数量除以该模型每秒处理的图像数量最小值为得分来计算的。这基本上显示了相对于基线的百分比改善(在这种情况下为1080 Ti)。
· 2080 Ti在基准测试中有张量核心。
· Lambda Quad Basic
· RAM:64 GB DDR4 2400 MHz
· 处理器:Intel Xeon E5-1650 v4
· 主板:华硕X99-E WS / USB 3.1
· GPU:EVGA XC 2080 Ti GPU TU102和华硕1080 Ti Turbo GP102
· Ubuntu 18.04(仿生)
· TensorFlow 1.11.0-rc1
· CUDA 10.0.130
· CuDNN 7.3
Lambda Lab已经把基准测试代码开源了,你也可以自己尝试重现一下。
1git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive
· 输入正确的gpu_index(默认值为0)和num_iterations(默认值为10)
1cd lambda-tensorflow-benchmark
2./benchmark.sh gpu_index num_iterations
· 检查repo目录中的文件夹 - .logs(由benchmark.sh生成)
· 在基准测试和报告中使用相同的num_iterations。
1./report.sh <cpu>-<gpu>.logs num_iterations
Lambda Lab测试原文:
https://lambdalabs.com/blog/2080-ti-deep-learning-benchmarks/
github基准测试代码:
https://github.com/lambdal/lambda-tensorflow-benchmark
Yusaku Sako基准脚本:
https://github.com/u39kun/deep-learning-benchmark
— 完 —
加入社群
量子位AI社群28群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态