作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。下面是阿里云GPU云服务器的一些产品知识和常见问题及官方解答资料,以供大家参考和了解阿里云GPU云服务器。
一、什么是GPU云服务器
GPU 云服务器(GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚太第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。产品详情链接:https://www.aliyun.com/product/ecs/gpu
GPU云服务器概念
名词 | 说明 |
---|---|
GPU | 图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。 |
EGS | 弹性GPU服务(Elastic GPU Service)。阿里云弹性计算和GPU高速的并行异构的加速器的组合服务,兼具弹性计算的特点和GPU的加速能力。 |
CUDA | NVIDIA推出的通用并行计算架构,帮助您使用NVIDIA GPU解决复杂的计算问题。 |
cuDNN | NVIDIA推出的用于深度神经网络的GPU加速库。 |
AIACC-Training | 阿里云自研的AI加速器,可以显著提升训练性能。 |
AIACC-Inference | 阿里云自研的AI加速器,可以显著提升推理性能。 |
FastGPU | 阿里云推出的人工智能计算任务构建工具,提供便捷的接口和命令行,供您在阿里云IaaS资源上构建人工智能计算任务。 |
cGPU | 隔离GPU资源,实现多个容器共用一张显卡。 |
二、为什么选择GPU云服务器
阿里云GPU云服务器是基于GPU与CPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。GPU的功能特性如下:
- 拥有大量擅长处理大规模并发计算的算术逻辑单元(Arithmetic and Logic Unit,即ALU)。
- 能够支持多线程并行的高吞吐量运算。
- 逻辑控制单元相对简单。
下表为您介绍GPU云服务器与自建GPU服务器的区别。
对比项 | GPU云服务器 | GPU自建服务器 | 对比项 |
---|---|---|---|
灵活性 | 能够快速开通一台或多台GPU云服务器实例。 实例规格(vCPU和内存)支持灵活变更,并且支持在线升降配。 带宽升降自由。 |
服务器购买周期长。 服务器规格固定,无法灵活变更。 带宽一次性购买,无法自由升降。 |
灵活性 |
易用性 | Web在线管理,简单方便。 内置主流的操作系统,Windows正版激活,且支持在线更换操作系统。 GPU驱动可以在购买时一并安装,方便快捷。 |
没有在线管理工具,维护困难。 需用户自备操作系统,自行安装及更换。 GPU驱动需要自行购买安装。 |
易用性 |
容灾备份 | 三副本数据设计,单份损坏可在短时间内快速恢复。 硬件故障事故中可快速自动恢复。 |
用户自行搭建,使用普通存储设备,价格高昂。 数据损坏需用户修复。 |
容灾备份 |
安全性 | 能够有效阻止MAC欺骗和ARP攻击。 并防护DDoS攻击,可进行流量清洗和黑洞。 享有端口入侵扫描、挂马扫描、漏洞扫描等附加服务。 |
很难阻止MAC欺骗和ARP攻击。 清洗和黑洞设备需要另外购买,价格昂贵。 普遍存在漏洞挂马和端口扫描等问题。 |
安全性 |
成本 | 支持包年包月及按量付费两种购买方式,可灵活选择适合您业务场景的付费方式。 按需购买,无需一次性大量投入。 |
无法按需购买,必须为业务峰值满配。 一次性投入巨大,闲置浪费严重。 |
成本 |
三、阿里云GPU云服务器产品优势
1、覆盖范围广阔
阿里云GPU云服务器在全球17个地域实现规模部署,覆盖范围广,结合弹性供应、弹性伸缩等交付方式,能够很好地满足您业务的突发需求。
2、超强计算能力
阿里云GPU云服务器配备业界超强算力的GPU计算卡,结合高性能CPU平台,单实例可提供高达1000 TFLOPS的混合精度计算性能。
3、网络性能出色
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上,超级计算集群产品中,节点间额外提供高达50 Gbit/s的RDMA网络,满足节点间数据传输的低延时高带宽要求。
4、购买方式灵活
支持灵活的资源付费模式,包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。用户可以按需要购买,避免资源浪费。
阿里云GPU云服务器计费方式
GPU云服务器的计费相关功能和云服务器ECS一致,其中,计算资源(vCPU和内存)、镜像、块存储、公网带宽以及快照等资源涉及计费。常见的计费方式如下所示:
- 包年包月:按一定时长购买资源,先付费后使用。
- 按量付费:按需开通和释放资源,先使用后付费。
- 抢占式实例:通过竞价模式抢占库存充足的计算资源,相对按量付费实例有一定的折扣,但是存在回收机制。
- 预留实例券:搭配按量付费实例使用的抵扣券,承诺使用指定配置的实例(包括实例规格、地域可用区等),以折扣价抵扣计算资源的账单。
- 节省计划:搭配按量付费实例使用的折扣权益计划,承诺使用稳定数量的资源(以元/小时为单位衡量),以折扣价抵扣计算资源、系统盘等资源的账单。
- 存储容量单位包:搭配按量付费存储产品使用的资源包,承诺使用指定容量的存储资源,以折扣价抵扣块存储、NAS、OSS等资源的账单。
一台GPU实例包括计算资源(vCPU和内存)、镜像、块存储等资源,其中涉及计费的GPU资源如下表所示。
计费项 | 计费说明 | 计费方式 | 转换计费方式 | 计费标准 |
---|---|---|---|---|
计算资源(vCPU和内存) | 即实例规格涉及的计算资源费用(包括vCPU和内存)。 | 包年包月 按量付费 按量付费+预留实例券 抢占式实例 按量付费+节省计划 |
包年包月转按量付费 按量付费转包年包月 |
实例规格计费 |
镜像 | 根据镜像类型以及使用情况决定是否收费。例如,公共镜像、自定义镜像、共享镜像或镜像市场镜像的计费情况也有所区别。 | 包年包月 按量付费 按量付费+预留实例券 |
不支持 | 镜像计费 |
块存储 | 云盘:根据单价、云盘容量和使用时长收取费用,并且创建云盘的方式不同会影响支持的计费方式。 本地盘:与特定实例规格绑定的本地盘,不支持单独购买,且费用已计入实例规格费用。 |
包年包月 按量付费 存储容量单位包 按量付费+节省计划 |
转换云盘计费方式 包年包月转按量付费 按量付费转包年包月 |
块存储计费 |
公网带宽 | 使用固定公网IP访问公网时,仅收取公网出网带宽费用。 使用弹性公网IP(EIP)或NAT网关访问公网时,弹性公网IP(EIP)和NAT网关是需要独立购买。 |
按固定带宽计费 按使用流量计费 |
转换公网带宽计费方式 | 公网带宽计费 |
快照 | 快照的计费项目包括快照、快照复制以及快照极速可用。计费时会按快照容量和存储时长收取费用。 | 快照的计费项目包括快照、快照复制以及快照极速可用。计费时会按快照容量和存储时长收取费用。 | 不支持 | 快照计费 |
四、阿里云GPU云服务器应用场景
1、直播实时视频转码
阿里云异构GPU和FPGA服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。其中FPGA H.265高清编码、720P节省带宽21.6%,GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过流量洪峰。异构GPU云服务器还参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例,支持淘宝渲染方提升几十倍的渲染性能,第一次实现秒级实时渲染,完成总计超过5000张大型家居渲染图。异构FPGA图片转码业务则以3K+片的超大集群,为淘宝图片空间提供高达数百万QPS的处理能力,承担了双十一淘宝图片85%的流量,预计节省计算成本3亿。
2、AI训练
gn6v和gn6e具有优异的通用GPU计算加速能力,适合为深度学习提供加速引擎。
gn6v和gn6e实例分别配备具有16 GB显存和32 GB显存的NVIDIA V100 GPU计算卡,单节点可提供高达1000TFLOPS的混合精度计算能力。与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。
3、AI推理
gn6i具有优异的AI推理能力。
gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡,单精度浮点计算能力最高可达8.1 TFLOPS,int8定点运算处理能力最高可达130 TOPS,支持混合精度,满足了深度学习(尤其是推理)场景下的算力需求。同时单卡功耗仅75 W,具有极高的性能功耗比。与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像,简化您的部署操作。
4、云游戏、云网吧和云端图形工作站
vgn6i和gn6i均采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。vgn6i提供分片虚拟化后的虚拟GPU,支持T4 GPU计算能力的1/2、1/4、1/8,并提供极佳的3D图像渲染能力,适用于云游戏、云网吧等场景。vgn6i和gn6i实例可以结合云桌面产品提供云端图形工作站服务,应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。
五、阿里云GPU云服务器使用限制
GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的使用限制。使用云服务器ECS有下列限制:
- 仅弹性裸金属服务器和超级计算集群支持二次虚拟化,其他规格族不支持安装虚拟化软件和二次虚拟化。
- 不支持声卡应用。
- 不支持直接加载外接硬件设备(如硬件加密狗、U盘、外接硬盘、银行UKey等),您可以尝试软件加密狗或者动态口令二次验证等。
- 不支持多播协议。如果需要使用多播,建议改为使用单播点对点方式。
- 日志服务不支持32位Linux系统云服务器。
- 如果云服务器需要备案,则云服务器有购买要求,且每台ECS实例可申请的备案服务号数量有限。
- 部分软件或应用的许可证(License)需要与云服务器的硬件信息绑定。当云服务器进行迁移操作时可能会引起硬件信息的变更,进而导致License失效。
六、阿里云GPU云服务器实例规格族有哪些?
实例是能够为您的业务提供计算服务的最小单位,不同的实例规格可以提供的计算能力也不同。根据业务场景和使用场景,ECS实例可以分为多种实例规格族,GPU实例属于ECS实例中的一类实例规格。GPU实例在提供GPU加速能力的同时,保留了与普通ECS实例一致的使用体验。在创建ECS实例时,请选择企业级异构计算规格族群、弹性裸金属服务器和超级计算集群(SCC)实例规格族群下的GPU实例规格即可。
1、企业级异构计算规格族群
- GPU虚拟化型实例规格族sgn7i-vws(共享CPU)
- GPU虚拟化型实例规格族vgn7i-vws
- GPU计算型实例规格族gn7e
- GPU计算型实例规格族gn7i
- GPU计算型实例规格族gn7s
- GPU计算型实例规格族gn7
- GPU计算型实例规格族gn7r
- GPU虚拟化型实例规格族vgn6i/vgn6i-vws
- GPU计算型实例规格族gn6i
- GPU计算型实例规格族gn6e
- GPU计算型实例规格族gn6v
- 异构服务型实例规格族video-trans
- FPGA计算型实例规格族f3
- 视觉计算型实例规格族ebmgi6s
- GPU虚拟化型实例规格族vgn5i
- GPU计算型实例规格族gn5
- GPU计算型实例规格族gn5i
2、弹性裸金属服务器和超级计算集群(SCC)实例规格族群
- GPU计算型弹性裸金属服务器实例规格族ebmgn7ex
- GPU计算型弹性裸金属服务器实例规格族ebmgn7vx
- GPU计算型弹性裸金属服务器实例规格族ebmgn7e
- GPU计算型弹性裸金属服务器实例规格族ebmgn7ix
- GPU计算型弹性裸金属服务器实例规格族ebmgn7i
- GPU计算型弹性裸金属服务器实例规格族ebmgn7
- GPU计算型弹性裸金属服务器实例规格族ebmgn6ia
- GPU计算型弹性裸金属服务器实例规格族ebmgn6e
- GPU计算型弹性裸金属服务器实例规格族ebmgn6v
- GPU计算型弹性裸金属服务器实例规格族ebmgn6i
- 计算型弹性裸金属服务器实例规格族ebmc7
- 计算型弹性裸金属服务器实例规格族ebmc7a
- 计算型弹性裸金属服务器实例规格族ebmc6me
- 计算型弹性裸金属服务器实例规格族ebmc6a
- 计算型(平衡增强)弹性裸金属服务器实例规格族ebmc6e
- 计算型弹性裸金属服务器实例规格族ebmc6
- 存储增强型弹性裸金属服务器实例规格族ebmg7se
- 通用型弹性裸金属服务器实例规格族ebmg7
- 通用型弹性裸金属服务器实例规格族ebmg7a
- 通用型弹性裸金属服务器实例规格族ebmg6a
- 通用型(平衡增强)弹性裸金属服务器实例规格族ebmg6e
- 通用型弹性裸金属服务器实例规格族ebmg6
- 内存型弹性裸金属服务器实例规格族ebmr7
- 内存型弹性裸金属服务器实例规格族ebmr7a
- 内存型弹性裸金属服务器实例规格族ebmr6a
- 内存型(平衡增强)弹性裸金属服务器实例规格族ebmr6e
- 内存型弹性裸金属服务器实例规格族ebmr6
- 持久内存增强型弹性裸金属服务器实例规格族ebmre6p
- 内存增强型弹性裸金属服务器实例规格族ebmre6-6t
- 高主频通用型弹性裸金属服务器实例规格族ebmhfg7
- 高主频计算型弹性裸金属服务器实例规格族ebmhfc7
- 高主频内存型弹性裸金属服务器实例规格族ebmhfr7
- 高主频通用型弹性裸金属服务器实例规格族ebmhfg6
- 高主频计算型弹性裸金属服务器实例规格族ebmhfc6
- 高主频内存型弹性裸金属服务器实例规格族ebmhfr6
- 本地SSD型弹性裸金属服务器实例规格族ebmi2g
- 通用型超级计算集群实例规格族sccg7
- 计算型超级计算集群实例规格族sccc7
- 高主频计算型超级计算集群实例规格族scchfc6
- 高主频通用型超级计算集群实例规格族scchfg6
- 高主频内存型超级计算集群实例规格族scchfr6
- 高主频型超级计算集群实例规格族scch5
- 通用型超级计算集群实例规格族sccg5
- GPU计算型超级计算集群实例规格族sccgn7ex
- GPU计算型超级计算集群实例规格族sccgn6e
- GPU计算型超级计算集群实例规格族sccgn6
七、阿里云GPU云服务器最新政策
1、新人/首购活动:仅限GPU产品新用户参与,即在阿里云首次购买GPU云服务器的用户。首次购买GPU云服务器如下配置包月5折,1/2年4折,限1次,限1台(该优惠不含带宽,系统盘,数据盘):
gn6i(4核15G/8核31G/16核62G/24核93G/40核155G/48核186G/96核372G)
gn6v(8核32G/32核128G/64核256G/82核336G)
gn7i(32核188G)
2、官网折扣活动:GPU产品新用户或老用户均可参与,包含新购和续费。
(1)购买/续费GPU云服务器如下配置包月6折,1年 4.5折;2年 3.7折;3-5年 2.9折,不限制购买数量。(该优惠不含带宽,系统盘,数据盘):
gn6v(8核32G/32核128G/64核256G/82核336G)
(2)购买/续费GPU云服务器如下配置1年 5折;2年 4.1折;3-5年 3.2折,不限制购买数量。(该优惠不含带宽,系统盘,数据盘):
gn6i(4核15G/8核31G/16核62G/24核93G/40核155G/48核186G/96核372G)
3、官网目录价直降
调整范围说明:
(1)A10 c8g1系列及c16g1系列(包含ecs.gn7i-c8g1.2xlarge 、ecs.gn7i-c16g1.4xlarge),中国内地地域(不含河源)列表价降低25%,河源地域降低32.5%。
(2)A10 c32g1系列(包含ecs.gn7i-c32g1.8xlarge 、ecs.gn7i-c32g1.16xlarge 、ecs.gn7i-c32g1.32xlarge)和A10裸金属实例(ecs.ebmgn7i.32xlarge),中国内地地域(不含河源)列表价降低11%,河源地域降低19.9%。
以上降幅包含月价、小时价、预留实例券及节省计划。
更多配置阿里云服务器详细活动价格查询:https://www.aliyun.com/daily-act/ecs/activity_selection
八、阿里云gpu常见问题及解答
1、为什么Windows操作系统不支持DirectX等功能?
由于Windows自带的远程连接(RDP)协议本身并不支持DirectX、OpenGL等相关应用。因此,您需要自行安装TightVNC服务和客户端,或其它支持PCOIP、XenDesktop HDX 3D等协议的远程连接客户端。
2、GPU实例支持安卓模拟器吗?
仅GPU计算型弹性裸金属服务器实例规格族ebmgn7e、ebmgn7ex、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i以及sccgn7ex支持安卓模拟器,其他类型的GPU实例不支持安卓模拟器。
3、我能变更GPU实例的配置吗?
除以下GPU实例规格族不支持变配外,其他GPU实例规格族均支持本规格族内的变配操作。
- 带本地存储的GPU实例:gn5
- GPU虚拟化型实例:vgn5i
4、按量付费GPU实例支持节省停机模式吗?
带本地存储的GPU实例规格族不支持按量付费实例节省停机模式,例如gn5。
5、如何查看GPU监控数据?
您可以通过云监控控制台或DescribeMetricList查看GPU监控数据。
6、如何在GPU实例和普通ECS实例间传输数据?
GPU实例除GPU加速能力外,保留了与普通ECS实例一致的使用体验。同一安全组内的GPU实例和ECS实例之间默认内网互通,无需特别设置。
7、GPU与CPU有什么区别?
GPU与CPU的对比如下表所示:
对比项 | GPU | CPU |
---|---|---|
算术运算单元(ALU) | 拥有大量擅长处理大规模并发计算的算术运算单元(ALU)。 | 拥有强大的算术运算单元(ALU),但数量较少。 |
逻辑控制单元 | 拥有相对简单的逻辑控制单元。 | 拥有复杂的逻辑控制单元。 |
缓存 | 拥有很少的缓存,且缓存用于服务线程,而不是用于保存访问的数据。 | 拥有大量的缓存结构,能够将数据保存至缓存,从而提高访问速度,降低时延。 |
响应方式 | 需要将全部任务整合后,再进行批处理。 | 实时响应,对单个任务的响应速度较高。 |
适用场景 | 适用于计算密集,相似度高,且多线程并行的高吞吐量运算场景。 | 适用于对响应速度有要求,且逻辑复杂的串行运算场景。 |
8、普通ECS实例规格族是否支持升级或变更为GPU实例规格族?
普通ECS实例规格族不支持直接升级或变更为GPU实例规格族。
如果您的业务涉及AI推理相关内容,您可以购买弹性加速计算实例EAIS,通过该服务实现为ECS实例远程增加GPU显卡的效果。EAIS能够将CPU资源与GPU资源解耦,帮助您将GPU资源附加到ECS实例上,构建成您希望得到的GPU实例规格。
9、Windows操作系统的GPU实例安装GRID驱动后,通过控制台VNC远程连接实例出现黑屏怎么办?
原因:当Windows操作系统的GPU实例安装了GRID驱动后,VM的显示输出被GRID驱动接管,VNC无法再获取到集成显卡的画面,因此,VNC显示会变成黑屏状态,属于正常现象。
解决办法:使用Workbench连接GPU实例。
10、为什么购买GPU实例后,执行命令nvidia-smi找不到GPU显卡?
当您执行命令nvidia-smi无法找到GPU显卡时,通常是由于您的GPU实例未安装或者未成功安装NVIDIA驱动。请根据您所购买的GPU实例规格选择对应的操作指引来安装驱动,具体说明如下:
- 如果您购买的是GPU虚拟化型实例,请务必安装GRID驱动。
- 如果您购买的是GPU计算型实例,可以安装GPU驱动。
11、如何查询GPU显卡的详细信息?
不同操作系统的GPU实例,查看GPU显卡信息的操作有所区别,具体说明如下:
- 如果您的GPU实例安装了Linux操作系统,您可以执行命令nvidia-smi,查询GPU显卡的详细信息。
- 如果您的GPU实例安装Windows操作系统,您可以在设备管理器中查看GPU显卡的详细信息。
- 如果您需要了解GPU显卡的空闲率、使用率、温度以及功率等信息,可以前往云监控控制台查看。
12、普通ECS实例可以增加GPU显卡吗?
如果您的业务涉及AI推理相关内容,您需要购买弹性加速计算实例EAIS,该服务能够将CPU资源与GPU资源解耦,帮助您将GPU资源附加到ECS实例上,构建成您希望得到的GPU实例规格,从而实现为ECS实例远程增加GPU显卡。
13、为什么创建GPU实例时选择的CUDA版本与安装完成后查看到的CUDA版本不一致?
您执行命令nvidia-smi查询到的CUDA版本代表您的GPU实例能够支持的最高CUDA版本,并不代表您创建GPU实例时选择的CUDA版本。
14、在GPU计算型实例上使用OpenGL、Direct3D等工具做图形计算时,需要安装什么驱动?
请根据您使用的GPU实例的操作系统安装对应的驱动,具体说明如下所示:
- 如果您使用的是Linux操作系统,请安装GPU驱动。
- 如果您使用的是Windows操作系统,请前往云市场购买配备了GRID驱动的镜像,如Windows Server 2019 中文版预装GRID驱动镜像、Windows Server 2016 中文版预装GRID驱动镜像,然后再手动安装即可。
15、如何获取GRID License?
请根据您使用的操作系统查看对应的获取方式,具体说明如下所示:
- 如果您需要在Windows操作系统的GPU实例上安装GRID驱动,请前往云市场购买配备了GRID驱动的镜像,如Windows Server 2019 中文版预装GRID驱动镜像、Windows Server 2016 中文版预装GRID驱动镜像,然后再手动安装即可。
- 如果您需要在Linux操作系统的GPU虚拟化型实例上安装GRID驱动,请先提交工单获取GRID License,再手动安装GRID驱动。
16、如何安装cGPU服务?
无论您是企业认证用户还是个人实名认证用户,推荐您通过ACK的共享GPU组件使用cGPU服务。
17、更换操作系统时,如何取消自动安装GPU驱动?
在创建GPU实例时,如果选择了安装GPU驱动选项,则创建实例后会自动安装GPU驱动。如果您需要更换该实例的操作系统,并且需要同时取消自动安装GPU驱动的功能,请参考以下操作步骤:
- 停止GPU实例。
- 在实例列表中,找到已停止的GPU实例,在对应操作列,选择icon1 > 实例设置 > 设置用户数据。
- 在用户数据:区域,删除用户数据内容,然后单击确定。
- 更换GPU实例的操作系统。
更换操作系统的本质是更换系统盘,您可以通过更换实例的镜像来更换操作系统。