GPU云服务器常见问题及故障解决方案

案例1、GPU 使用率显示 100%

现象描述

使用 GPU 计算型实例的过程中,在系统内部使用 nvidia-smi 查看 GPU 状态时,可能遇到没有运行任何使用 GPU 的应用,但 GPU 使用率显示100%的情况。如下图所示:

GPU云服务器常见问题及故障解决方案_第1张图片

可能原因

实例加载 NVIDIA 驱动时,ECC Memory Scrubbing 机制造成。

解决思路

在实例系统内执行 nvidia-smi -pm 1 命令,让 GPU Driver 进入 Persistence 模式。

处理步骤

  1. 登录 GPU 计算型实例,执行以下命令: nvidia-smi -pm 1

 

  1. 执行以下命令,检查 GPU 使用率: nvidia-smi GPU 使用率正常,如下图所示:

GPU云服务器常见问题及故障解决方案_第2张图片

案例2、控制台的 VNC 不可用

 

现象描述

通过 使用VNC登录Windows实例 或 使用VNC登录Linux实例,登录实例时,登录界面无法显示登录提示信息,例如黑屏或仅显示 Windows Logo。如下图所示:

GPU云服务器常见问题及故障解决方案_第3张图片

可能原因

 

  1. GPU 实例安装了图形驱动。 VNC 方式登录 GPU 实例时,默认访问 QEMU 模拟的 VGA 设备,获取操作系统的 Framebuffer,实现访问操作系统。安装了 GPU 图形驱动之后,Framebuffer 不再交由 VGA 处理,VNC 无法访问操作系统。

  2. 由于其他原因导致操作系统启动失败,例如安装了和系统冲突的第三方软件等。

解决方式

  1. 针对安装图形驱动的 GPU 实例,可在该实例中手动安装 VNC Server,用户即可在本地通过 VNC Client 进行登录。 请自行获取 VNC Server/Client 安装包。

  2. 检查已安装的第三方软件,分析其可能导致无法通过 VNC 方式登录实例的原因。 建议卸载该第三方软件,或重装系统。

GPU云服务器常见问题

1、什么是 NVIDIA Tesla?

NVIDIA Tesla(特斯拉)是 NVIDIA 继专业加速卡 QUADRO 及娱乐图形卡 GeForce 系列后,推出的一个全新的产品线,主要应用于广大科学研究的高性能计算需求。利用 NVIDIA® Tesla® GPU 加速器更快地处理要求超级严格的 HPC 与超大规模数据中心的工作负载。

2、什么是加速计算?

加速计算是指使用硬件加速器或协同处理器来执行浮点数计算和图形处理,比使用在 CPU 上运行的软件更高效。腾讯云提供三种加速计算选型:适用于通用计算的 GPU 计算型(GN2、GN8)和适用于图形密集型应用程序的 GPU 渲染型 GA2。

3、GPU 相对于 CPU 有哪些优势?

维度

GPU

CPU

核心数量

数千个加速核心(双卡 M40 高达 6144 个加速核心)

几十个核心

产品特点

1. 高效众多的运算单元(ALU)支持并行处理2. 多线程以到达超大并行吞吐量3. 简单的逻辑控制

1. 复杂的逻辑控制单元2. 强大的算数运算单元(ALU)3. 简单的逻辑控制

适用场景

计算密集、易于并行的程序

逻辑控制、串行运算的程序

4、何时应选择使用 GPU 的实例?

GPU 实例最适用于并行度极高的应用程序,例如,使用数千个线程的工作负载。当图形处理有大量的计算要求,其中的每个任务都相对较小时,执行的一组操作形成了一个管道,而此管道的吞吐量要比单个操作的延迟更为重要。要构建能充分利用这种并行度的应用程序,用户需要掌握 GPU 设备的专项知识,了解如何针对各种图形 API(DirectX、OpenGL) 或 GPU 计算编程模型(CUDA、OpenCL)进行编程。

5、GPU 实例如何安装驱动?

可结合实际情况,直接创建已安装 GPU 驱动的实例,或在已有实例上自行安装对应 GPU 驱动:

创建已安装GPU驱动的实例

在已有实例上安装GPU驱动

您可在创建 GPU 实例时,通过以下3种方式直接使用已安装 GPU 驱动的实例:

  • 在购买页的“镜像”中,选择公共镜像,勾选后台自动安装GPU驱动即可预装相应版本驱动,建议您选择该方式。该方式仅支持部分 Linux 公共镜像

  • 在购买页的“镜像”中,若选择镜像市场,则可选择已预装 GPU 驱动的镜像

  • 选择已预装 GRID 驱动的公共镜像的 vGPU 实例,无需单独安装驱动。

6、GPU 云服务器如何计费?

目前 GPU 云服务器支持包年包月计费模式和按量计费模式。包年包月计费模式需要您提前按单月或数月支付 GPU 云服务器的费用,适用于设备需求量长期稳定的成熟业务。按量计费模式是按秒计费,按小时结算,随时购买随时释放,适用于电商抢购等设备需求量瞬间大幅波动的场景。

7、GPU 云服务器是否支持调整实例配置?

GPU 云服务器 PNV4、GT4、GN10X/GN10Xp、GN6/GN6S、GN7、GN8、GNV4v、GNV4、GN7vw、GI1 支持同实例族下调整实例配置。 GI3X 暂时不支持调整实例配置。

8、GPU 云服务器是否支持访问 CVM ?

支持,GPU 云服务器具有内网 IP 和 公网 IP,支持与 CVM 等其他云产品互通访问。

如需更多技术问题,请联系腾讯云

你可能感兴趣的:(云计算,云服务器,linux,运维,服务器)