GPU服务器常见故障修复记录

日常写代码写方案文档,偶尔遇上服务器出现问题的时候,也需要充当一把运维工程师,此帖用来记录GPU服务器报错的一些解决方案,仅供参考!

文章目录

  • 一、服务器简介
  • 二、机箱拆解
  • 三、基本操作
  • 四、常见故障
    • 4.1 电源开关键闪烁
    • 4.2 开机后紫屏
    • 4.3 开机出现grub指令
    • 4.4 开机显示recovering journal
    • 4.5 开机显示No bootable devices found

一、服务器简介

  • 服务器品牌:DELL Precision 7920 塔式工作站
    GPU服务器常见故障修复记录_第1张图片

  • 服务器配置:
    – 操作系统:Ubuntu 18.04
    – CPU:16核(型号Intel® Xeon® Gold 5222 CPU @ 3.80GHz)
    – GPU:GeForce RTX 2080 Ti (品牌NVIDIA,2块显卡)
    – 内存:64G

二、机箱拆解

GPU服务器常见故障修复记录_第2张图片 GPU服务器常见故障修复记录_第3张图片

三、基本操作

1. 进入BIOS

开机时,按F2键

2. 进入GRUB模式

开机时,按ESC键

GPU服务器常见故障修复记录_第4张图片

切换内核版本:选择 Advanced options for Ubuntu
GPU服务器常见故障修复记录_第5张图片

四、常见故障

之前遇到过一些问题,这里做个简单的记录。

4.1 电源开关键闪烁

  • 故障描述:电源开关键一直闪烁,无法进入系统界面。
  • 故障原因:硬盘松动。
  • 解决方案:重新固定好硬盘即可。

4.2 开机后紫屏

  • 故障描述:开机后紫屏,卡住无法进入系统。
  • 故障原因:Ubuntu开机默认会进入最新的内核,系统最新内核更新失败,无法启动系统。
  • 解决方案:修复内核;选择其他内核进入系统,删除故障内核。
    – 解决ubuntu开机紫屏的问题

4.3 开机出现grub指令

  • 故障描述:开机时卡在GRUB命令行界面,无法正常启动。
    GPU服务器常见故障修复记录_第6张图片
  • 故障原因:

GNU GRUB是多重引导加载程序。通俗点说,它就是用来一个可以让你选择运行什么操作系统的程序。在你开机的时候,它是第一个运行的程序。它决定着,将计算机的控制权给哪个系统内核。然后系统内核将进一步初始化、处理操作系统的其他部分。

  • 解决方案:
    – Ubuntu无法正常开机,出现grub指令

4.4 开机显示recovering journal

  • 故障描述:开机显示recovering journal,无法进入系统。
  • 故障原因:磁盘空间占满无法启动。
  • 解决方案:
    – ubuntu踩坑笔记–开机进入recovering journal解决方法

4.5 开机显示No bootable devices found

  • 故障描述:开机显示No bootable devices found,无法进入系统。
  • 故障原因:
  • 解决方案:切换Legacy/UEFI启动方式;硬件检测;
    – Ubuntu开机显示No bootable devices found

你可能感兴趣的:(操作系统,服务器,数据库,运维)