服务器 Raid 第3章 故障处理

[TOC]

服务器 Raid 第3章 故障处理

本次使用IBM x3650 M3的服务器作为实验服务器使用LSI芯片RIAD卡 支持Web BIOS

来自叽的提示,当服务器出现故障到到达现场后请:

==不要慌==!

==不要慌==!

==不要慌==!

毕竟都已经凉了慌了也没有用,越忙越容易出错。

服务器 Raid 第3章 故障处理_第1张图片

这里推荐先检查服务器前信息板卡有无报错,在登陆服务器IPMI管理口查看服务器事件日志。
服务器事件日志在
Eventlog中查看


服务器 Raid 第3章 故障处理_第2张图片

关于诊断面板(IBM 3650 M3)

主要涉及两个指示灯(当硬件故障时告警会有提示)

  • DASD (其他服务器也有叫DEV或者HD的)
  • Riad
服务器 Raid 第3章 故障处理_第3张图片

DASD故障解释:

发生硬盘驱动器错误,这个需要检查是否有硬盘有故障指示灯亮起。
如硬盘故障灯亮起。 则需要更换硬盘

下图为硬盘凉了的告急,如果没做的Raid你就凉透了

服务器 Raid 第3章 故障处理_第4张图片

服务器 Raid 第3章 故障处理_第5张图片

显示器也会出现如下报错(那你系统是悲剧了)

服务器 Raid 第3章 故障处理_第6张图片

故障处理

其实如果在部署的时候,配置了Riad 1、5、6、10可以直接将备件硬盘更换上即可。(这个时候raid卡会自动同步新盘的数据)


Raid是服务器数据的核心直接决定服务器业务的生死。(服务器部署一定要做Riad)

加电状态下更换(SAS完全没有问题 如果业务可以停 STAT盘其实最好关机更换强迫症)

有时会发现加入磁盘无法同步,进入WEBBIOS 选择后加入的硬盘,将其设置"Make Unconfi good"后,再设置成热备盘就可以自动同步了。


服务器 Raid 第3章 故障处理_第7张图片

RaiD故障解释:

Raid 控制器故障。若无法进入控制器建议重新更换控制器。

故障处理

把Raid卡换了就可以了。更换后需要重新导入阵列信息。

关于服务器硬盘的位置改变的问题

==关机的情况下==将磁盘拔出,调换顺序,对阵列本身无任何影响。
但阵列卡设置中,会发现磁盘顺序变更。
这里的调换 包括硬盘的排列顺序和硬盘的位置。
这里虽然进入了系统 服务器 DASD在报错

服务器 Raid 第3章 故障处理_第8张图片

服务器 Raid 第3章 故障处理_第9张图片

这里还是建议记录一个每个硬盘的位置啦特别是第一块硬盘。

服务器硬盘迁移至备用服务器

这里是确认了服务器硬盘没有损坏,数据完整情况下。
如服务器出现:

  • 服务器主板损坏,急需拷贝数据,恢复至其他服务器进行临时使用。

阵列卡(同型号和不同型号)
将故障服务器关机,拆下硬盘,放入备用服务器开机后需要先进入WeBBIOS,进入后阵列卡会提示有新的阵列信息,是否需要导入(选择Preview导入)。

注意 选择导入配置的时候 部分阵列信息和所有阵列信息

服务器 Raid 第3章 故障处理_第10张图片

读取到阵列配置以后直接将硬盘阵列导入阵列卡即可恢复系统(选择improt )

服务器 Raid 第3章 故障处理_第11张图片

关于Miss解释

当硬盘被意外拔出后会出现此状态

服务器 Raid 第3章 故障处理_第12张图片

关于unconfigured bad 处理

进入此状态硬盘,重新标记为Make Unconfi good 若还是此状态那你的盘就凉凉了


服务器 Raid 第3章 故障处理_第13张图片

关于Rebuild

无法自动同步的情况下,需要重新启动服务器进入WebBioss使用手动重构的方式。(一般把盘激活后设置为HSP)

服务器 Raid 第3章 故障处理_第14张图片

重构时候,可以点击进入查看进度。(此时可以重启服务器进入系统。无需在此界面等待)


服务器 Raid 第3章 故障处理_第15张图片

  • 不同型号阵列卡
    进入系统时如果系统没有Raid 卡驱动,存在服务器无法进入系统情况,但阵列恢复后可以使用PE进行数据的拷贝。


    服务器 Raid 第3章 故障处理_第16张图片

    服务器 Raid 第3章 故障处理_第17张图片

你可能感兴趣的:(服务器 Raid 第3章 故障处理)