故障描述:
今天突然接到报警,一台服务器无法连通,无法登录、无法 ping 通。
打电话到 IDC ,授权工程师查看服务器状态,返回结果如下:
1、服务器关机状态
2、无法开机 ( 电源灯亮 ),按开机键没反应。
3、尝试拔掉电源,等待几分钟后再次开机,结果还是不行。
这是一台宿主机,上面开了 5 个虚拟机,一下子全狗带了... 关键数据还在里面。
好在,受影响的业务不是主要业务,但也处于无法提供服务的状态。
解决方法:
第二天去机房把服务器拉回公司 ( 机房在外地 ),通电发现还真是无法开机,还发现一点就是,服务器诊断面板上 BOARD 亮黄灯!
基本断定是主板故障了吧 ?
下面是搞数据:
1、好在公司机房机架上还有一台同型号的服务器 IBM X3650 M4
2、这台服务器跟坏掉的服务器机器型号、RAID卡信息、硬盘数量等都一致
3、唯一的区别就是,公司的这台服务器没有做 RAID,坏掉的这台是 RAID10
4、机柜服务器关机 ( 最好先备份一下数据 ),拔出硬盘 ( 8块硬盘,顺序不能乱 )
5、将坏掉的服务器硬盘按顺序拔出,插入机柜中这台好的服务器中 ( 顺序不能乱 )
6、开机,根据提示导入 RAID 信息
( 输入 C、是否导入 Y、选择配置文件,其实就一个,选 all 即可,Start、同意导入 import,退出 exit,reboot 重启服务器 )
7、很顺利,由于线上服务器密码极度复杂,这里重启的时候顺便重置一下 root 用户密码
8、进入系统配置IP,然后就可以不用在机房待着了,备份数据,传到线上,恢复业务
9、关机、拔出硬盘,按顺序插入原来的坏机器,给机柜上的机器重新按顺序插入原硬盘
10、执行第六步,重启 进入系统
异地备份很重要!!!