服务器型号:DELL M1000e

DELL M1000e刀片机箱,LCD,日志告警,3个电源模块相继间隔12秒掉电。

之前应该是有做过电源倒换测试,或者有拿过同型号电源备件更换过:4,5,6组电源模块仍然有问题。

然后就定位故障是机箱里的板载故障。


1、准备好同型号板载

2、停止业务,刀片关机,对每一个槽位的刀片标记,拔出刀片。

3、从DELL CMC管理连接到机箱,对DELL CMC固件进行升级,update。(大概50%几率能成功解决故障)


现象:升级完成后,机箱涡轮重新加载高速运行,初始化稳定后,机箱背面3组电源成功点亮,告警消失。


CMC切换测试:拔掉当前主用CMC管理网线,CMC切换...听到涡轮的启动声,结果发现4,5,6组电源模块指示灯又出现同样问题。 可能是板载有问题,或者是CMC有问题


把服务器正常运行时的,在用的CMC模块拔出插到现在仍有问题的CMC模块插槽,服务器告警又消失了,确认了板载没问题,问题是一个CMC模块故障了,无法识别到另外3组电源模块。


CMC模块作为管理模块有着相当重要的作用,他可在服务器关机的情况下实现远程开机,并能够对服务器插入机框中的刀片计算单元的温度、硬件情况等进行监控、在系统崩溃的情况下实现重启.CMC故障并没影响到计算单元。