公司有一台IBM X3850 X5服务器,运行过程中故障面板亮起,查看后发现PCI报错。整个光通路诊断面板上只有PCI灯在亮,且运行状态的读数为01,证明服务器运行时正常的,只是有小错误而已。收集日志发现如下图。
IBM X3850 X5 PCI故障实例_第1张图片
首先查到资料,我们51的大神的博客里提到的相关处理方式尝试操作了一下,并未产生作用。
https://blog.51cto.com/830629/1722671
仔细分析对比后,发现大神博客里提到的报错为:
1.A software NMI has occurred on system
2.Fault in slot "All PCI Err" on system
而我遇到的故障报错多了一条
1.A software NMI has occurred on system
2.Fault in slot "All PCI Err" on system
3.a uncorrectable bus error has occurred on system
莫非就这一条差别造成方法不同?查询后指向了IO板或者微码,于是决定从刷微码开始进行。
将服务器数据备份后,重启进入IMM,依次刷了IMM UEFI FPGA微码,重启后,服务器恢复正常。(在刷IMM微码时,服务器是关机状态,刷新完成后故障已经消除。为了安全,又开机将另外两个微码全部刷新)
总体来说是比较顺利的,可以看得出,这一条错误可以认为是系统误报或者说是系统BUG,并未对硬件产生影响。以上就是故障处理过程,希望对大家有所帮助。微码我会放在我的下载里面,需要的朋友可以随时去下。