听噪音是否比以前有所增加-----判断风扇和电源问题
 
1:x445开机加电无显示故障
故障现场:开机加电无显示故障;双电源、双CPU、8条内存
操作内容:单CPU测试
    1.去掉一颗CPU和VRM测试,开机正常
    2.加入去掉的CPU和VRM测试,开机正常
    3.刷新BIOS
问题总结:多CPU配置机器大部分时候开机加电无显示大多都是由于CPU的VRM接触不良导致,在有能力的情况下做单CPU测试
 
2:
故障现场:X345的信息指示灯亮灯报错,但光路LED没亮灯
操作内容:F2查看ErrorLog,里面有Single Bit Error,更换内存
问题总结:日志里面有Single Bit Error,更换内存就好了。
 
3:
故障现场:X346的信息指示灯亮灯报错,具体显示PS2错误 或 光诊断面板没有出现相关的硬件报错信息
操作内容:确定不是硬件问题,F1进入BIOS 看post envent log 为空 进入adv --> BMC setting 清除BMC log 。关闭服务器红灯消失。重起现象还存在,把电源去电几分钟就好了 这个是ibm 服务器的bmc 的一个  bug 现在可以更新bmc解决这个问题。一般换电源背板就可以解决,在单电源状态下,故障现象:PS2灯报错。有部分机器出厂时就有这个问题:标配单电源,却误报第二个电源未接,所以PS2灯亮。
是电源背板微码识别错误,导致误报。将电源背板更换成07版本以上就可以了。可打800电话报修,上门更换。若加载两个正常的电源,原故障消失,但又出现"Fan"故障。 你所加载的电源,肯定是直接从别的X346机器上拔下来的。事实上如果加插冗余电源,则X346要求风扇也必须满配,否则报错。
问题总结:X346通病,电源换一个位置就差不多没问题了,或者试试关掉电源几分钟再开机
 
4:关于cpu不同级问题
故障现场:X366-1RC ,使用1个标配的CPU时正常,当加入第二个CPU时出现不定时无故重起
操作内容:" The CPUs in this multiprocessor system are not all the same revision level. To use all processors the operating system restricts itself to the features of the least capable processor in the system. Should problems occur with this system, contact the CPU manufacturer to see if this mix of processors is supported. "---系统日志。F1进入Bios, 进入cpu信息p1 levels 17 ,p2 levels 2 相差太远了解决方法更换第二个cpu
问题总结:CPU 不在一个等级上(服务器的cpu都是xeon话支持smp技术,但是一样的CPU 使用时一定要确定是否在一个等级) 
 
5:
故障现场:X260的服务器8IRAID卡,通过SERVERGUIDE光盘进入进行RAID配置进,行RAID配置的过程中却没有发现任何磁盘
操作内容:下载了SERVERRAID8.20光盘后。给客户的升级了13N2227的FIRMWARE和BIOS后
问题总结:X260服务器内部架构属于X3架构,与X366内部类似。同样安装了8IRAID卡。X260为新机型需要用FRU号为39R8729的那块卡才行,原先的13N2227这块卡不行。或升级13N2227这块卡的FIRMWARE和BIOS。通过SERVERRAID8.20启动后能够正常认出硬盘并进行了RAID配置
 
6:X236+6M认不出盘
故障现场:X236+了6M卡和6块146GSCSI盘
操作内容:在读取6M阵列卡BIOS时却一直处于6分钟的搜索硬盘过程,但一个盘都没有认出,进入CTRL+I对6M卡的BIOS进行了RESTOR FACTOR,但是却一直卡在PROSSING的这个过程中。6M卡进行了重新插拔,更换PCI槽口,以及更换SCSI槽口结果仍然没有效果。咨询提示提示:
1、先把所有硬盘拔下。
2、开机进6M卡BIOS重新进行RESTOR FACTOR。
3、一块一块的逐个添加磁盘。成功
问题总结:每次新添加一块磁盘的时候在6M卡BIOS读秒的时候大概是需要1分10秒左右。其中有一次我是一下子添加了2块盘用掉2分钟多点。那是不是因为6块盘一起上的时候6M卡搜索磁盘的读秒时间不够所造成磁盘没有搜索到呢有待证实。
 
7:HBA卡驱动错误
故障现场:服务器NMI/PCI/LOG灯亮,进系统时蓝屏
操作内容:刷新BIOS/BMC/CPLD/DIAGNOSTIC。
1.抓去BMC日志保存
2.检查机器内部PCI卡,PCI4槽位上接了一块Qlogic的HBA卡,这张卡接的非常松,感觉根本没有插上
3.拔掉HBA卡开机测试一切正常,清空日志,断电再将HBA卡重新插回去开机测试,在windows2003自检硬件过程中系统又蓝屏,同时NMI/PCI/LOG灯亮。
4.重新去除HBA卡开机后正常进入系统,考虑机器微码比较老,先把微码用update express4.05光盘刷到最新版本,再接回HBA后正常进入系统,但是这时在系统中提示要重新安装HBA卡的驱动程序,客户自行找了一个驱动安装上后重新启动,重启后检测硬件故障又出现了。这样可以判断应该是HBA卡驱动的问题。
5.开机按F8进入操作系统,将HBA卡驱动删除,然后查看HBA型号,安装针对该型号驱动后,一切正常,多次重启都无故障。
问题总结:硬件故障的排除步骤
 
8:更换8863机器硬盘服务
故障现场:88631RC,5块硬盘,RAID5,ID0硬盘频繁离线,每次重新拔插都能正常rebuild
操作内容:1.安装serveraid manager 8.40版,安装过程无报错,在重新启动服务器关闭操作系统过程中有几个软件的报错
2.重启过程中在通过windows2000启动进度条之后系统蓝屏,蓝屏代码c0000218,上一次正确配置、安全模式均出现次故障
3.查看raid卡日志并未发现有明显的报错,想查看阵列是否有坏条带,但是在8i日志中并未看到有坏条带这一相关信息,向同事请教也未发现有相关信息;将raid卡BIOS和Firmware同样升级到8.40(5.20.11835)后故障同样。客户有相同机器,安装的系统版本也一致,通过另外一台机器创建紧急修复磁盘对操作系统进行紧急修复(手动和快速两种方式)后故障依旧。通过internet上搜索,有朋友通过故障恢复控制台进入使用chkdsk /r指令修复了该故障,尝试相同方法,故障依旧。(网上的朋友是单硬盘模式,可以修复该类硬盘坏区故障,由于客户使用的是raid5阵列,所以这种修复无效)
4.考虑客户数据问题,在原有操作系统上覆盖安装windows 2000server后先把重要数据备份出来,之后再重新安装了一遍操作系统
5.然后使用serveraid support cd 8.40光盘引导服务器将ID0硬盘手工设置为defunct状态,再将其拔出,插上新硬盘,硬盘这时开始自动rebuild,由于硬盘中数据量不是很大,5块73.4G硬盘同步时间大约为30分钟,同步全为后台自动操作,在同步期间服务器重启多次,重启到检测阵列卡过程中停止,提示阵列卡发现有硬盘missing或者array is rebuilding,提示三种操作:a.直接安回车,接受现在的状态;b.按ctrl+h(后面忘了是什么,等待查hmm);c.按ctrl+m(后面忘了是什么,等待查hmm);所以在每次重启过程中都需要手动按下回车之后才会进入操作系统
6.刷新5个硬盘的微码到同一版本T107,结束服务