常见服务器硬件故障排查判断

来自: 推动者社区

  服务器常见故障的诊断与解决,服务器故障排除第一部分,服务器故障排除的基本原则性问题服务器故障排除。
一、服务器开机黑屏故障排查
1.检查供电环境,零-火;零-地电压?
2.检查电源指示灯,如果亮,正常吗?
3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?
4.是否更换过显示器,更换另一台显示器。
5.去掉增加内存
6.去掉增加的CPU
7.去掉增加的第三方I/O卡
8.检查内存和CPU插的是否牢靠
9. Clear CMOS
10.更换主要备件,如系统板,内存和CPU服务器故障排除
二、服务器故障排除基本原则
1.尽量恢复系统缺省配置
a:硬件配置:去除第三方厂商备件和非标配备件;
b:资源配置:清除CMOS,恢复资源初始配置;
c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;
d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?
2.从基本到复杂
a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。
c:软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。
3.交换对比
a:在最大可能相同的条件下,交换操作简单效果明显的部件;
b:交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整机,既交换整体环境;服务器故障排除三、服务器故障排除需要收集哪些信息?服务器信息:1.机器型号2.机器序列号(S/N:如:NC00075534)3.Bios版本4.是否增加其它设备,如网卡,SCSI卡,内存,CPU5.硬盘如何配置,是否做阵列,阵列级别6.安装什么操作系统及版本(Windows Server, Netware, Sco, others)
故障信息
1.在POST时,屏幕显示的异常信息
2.服务器本身指示灯的状态?
3.报警声和BEEP CODES
4. NOS的事件记录文件?
5. Events Log文件
确定故障类型和故障现象
1.开机无显示;
2.上电自检阶段故障;
3.安装阶段故障和现象;
4.操作系统加载失败;
5.系统运行阶段故障