IDC机房维护【我身边的戴尔企业级解决方案】

 对于DELL PowerEdge系列的服务器我接触的也挺多,碰到的故障也很频繁,那就说下我碰到过的和解决方案:

 
1、对于服务器无法启动,网上有各种解决方案,但是最实用的就是排除法了,进行判断哪个配件的故障。先判断电源是否正常,然后替换内存、cpu、主板。(我碰到的就有一个内存条坏了,服务器起不起来。)
 
2、对于存储无法启动,那最常见的就是线没连接正常。(一时大意了。)
 
3、对于系统频繁重启这个解决方案就多了,在网上Down的官方文档中有:
1、电源故障(替换法判断解决);
2、内存故障(可从BIOS错误报告中查出);
3、网络端口数据流量过大(工作压力过大);
4、软件故障(更新或重装操作系统解决) 。 
我见到的就是一些软件故障,解决方法是一位师兄处理的,我也没在现场所以不知道。但是对于服务器的软件是为了保证服务器数据的安全,必须定期进行备份。这样才不会因为软件故障或任何其他故障造成数据丢失。
 
4、对于服务器死机,服务器死机故障比较难以判断,一般分为软件和硬件两个方面:软件故障和硬件故障
1、软件故障,首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。或者电脑病毒的原因,系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决
2、硬件故障和硬件冲突。
1、电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。
2、硬盘故障(通过扫描硬盘表面来检查是否有坏道)
3、内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断)
4、主板故障(使用替换法来判断)
5、CPU故障(使用替换法)
6、板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)
 
5、对于其他的常见故障,有机箱指示灯变黄色和红色。往往是机器的温度过高和硬件有所损坏。(最常见的就是电源告警,风扇告警,硬盘坏掉。)
 
 
6、上次碰到DELL PE2950服务器开机出现PCI错误,LCD面板上报E1216 3.3V Regulator failure 服务器起不起来。解决办法解决方案:因未碰到此故障,经过官方文档得知 E1216是 3.3V 稳压器故障。于是换掉一个稳压器。但是换后又报错, Reseat PCIe cards.说请重置 PCI-e 卡。于是换掉了一个 PCI-E扩展板 MH180 ,但是还是报出 Reseat PCIe cards 的错误,本以为要换主板了,但是经过电话联系厂商,得知重置PCI-e卡需要更换3个配件,一个是PCI扩展板、一个侧边控制版、一个是PCI-e扩展板。更换后经过服务器的维护,机器终于启动了起来。

你可能感兴趣的:(戴尔企业级解决方案,我身边的戴尔企业级解决方案)