服务器基本故障排查方法

1、加电类故障

  • 定义
    从上电(或复位)到自检完成这一段过程中电脑所发生的故障。
  • 可能的故障现象

1、 主机不能加电(如:电源风扇不转或转一下即停等)、有时不能加电、开机掉闸、机箱金属部分带电等;
2、 开机无显,开机报警;
3、 自检报错或死机、自检过程中所显示的配置与实际不符等;
4、 反复重启;
5、 不能进入BIOS、刷新BIOS后死机或报错;CMOS掉电、时钟不准;
6、 机器噪音大、自动(定时)开机、电源设备问题等其它故障。

  • 可能涉及的部件
    市电环境;电源、主板、CPU、内存、显示卡、其它可能的板卡;BIOS中的设置(可通过放电来回复到出厂状态);开关及开关线、复位按钮及复位线本身的故障

  • 判断要点/顺序
    以下的文字叙述部分是对维修判断流程的补充和说明,要结合流程图来阅读。另外,本章只分析加电类的故障,如果在判断中涉及其它类故障,可转入相应故障的判断过程。以下各类同。
    1、 维修前的准备

    1. POST卡;
    2. 万用表;
    3. 试电笔;
    4. CPU负载。

    2、 环境检查
      1) 检查电脑设备:
      A. 周边及电脑设备内外是否有变形、变色、异味等现象;
      B. 环境的温、湿度情况;
      C. 加电后,注意部件、元器件及其它设备是否变形、变色、异味、温度异常等现象发生。
      2) 检查市电情况:
      A. 检查市电电压是否在220V±10%范围内,是否稳定(即是否有经常停电、瞬间停电等现象);
      B. 市电的接线定义是否正确(即,左零右火、不允许用零线作地线用(现象是零地短接)、零线不应有悬空或虚接现象);
      C. 供电线路上是否接有漏电保护器(且必须接地火线上),是否有地线等;
      D. 主机电源线一端是否牢伤心地插在市电插座中,不应有过松或插不到位的现象,另一端是否可伤心在接在主机电源上,不应有过松或插不到位的情况。

2、显示类故障

  • 定义
    这类故障不仅包含由于显示设备或部件所引起的故障,还包含有由于其它部件不良所引起的在显示方面不正常的现象。也就是说,显示方面的故障不一定就是由于显示设备引起的,应全面进行观察和判断。

  • 可能的故障现象
    1、 开机无显、显示器有时或经常不能加电;
    2、 显示偏色、抖动或滚动、显示发虚、花屏等;
    3、 在某种应用或配置下花屏、发暗(甚至黑屏)、重影、死机等;
    4、 屏幕参数不能设置或修改;
    5、 亮度或对比度不可调或可调范围小、屏幕大小或位置不能调节或范围较小;
    6、 休眠唤醒后显示异常;
    7、 显示器异味或有声音。

  • 可能涉及的部件
    显示器、显示卡及其它们的设置;主板、内存、电源,及其它相关部件。特别要注意计算机周边其它设备及地磁对计算机的干扰。

  • 判断要点/顺序
    1、 维修前的准备
    相应显示卡的最新版驱动程序
    2、 环境检查
      1) 市电检查:
      A. 市电电压是否在220V±10%、50Hz或60Hz;市电是否稳定;
      B. 其余参考加电类故障中有关市电检查部分。
      2) 连接检查:
      A. 显示器与主机的连接牢伤心、正确(特别注意,当有两个显示端口时,是否连接到正确的显示端口上);电缆接头的针脚是否有变形、折断等现象,应注意检查显示电缆的质量是否完好;
      B. 显示器是否正确连接上市电,其电源指示是否正确(是否亮及颜色);
      C. 显示设备的异常,是否与未接地线有关。特别注意:不允许电脑维修工程师为用户安装地线,应请用户通过正式电工来安装;
      3) 周边及主机环境检查:
      A. 检查环境温、湿度是否与使用手册相符(如钻石珑管,要求的使用温度为18~40C);
      B. 显示器加电后是否有异味、冒烟或异常声响(如爆裂声等);
      C. 显示卡上的元器件是否有变形、变色,或温升过快的现象;
      D. 显示卡是否插好,可以通过重插、用橡皮或酒精擦拭显示卡(包括其它板卡)的金手指部分来检查;主机内的灰尘是否较多,进行清除;
      E. 周围环境中是否有干扰物存在(这些干扰物包括:日光灯、UPS、音箱、电吹风机、相伤心过近(50厘米以内)的其它显示器,及其它大功率电磁设备、线缆等)。注意显示器的摆放方向也可能由于地磁的的影响而对显示设备产生干扰;
      F. 对于偏色、抖动等故障现象,可通过改变显示器的方向和位置,检查故障现象能否消失。
      4) 其它检查及注意事项:
      A. 主机加电后,是否有正常的自检与运行的动作(如有自检完成的鸣叫声、硬盘指示灯不停闪烁等),如有,则重点检查显示器或显示卡;
      B. 禁止带电搬动显示器及显示器方向,在断电后的一段时间内(2~3分钟)也最好不要搬动显示器。
    3、 故障判断要点
      1) 调整显示器与显示卡:
      A. 通过调节显示器的OSD选项,最好是回复到RECALL(出厂状态)状态来检查故障是否消失。对于液晶显示器,需按一下auto config按钮;
      B. 显示器的参数是否调得过高或过低(如H/V-MOIRE,这是不能通过RECALL来恢复的);
      C. 显示器各按钮可否调整,调整范围是否偏移显示器的规格要求;
      D. 显示器的异常声响或异常气味,是否超出了显示器技术规格的要求(如新显示器刚用之时,会有异常的气味;刚加电时由于消磁的原因而引起的响声、屏幕抖动等,但这些都属正常现象)。有关显示器的规格,请见附录二之(二);
      E. 显示卡的技术规格是否可用在主机中(如AGP 2.0卡是否可用在主机的AGP插槽中等)。
     2) BIOS配置调整:
      A. BIOS中的设置是否与当前使用的显示卡类型或显示器连接的位置匹配(即是用板载显示卡、还是外接显示卡;是AGP显示卡还是PCI显示卡);
      B. 对于不支持自动分配显示内存的板载显示卡,需检查BIOS中显示内存的大小是否符合应用的需要;
      以下的检查应在软件最小系统下进行。
      3) 检查显示器/卡的驱动:
      A. 显示器/卡的驱动程序是否与显示设备匹配、版本是否恰当;
      B. 显示器的驱动是否正确,如果有厂家提供的驱动程序,最好使用厂家的驱动;
      C. 是否加载了合适的Direct X驱动(包括主板驱动);
      D. 如果系统中装有Direct X驱动,可用其提供的Dxdiag.exe命令检查显示系统是否有故障。该程序还可用来对声卡设备进行检查。
      4) 显示属性、资源的检查:
      A. 在设备管理器中检查是否有其它设备与显示卡有资源冲突的情况,如有,先去除这些冲突的设备;
      B. 显示属性的设置是否恰当(如:不正确的监示器类型、刷新速率、分辨率和颜色深度等,会引起重影、模糊、花屏、抖动、甚至黑屏的现象);
      5) xx作系统配置与应用检查:
      A. 系统中的一些配置文件(如:System.ini文件)中的设置是否恰当;
      B. 显示卡的技术规格或显示驱动的功能是否支持应用的需要;
      C. 是否存在其它软、硬件冲突。
      6) 硬件检查:
      A. 当显示调整正常后,应逐个添加其它部件,以检查是何部件引起显示不正常;
      B. 通过更换不同型号的显示卡或显示器,检查是否存在它们之间的匹配问题;
      C. 通过更换相应的硬件检查是否由于硬件故障引起显示不正常(建议的更换顺序为:显示卡、内存、主板)。

3、安装类故障

  • 定义
    这类故障主要是反映在安装xx作系统或应用软件时出现的故障。

  • 可能的故障现象
    1、 安装xx作系统时,在进行文件复制过程中死机或报错;在进行系统配置时死机或报错;
    2、 安装应用软件时报错、重启、死机等(包括复制和配置过程);
    3、 硬件设备安装后系统异常(如黑屏、不启动等);
    4、 应用软件卸载后安装不上,或卸载不了等。

  • 可能涉及的部件
    磁盘驱动器、主板、CPU、内存,及其它可能的部件、软件。

  • 判断要点/顺序
    1、 维修前的准备
      1) 注意携带磁盘数据线;
      2) 相适应的最新版设备驱动程序。
    2、 环境检查
      1) 软件安装
      A. 检查硬件设备的连接与外观:
      a) 检查与主机连接的其他设备工作是否正常;
     b) 设备间的连接线是否接错或漏接。连接插头、座的接针是否有变形、缺失、短路等现象;
      c) 仔细检查报错信息,判断可能造成故障的部位;
      d) 观察系统是否有异味,元器件的温度;
      e) CPU风扇的转速是否过慢或不稳定;
      f) 驱动器工作时是否有不正常的声响。
      B. 其它方面检查:
      a) 认真对照软件的使用手册,确认机器的软、硬件配置符合该手册的要求;
      b) 仔细观察安装介质是否完好。
      2) 设备安装
      A. 检查设备的连接与外观:
      a) 要安装的设备、部件是否连接正确,连接电缆是否完好、接针是否有缺针、断针、或短接的现象;
      b) 要安装的设备、部件的制作工艺是否优良;
      c) 余类似上述软件安装。
      B. 驱动程序介质检查:用于安装设备的驱动程序介质是否完好。
    3、 故障判断要点
      1) xx作系统安装:
      A. 检查CMOS中的设置:
      a) 如果需要,请先恢复到出厂设置;
      b) 关闭BootEasy功能、关闭防病毒功能,及关闭BIOS防写开关;
      c) 特别注意硬盘的参数、CPU的温度等。注意观察自检时显示出来的信息是否与实际的硬件配置相符。
      B. 安装介质与目标介质检查:
      a) 检查是否有病毒;
      b) 检查分区表是否正确、分区是否激活。使用Fdisk /mbr命令来确保主引导记录是正确的(注意使用此命令后,如果机器不能启动,可证明原系统中存在病毒或有错误。硬盘应做初始化xx作);
      c) 检查系统中是否有第三方内存驻留程序。
      以下过程,建议在软件最小系统下检查(注:在最小系统下,需要添加与安装有关的其它驱动器)。
     C. 安装过程检查:
      a) 如果在复制文件时,报CAB等文件错,可偿试将原文件复制到另一介质(如硬盘)上再行安装。如果正常通过,则原安装介质有问题,可去检查介质及相应的驱动器是否有故障;若仍然不能复制,应检查相应的磁盘驱动器、数据线、内存等部件;
      b) 如果是采用覆盖安装而出现上述问题,建议如果更换安装介质后仍不能排除故障,应先对硬盘进行初始化xx作,再重新安装(初始化xx作时,最好将硬盘分区彻底清除后进行)。如果仍不能解决,再考虑硬件;
      c) 安装过程中,在检测硬件时出现错误提示、蓝屏或死机等,一是通过多重新启动几次(应该是关机重启),看能否通过;另一是在软件最小系统下检查是否能通过。如果不能通过,应该依次检查软件最小系统中的内存、磁盘、CPU(包括风扇)、电源等部件;如果能正常安装,则是软件最小系统之外的部件的故障或配置问题,这可通过在安装完成后,逐步添加那些部件,并判断是否有故障或配置不当;
      D. 硬件及其它应注意的问题:
      a) 如果安装系统时重启或掉电,要求在软件最小系统下进行测试。如果故障消失,在安装好系统以后,将软件最小系统之外的设备逐一接上,检查故障是由哪个部件引起,并用替换法解决;如果故障不能消失,应检查软件最小系统中的电源、主板和内存,甚至磁盘驱动器;
      b) 在IDE设备上安装诸如UNIXxx作系统时,或要安装多个xx作系统时,要注意:一是8.4GB 限制(UNIX的开始部分必须在8.4GB之内)——这一条在SCSI设备上无这一要求;另一是多xx作系统间的安装顺序及配合关系;
      E. 对于LEOS的安装应注意以下几点:
      a) 确保主板BIOS支持LEOS,建议在为用户更换主板后首先就要刷新支持LEOS的BIOS;
      b) 如果为用户更换硬盘,也要注意备件硬盘是否正确支持DMA66。否则在安装LEOS时也会出现问题;
      c) LEOS最好是在一块全新未被分区的硬盘上进行安装。具体顺序可以参考如下方案:新硬盘-〉安装LEOS->分区(Fdisk)->安装xx作系统(Windows XP)-〉制作一键恢复。如果原硬盘存在分区,可以使用Clear.com程序清楚后再安装LEOS。
      2) 应用软件安装:
      A. 检查安装应用软件问题时应注意的问题:
      a) 应用软件的安装问题,部分可参考上述的xx作系统安装的检查方法;
      b) 在进行安装前,要求先备份注册表,再进行安装;
      B. 软件间、软硬件间的冲突检查:
      a) 可采用两种软件问题隔离的方法。一是在软件最小系统下,关闭正在运行的应用程序,然后安装需要的应用软件;另一是在原系统下直接关闭正在运行的应用程序,然后安装需要的应用软件。关闭已有的应用的方法是:使用msconfig禁用启动组、autoexec.bat、config.sys、win.ini、system.ini中在启动时调用的程序;
      b) 使用任务管理器,检查系统中有无不正常的进程,并给予杀除;
      c) 对于基本满足软件技术手册要求但安装不上的情况,看能否通过设置调整来解决。如果不能解决,则视为不兼容;
      d) 利用其它机器(最好是不同配置的),检查是否存在软、硬件方面的兼容问题;
      e) 检查系统中是否已经安装过该软件,如果已经安装过应先将其卸载后再安装,如果无法正常卸载,可以手动卸载或通过恢复注册表来卸载(对于Windows XP可使用系统还原功能来卸载);
     f) 必要时,可从网络上查阅相关资料,之后再与软件厂商联系,看是否有其他的注意事项。
      C. 硬件检查:
      在以上的步骤都不奏效时可考虑硬件问题,应检查光驱、安装介质、硬盘线等配件。
      3) 硬件设备安装:
      A. 冲突检查:
      a) 所安装的设备、部件是否在系统启动前的自检过程中识别到,或能由xx作系统识别到(非即插即用识备除外)。如果不能识别,应检查BIOS设置及设备本身,包括跳线及相应的插槽或端口;
      b) 检查新安装的设备与原系统中的设备是否有冲突;通过改变驱动的安装顺序、去除原系统中的相应部件或设备、更换插槽,看故障是否消除。如果不能消除,则为不兼容;
      c) 加装的设备是否与现有系统的技术规格或物理规格匹配;
      d) 检查当前系统中的一些设置(主要是.ini文件中的设置)是否与所安装的部件或设备驱动有不匹配的地方;
      B. 驱动程序检查:所安装的设备驱动是否为合适的版本(即,不一定是最新的);
      C. 硬件检查:
      a) 所安装的部件或设备是否本身就有故障;
      b) 检查原系统中的部件是否有不良的现象(如插槽损坏、供电能力不足等)。

4、操作与应用类故障

  • 定义
    这类故障主要是指启动完毕后到关机前所发生的应用方面及系统方面的故障。

  • 可能的故障现象
    1、 休眠后无法正常唤醒;
    2、 系统运行中出现蓝屏、死机、非法操作等故障现象;
    3、 系统运行速度慢;
    4、 运行某应用程序,导致硬件功能失效;
    5、 游戏无法正常运行;
    6、 应用程序不能正常使用。

  • 可能涉及的部件
    主板、CPU、内存、电源、磁盘、键盘、接插的板卡等

  • 判断要点/顺序
    1、 维修前的准备
      1) 干净的可用硬盘;
      2) 杀毒软件;
      3) 尽可能新的驱动程序、若干版本的BIOS;
      4) 磁盘连接的数据线等。
    2、 环境检查
      1) 市电及连接检查:
      A. 检查市电是否正常,连接是否牵伤心;是否有接地;
      B. 设备间的连接线是否接错或漏接。
      2) 周边及外观检查:
      A. 检查与主机连接的其他外设工作是否正常;
      B. 驱动器工作时是否有异响,CPU风扇的转速是否过慢或不稳定;
      C. 观察机箱内灰尘是否太多,而导致各插接件间接触不良。先除尘后可用橡皮等擦拭金手指,去除氧化层或灰尘。然后重新插上;
      D. 观察系统是否有异味,元器件的温升是否过高或过快。
      3) 显示与设置检查:
      A. 详细记录报错信息,判断可能造成故障的部位;
      B. 注意CMOS中对于硬盘、系统时间、CPU温度的设置,注意在自检时显示的硬件信息和机器配置是否相符;
      C. 仔细阅读软件的使用指南,注意软件运行的环境要求。
      4) 充分与用户沟通:
      A. 了解用户的使用情况;
      B. 出故障前的现象;
      C. 做过什么操作才出现目前的故障。
      根据以上了解的情况,来初步判断可能的故障原因。
    3、 故障判断要点
      1) 检查是否由于用户误操作引起
      A. 机器出现死机、蓝屏或无故重启时,首先要考虑到用户的操作是否符合操作规范和要求,要仔细询问、观察用户的操作方法是否符合常理,并由工程师用正确的方法操作、应用用户的机器,查看是否出现用户所报修的故障。若不出现,则可认为是用户操作不当引起的,由工程师向用户解释并演示正确的操作方法。
      B. 若经过上述操作故障依然存在,可用系统文件检查器检查用户的机器系统是否有丢失的DLL文件,并尝试恢复。
      C. 注意观察用户的机器在死机、蓝屏或无故重启时有没有规律,并找出可能引起机器故障的原因(如机器在运行某一程序时或机器开机在一定时间内死机)。
      D. 通过与另一台软硬件相同且无故障的机器进行比较,查看故障机的文件大小是否相同或相差不大,主程序的版本是否一致。
     2) 检查是否由于病毒或防病毒程序引起故障
      A. 检查用户的机器是否被病毒感染,使用杀毒软件杀毒;
      B. 检查用户是否安装了两个或两个以上的防毒软件,建议用户使用其中一个,并卸载其他的防毒软件;
      C. 检查是否有木马程序,用最新版的杀毒程序可以查出木马程序。可以通过安装补丁来弥补程序中的安全漏洞,或者安装防火墙。
      3) 检查是否由于操作系统问题引起故障
      A. 检查硬盘是否有足够的剩余空间,并检查临时文件是否太多。整理硬盘空间,删除不需要的文件;
      B. 对于系统文件损坏或丢失,可以使用系统文件检查器进行检查和修复;
      C. 检查操作系统是否安装了合适的系统补丁(对于Winnt可在启动时观察service pack的版本,推荐使用SP6;Win2k和Winxp可以在系统属性中查看,Win2k推荐使用SP3,Winxp推荐使用SP1。);
      D. 检查DirectX驱动是否正常,升级DirectX的版本;
      E. 检查是否正确安装了设备的驱动程序,并且驱动的版本是否合适。检查驱动安装的顺序是否正确(例如:首先安装主板驱动)。
      4) 检查是否由软件冲突、兼容引起故障
      A. 检查用户应用软件的运行环境是否与现有的操作系统(NT/98/2K/XP)相兼容,可通过查看软件说明书或到应用软件网页上查找相关资料,并查看网页上有没有对于此软件的升级程序或补丁可安装。
      B. 可用任务管理器观察故障机器的后台是否有不正常的程序在运行,并尝试关闭程序只保留最基本的后台程序。
      C. 注意查看故障机内是否有共用的DLL文件,可通过改变安装顺序或安装目录来解决问题。
      5) 检查硬件设置是否不正确
      A. 首先,检查CMOS设置是否正确,可恢复默认值;
      B. 在设备管理器中检查硬件是否正常,中断是否有冲突,如有冲突,调整系统资源(对于某些硬件,要阅读说明书,按照说明正确设置硬件);
      C. 在设备管理器中将硬件驱动删除,重新安装驱动程序(最好安装版本正确的驱动程序),查看硬件驱动是否恢复正常;
      D. 运行硬件检测程序,如AMI等检测硬件是否有故障;
      E. 在软件最小系统情况下, 重新更新硬件驱动,观察故障是否消失。
      6) 检查是否为兼容问题
      A. 遇到兼容性问题时,应检查硬件的规格和标准(如同时使用多条内存时检查内存是否为同一厂家、同一规格、同一容量、内存颗粒同一批次),是否允许在一起使用。
      B. 阅读说明书或到网页上查找相关资料,检查用户的硬件正常使用所需的软件要求,现在的软件环境是否符合要求,软硬件之间是否相互支持。
      C. 在设备管理器中检查用户的系统资源是否有冲突,如有冲突,手动调整系统源。
      D. 在设备管理器中检查用户机器的硬件的驱动是否安装正确,更新合适版本的设备驱动(如某些显卡用WIN2000或WINXP自带的公版驱动,会造成某些大型3D游戏无法运行);
      E. 检查维修BOM,去除非联想的硬件,检查系统是否可正常工作,如可正常工作,建议用户更换自行添加的硬件或查找硬件相关资料进行解决。
     7) 检查是否由于网络故障引起
      A. 碰到机器连接在网络上,出现死机、运行慢、蓝屏等故障时,应首先关闭网络,与网络环境隔离,观察故障是否消失,如故障消失,则为网络问题引起故障。
      B. 确为网络问题引起的故障,其判断与解决步骤参考网络部分。
      8) 检查是否由于硬件性能不佳或损坏引起
      A. 使用相应的硬件检测程序,检查硬件是否有故障,如果有,利用替换法排除相应的硬件;
      B. 用替换法检查检测程序无法判断的硬件故障

你可能感兴趣的:(linux,服务器,运维)