一、诊断技巧

    诊断前,应清楚以下几点

    1.错误日志分析(Error log analysis,ELA)是诊断工作的主要部分

    2.独立诊断(Stand-alone diagnostics)不执行错误日志分析,除了在引导独立诊断模式时发生的加电自检(POST)错误

    3.只有在“DIAGNOSTIC MODE SELECTION”画面中选择了“Problem Determination selection”或者在“TASKS SELECTION LIST”画面中选择了“Run Error Log Analysis”项,在线诊断(Online diagnostics)才将执行错误日志分析

    4.当用户无法进行在线诊断时,才去使用独立诊断

    5.作为错误日志分析的结果,替换了一个部件,必须做一个日志纠正操作来防止再次报告这个错误问题。在系统检验模式(System Verification mode)下,通过使用日志纠正操作(Log Repair Action task)或者运行高级诊断(Advance Diagnostics)来记录纠正操作

    6.除了浮点测试和系统试验程序之外,所有处理器和内存的测试都是由POST完成。在教新的PCI机器上,阻止引导系统的错误将以8个数字的错误代码显示在机器操作面板的液晶显示屏上。没有阻止系统引导的错误会被记录在系统的错误日志中,当运行诊断内存、处理器和系统主板(sysplanar)的程序时才报告这些错误

    7.有些机器支持快速模式和慢速模式引导。慢速引导会运行一些附加的POST。通常情况下,如果用户怀疑基本系统有问题或不清楚问题出在哪儿时,应该以慢速模式引导机器

    8.系统主板的诊断不仅仅测试系统主板的功能,而且还测试和检查其主要的系统部件,例如供电系统(Power Supply)和风扇。总之,在问题检测模式下对系统主板执行诊断能确保不存在系统问题


二、理解错误日志

    1.内核和设备驱动程序把错误信息记录在系统错误日志中,并不对错误进行诊断。诊断程序(错误日志分析)才来分析记录在错误日志中的错误

    2.在许多情况下,记录永久性和临时性的硬件错误并不表示硬件有问题。执行错误日志分析(Error Log Analysis)能确定这些错误是否表示硬件有问题

    3.资源名是指检测到错误的资源,它并不是指失败的资源,而是指诊断和错误日志分析的对象

    4.故障原因(Failure Causes)、可能的原因(Probable Causes)和用户原因(User Causes)只是一般的建议,并不是特意指出要更换什么部件。更换什么部件要根据诊断和对错误日志分析的结果来确定

注意:Sysplanar0错误是被Sysplanar0资源检测出来的,并不是由Sysplanar0资源引起的,即使错误日志把Sysplanar0列为可能的原因。运行错误日志分析(Error Log Analysis)任务或者在问题检测模式(Problem Determination mode)下执行诊断程序就会找出真正的原因

    5.系统错误,例如处理器、内存、电源系统和风扇等设备发生的错误都记录在资源名为sysplanar0的名下。所以无论什么时候只要存在一个资源名为sysplanar0的错误日志,就应该对sysplanar0执行错误日志分析

    6.在问题检测模式下运行诊断程序或在“TASKS SELECTION LIST”画面中执行“Run Error Log Analysis”任务就能够执行错误日志分析。独立诊断模式(Stand-alone diagnostics)不做错误日志分析

    7.错误日志分析将对错误日志中与指定资源相关的所有错误进行分析。对于那些应该被修正的错误,错误日志分析将提供一个处理列表或一个SRN号;对于那些能够安全忽略的错误,错误日志分析将会指出没有发现任何问题。


三、设备的物理位置编号

    物理位置编号:Physical Location Codes。指出插槽,适配器或设备的物理位置,在维护手册和用户手册中通常会讲述AIX位置编号(逻辑)和物理位置编号之间的关系。诊断程序一般显示设备的物理位置编号(区分大小写)

    示例

    命令:lscfg -vp


    其中27-08是AIX位置编号(相当于AB-CD部分),“Device Specific.(YL)”栏显示的是物理位置编号,即P1-I8/Z1,P1表示Planar1,I8表示PCI槽8,Z1是双通道适配器(Dual Channel Adapter)卡中的第1个通道(SCSI总线)

    下面是物理位置编号的一些例子:

    P1-C1表示处理器卡位于Planar1的Slot1中

    U1-P1-M2.12表示内存DIMM12在系统主板的槽2中

    U0.2-P2-I1表示PCI适配器在第2个I/O抽屉中,即槽1


四、诊断硬件设备的方法

    1.并发模式(Concurrent Mode)下执行诊断操作。在并发模式下,如果系统正常运行,且有用户使用系统,那么系统进程和用户进程也运行正常,而且所有卷组都会被使用

    2.维护模式(Service Mode)下执行诊断操作。在维护模式下机器仍然运行着AIX,但是只启动最小数量的进程,而且只有rootvg被激活。此外,还有一种是在线诊断维护模式

    3.从CD-ROM,磁带或软磁盘启动独立诊断程序,也称为独立诊断模式。基于CD-ROM的诊断程序是一个完全单独的AIX版本,而且任何诊断的执行不受AIX设置和被测试机器的限制,不依赖于机器上的操作系统

    也可以通过网络方式从其他机器使用NIM引导一个诊断程序镜像


五、并发模式下诊断硬件设备

    在AIX系统正常运行的同时执行诊断即为并发模式

    方法一:diag -d [resouce_name]

    高级命令,直接指出要诊断的具体设备名

    方法二:diag进入诊断

    方法三:SMIT,选择"Problem Determination"-->"Hardware Diagnostics"-->"Current shell"

    1.诊断程序(Diagnostic Routines)

    这一组程序主要是针对机器的操作人员,当以这个选项执行诊断操作时,它并不提示用户拔掉设备或线缆,而且没有使用凹形插头(wrap plugs)。因此,用这种方法做测试不如用高级诊断做测试全面。在某些时候,如果存在一个实际的问题,用这个方法产生的结果还可能是“No Trouble”

    2.高级诊断程序(Advanced Diagnostics Routines)

    用这一组程序执行诊断程序时,它会要求用户移去线缆,插上凹形插头,并且使用好几个其他项目。作为高级诊断的结果,它尽可能地做详细的测试。通常情况下,如果使用高级诊断得到的“No Trouble”结果,就可以肯定被测试的设备没有硬件问题

    3.任务选择(Task Selection)

    这部分是维护辅助工具

    4.资源选择(Resource Selection)

    这里列出在系统中被诊断程序支持的资源。一旦选择一个资源后,就会出现一个任务菜单来显示对这个资源所能执行的所有诊断任务

    当用户选择了“Diagnostic Routines”或“Advanced Diagnostics Routines”之后,就出现一个“DIAGNOSTIC MODE SELECTION”的画面,在这里选择“Problem Determination”方法,还是“System Verification”方法

    问题诊断(Problem Determination)

    该选项执行诊断程序,首先针对用户正在测试的设备在AIX错误日志中搜索24小时之前已记录的任何错误,然后它将使用任何错误日志(关于被测试设备的记录)中的“sense data”(自动检测到的数据)和对这个设备所做诊断测试的结果一起来产生一个维护请求号(Service Request Number,SRN)。

    系统检验(System Verification)

    如果刚刚更换了一个部件或执行了一个修理操作之后,使用这个选项来检验系统的现状。系统检验对设备执行诊断程序,而不查阅AIX错误日志,因此它反映了做测试时的机器情况。当用户仅仅想对一个设备或整个机器做一个直接测试,也可以使用系统检验

并发模式提供的方法能在AIX正常运行和用户正常登陆系统的情况下对系统资源执行在线诊断操作。如果系统正常运行,在并发模式下不能测试下面所列出的资源:

    包含页面空间的磁盘所使用的SCSI适配器

    用于页面空间的磁盘驱动器

    内存

    处理器

    根据被测试设备的状态,在并发模式下有4种可能的测试情况

    当这个设备在另一个进程的控制下时只做最小限度的测试

    对一个适配器或设备执行测试时,如果有一些进程正在使用这个适配器或设备的某些部分,那么就进行部分测试。例如,测试一个8端口RS-232适配器上的一个未配置的端口

只有在这个设备没有被其他任何进程分配和使用时才执行全面测试。要达到这种要求,可能要求在诊断测试开始之前执行一些命令来让进程释放这些设备

当对CPU或内存进行测试时,诊断程序会查阅NVRAM中的记录。在机器加电测试过程中产生的CPU或内存错误就保存在NVRAM中。通过分析这些错误记录,诊断程序才能产生所有相关的SRN号