IBM POWER服务器故障信息的收集

  1. 收集故障信息对于判断诊断故障原因修复系统非常重要

  2. 系统故障记录(errorlog)

errdemon进程在系统启动时自动运行

记录包括硬件软件及其他操作信息

故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析

errpt命令的使用(普通用户权限也可使用)

#errpt|more 列出简短出错信息

T类型: P 永久; T 临时; U 未知永久性的错误应引起重视

C分类: H 硬件; S 软件; O 用户; U未知

#errpt-d H 列出所有硬件出错信息

#errpt-d S 列出所有软件出错信息

#errpt-aj ERROR_ID 列出详细出错信息

#errpt -aj 0502f666 <--- ERROR_ID用大小写均可

  1. 控制面板上的LED 代码

8位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码

4位代码通常是Exxx

3位代码通常为0yyy 只看后3位

8位和4位代码可查看系统服务手册(Service Guide)

3位代码可查看系统诊断手册(Diagnostic Information for Multiple BusSystem)

闪动的888,系统崩溃硬件或软件原因造成按reset 键会显示更多内容

888-102一般为软件故障888-102-207 例外

系统会产生一个dump

888-102-xxx-0C9系统正在做dump, 请等待

888-102-xxx-0C0系统dump完成可关电重启

888-103或105

硬件故障一般有SRN代码及位置代码

  1. SMS (System     Management Service) 故障记录

当主控台出现键盘图标后(LED显示E1F1时)按1键

选择"Utilities"

选择"ErrorLog", 抄下8位故障代码

在SMS中还可以更改系统启动顺序表

  1. 运行故障诊断程序(Diagnostic)     对系统硬件进行检查和诊断

当发现有硬件故障时应立即使用diag

#diag

>选高级诊断Advance Diagnostic)

>选问题诊断Problem Determination) 或

选系统检查SystemVerification)

(选PD会对系统错误记录进行分析)

diag运行后会给出SRN代码故障设备名称及百分比地址代码等

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析

  1. 系统dump

发生在系统崩溃时AIX会做dump(系统内存的快照)

此时机器会显示闪动的888102xxx0cx代码

0c9系统dump进行中0c9状态可能会维持超过2分钟

不要关电和按reset,等待dump做完

0c0dump成功完成这时可以断电重起

0c2手动启动dump功能

0c4dump设备空间不足只有部分信息保存下来

0c5不明原因导致dump失败

一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启重启时可能提示用户插入磁带拷贝dump文件要选择退出这样会丢失重要的故障信息

dump的有关设置

估算系统dump的大小在系统最繁忙时内存使用最多

#sysdumpdev -e

0453-041Estimated dump size in bytes: 261305139

#lsps -a

PageSpacePhysical VolumeVolume Group Size %Used ActiveAutoType Chksum

hd6hdisk0rootvg512MB61yesyeslv0

#sysdumpdev -l

primary/dev/hd6<--dump的主设备

secondary/dev/sysdumpnull

copy directory/var/adm/ras<--dump的拷贝的目录

forcedcopy flagTRUE

alwaysallow dumpFALSE

dumpcompressionON

typeof dumptraditional

hd6应比估算值稍大

/var/adm/ras是默认的dump拷贝目录比较估算值保证/var文件系统有足够的剩余空间拷贝dump文件否则机器重起时会提示用户插入磁带

dump文件名为vmcore#

对PCI机型如要手动做dump须把"alwaysallowdump"先设成true

#sysdumpdev-K

dump打包

#snap �Ca -o/dev/rmt##snap �Ca -c/tmp/ibmsupt目录做成一个压缩文件

snaptarZ如果/tmp文件系统空间不够可用-ddirectory参数指定别的目录代替/tmp/ibmsupt


你可能感兴趣的:(服务器,IBM,信息收集)