收集故障信息对于判断诊断故障原因修复系统非常重要
系统故障记录(errorlog)
errdemon进程在系统启动时自动运行
记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog可备份下来或拷贝到别的机器上分析
errpt命令的使用(普通用户权限也可使用)
#errpt|more 列出简短出错信息
T类型: P 永久; T 临时; U 未知永久性的错误应引起重视
C分类: H 硬件; S 软件; O 用户; U未知
#errpt-d H 列出所有硬件出错信息
#errpt-d S 列出所有软件出错信息
#errpt-aj ERROR_ID 列出详细出错信息
#errpt -aj 0502f666 <--- ERROR_ID用大小写均可
控制面板上的LED 代码
8位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码
4位代码通常是Exxx
3位代码通常为0yyy 只看后3位
8位和4位代码可查看系统服务手册(Service Guide)
3位代码可查看系统诊断手册(Diagnostic Information for Multiple BusSystem)
闪动的888,系统崩溃硬件或软件原因造成按reset 键会显示更多内容
888-102一般为软件故障888-102-207 例外
系统会产生一个dump
888-102-xxx-0C9系统正在做dump, 请等待
888-102-xxx-0C0系统dump完成可关电重启
888-103或105
硬件故障一般有SRN代码及位置代码
SMS (System Management Service) 故障记录
当主控台出现键盘图标后(LED显示E1F1时)按1键
选择"Utilities"
选择"ErrorLog", 抄下8位故障代码
在SMS中还可以更改系统启动顺序表
运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断
当发现有硬件故障时应立即使用diag
#diag
>选高级诊断Advance Diagnostic)
>选问题诊断Problem Determination) 或
选系统检查SystemVerification)
(选PD会对系统错误记录进行分析)
diag运行后会给出SRN代码故障设备名称及百分比地址代码等
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析
系统dump
发生在系统崩溃时AIX会做dump(系统内存的快照)
此时机器会显示闪动的888102xxx0cx代码
0c9系统dump进行中0c9状态可能会维持超过2分钟
不要关电和按reset,等待dump做完
0c0dump成功完成这时可以断电重起
0c2手动启动dump功能
0c4dump设备空间不足只有部分信息保存下来
0c5不明原因导致dump失败
一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启重启时可能提示用户插入磁带拷贝dump文件不要选择退出这样会丢失重要的故障信息
dump的有关设置
估算系统dump的大小在系统最繁忙时内存使用最多
#sysdumpdev -e
0453-041Estimated dump size in bytes: 261305139
#lsps -a
PageSpacePhysical VolumeVolume Group Size %Used ActiveAutoType Chksum
hd6hdisk0rootvg512MB61yesyeslv0
#sysdumpdev -l
primary/dev/hd6<--dump的主设备
secondary/dev/sysdumpnull
copy directory/var/adm/ras<--dump的拷贝的目录
forcedcopy flagTRUE
alwaysallow dumpFALSE
dumpcompressionON
typeof dumptraditional
hd6应比估算值稍大
/var/adm/ras是默认的dump拷贝目录比较估算值保证/var文件系统有足够的剩余空间拷贝dump文件否则机器重起时会提示用户插入磁带
dump文件名为vmcore#
对PCI机型如要手动做dump须把"alwaysallowdump"先设成true
#sysdumpdev-K
dump打包
#snap �Ca -o/dev/rmt#或#snap �Ca -c把/tmp/ibmsupt目录做成一个压缩文件
snaptarZ如果/tmp文件系统空间不够可用-ddirectory参数指定别的目录代替/tmp/ibmsupt