版权声明 :转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://jxht.blogbus.com/logs/47430254.html
对HPUX主机做定期健康检查:本文适用于HPUX主机和系统,在PA-8600相关CPU的主机上测试通过,并可延伸到其他相关平台和主机。
本文作者未知,疑为HP工程师或相关人员。
如何定期对系统做Health Check
系统每日运转,为了最大程度上减少系统的非正常停机,系统管理员应定期对系统作Health Check
1. Health Check的目的
1)发现及定位已经存在的风险
2)发现潜在的系统问题及风险
3)进行预防性的保养维护
2. Health Check的步骤:
硬件系统
●指示灯
硬件系统通常都有状态指示灯,正常运行状态下多为绿灯(闪烁或恒亮),如果出现黄灯、红灯说明有故障(也有例外,应视具体硬件而定),系统管理员应注意观察和掌握住系统正常运行的状态指示灯,这样,硬件发生故障时,就能很快发现。
●液晶面板和主控台
主机正常运行时,液晶面板上通常有显示如下:
RUN XXXXX |
发生故障时,其液晶显示屏或主控台上都有ERROR或FLT一类的信息。
如果磁盘阵列运行过程中,液晶屏上或主控台上出现其他信息,如Disk Failue,Power Supply failure,X controller failure等时,应及时与HP响应中心联系
●系统中的硬件信息及日志
1、检查syslog.log
检查syslog.log和OLDsyslog.log中有没有关于硬件系统的诸如Error,Warning,Powerfail一类的信息。
2、使用mstm对硬件系统进行诊断并查看相应的硬件日志/usr/adm/diag/LOGXXX
3、使用相应的工具查看硬件的firmware版本及配置信息
硬件部件 |
察看信息 |
使用工具 |
System Borad |
Pdc firmware |
Mstm |
GSP |
Firmware |
GSP command |
CPU |
Numbers & Status |
Ioscan-fnC processor |
Memory |
Total Size |
Dmesg|grep Physical |
SCSI card |
HW path& ID |
ioscan |
Fibre channel |
Date Code/firmware |
Mstm/hardware check |
Disk |
Model &firmware |
Diskinfo -v |
Tape drive |
Model &firmware |
Diskinfo -v |
Cdrom/DVD |
Model &firmware |
Diskinfo -v |
Disk Array |
ALL info |
Autoraid:arraydsp -a |
FC60: amdsp -a fc60 amdsp -d fc60 rebuild amdsp -r fc60 amutil -rr 1:0 fc60 |
软件系统
●安装的软件
1、检查有无未configured的软件和补丁:swlist -l fileset -a state
2、在11.0系统中检查有无patch attribute的补丁:
swlist -l patch -a is_patch PH/*
3、检查Swverify有无错误输出
4、检查/var/adm/sw/swagent.log中ERRORs和WARNINGs
●系统日志
检查/var/adm/syslog/syslog.log及OLDsyslog.log中有无错误及警告信息
●网络联接
检查nettl.LOG00中最近的错误信息
netfmt -f /var/adm/nettl.LOG00
●Dump的配置
1、用lvlnboot -v 检查Dump区
2、检查core dump目录
3、确认/etc/rc.config.d/savecore(10.x)或savecrash(11.x)值为1
●系统备份
确认系统备份计划执行良好,有最近的系统备份且定期作数据备份
●系统交换区
1、确认系统有足够的交换区:swapinfo
2、若内存大于1GB,确认swapmemon为1
●系统安全
1、检查失败的登陆:lasb
2、检查/etc/passwd中有无相同的rootid
●系统起停
1、检查启动过程中的错误信息:/etc/rc.log
2、检查关机日志/etc/shutdownlog确认有无非正常关机和重启
●LVM配置
1、确认/etc/lvmconf中包含所有逻辑卷组的配置信息
2、确认每个vg配置文件有备份
3、vgdisplay -v显示所有的激活的vg的信息
●文件系统、磁盘空间、数据库表空间检查
1、bdf检查文件系统大小及剩余空间
2、vgdisplay -v检查每个vg的组成及剩余空间
3、使用数据库工具检查数据库表空间
●Kernel
检查/stand/vmunix存在,且其有备份存在于/stand目录下
●Cluster
1、检查/etc/cmcluster/pkgXXX/control.sh.log中的错误信息
2、cmviewcl -v检查cluster状况