IBM系列AIX小型机巡检项目及流程参考

转帖自 http://www.eygle.com/digest/2008/12/ibm_aix_checking.html

IBM系列AIX小型机巡检项目及流程参考

 

1、机器型号
# uname -uM
IBM,7029-6E3 IBM,01100550A

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告
# errpt -d H -T PERM //硬件的错误报告
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
BFE4C025   0530085308 P H sysplanar0     UNDETERMINED ERROR
BFE4C025   0529091308 P H sysplanar0     UNDETERMINED ERROR

# errpt -d S -T PERM //软件的错误报告
# errpt -aj *******|more //具体的错误信息
# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件

4、有否给 root 用户的错误报告
# mail
Mail [5.2 UCB] [AIX 5.X]  Type ? for help.
"/var/spool/mail/root": 5 messages 3 new 5 unread
 U  1 root              Thu May 15 09:53  24/884  "diagela message from p615"
 U  2 root              Fri May 16 04:07  24/884  "diagela message from p615"
>N  3 root              Sat May 24 13:08  23/874  "diagela message from p615"

5、检查 hacmp.out, smit.log, bootlog 等
# lssrc -g cluster/#>lssrc -g cluster
Subsystem         Group            PID          Status
 clstrmgrES       cluster          16334        active

一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/
然后找到最近的 hacmp.out 文件,察看有没有错误信息

6、文件系统检查
# df -k
Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4           131072    101568   23%     2268     4% /
/dev/hd2          1441792     31256   98%    36056    11% /usr
/dev/hd9var        131072    117048   11%      418     2% /var

看看有没有超过 90% 使用率的,建议用户改善

7、逻辑卷有否 "stale" 的状态
# lsvg -l rootvg
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     1     1    closed/syncd  N/A
hd6                 paging     4     4     1    open/syncd    N/A
hd8                 jfslog     1     1     1    open/syncd    N/A
hd4                 jfs        1     1     1    open/syncd    /
hd2                 jfs        11    11    1    open/syncd    /usr
hd9var              jfs        1     1     1    open/syncd    /var

如果系统还有其他卷组,也需要察看

8、内存交换区的使用率是否超过 70%
# lsps -a
Page Space      Physical Volume   Volume Group    Size %Used Active  Auto  Type
hd6             hdisk0            rootvg         512MB     1   yes   yes    lv

 


9、系统性能是否有瓶颈
# topas
# vmstat 1 10
kthr    memory              page              faults        cpu
----- ----------- ------------------------ ------------ -----------
 r  b   avm   fre  re  pi  po  fr   sr  cy  in   sy  cs us sy id wa
 0  0 110029 408618   0   0   0   0    0   0   4  602  75  0  1 99  0
 0  0 110031 408616   0   0   0   0    0   0   1  562  54  1  0 99  0
 0  0 110031 408616   0   0   0   0    0   0   3  628  84  0  0 99  0

# iostat 1 10
tty:      tin         tout    avg-cpu: % user % sys % idle % iowait
          0.0        394.0                0.0   0.0  100.0      0.0

Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk0           0.0       0.0       0.0          0         0
hdisk1           0.0       0.0       0.0          0         0
cd0              0.0       0.0       0.0          0         0

10、网络与通讯检查
# ifconfig -a

# netstat -in
Name  Mtu   Network     Address            Ipkts Ierrs    Opkts Oerrs  Coll
en0   1500  link#2      0.9.6b.3e.6.ac        1964     0      534     0     0
en0   1500  192.168.0   192.168.0.11          1964     0      534     0     0
lo0   16896 link#1                             267     0      413     0     0
lo0   16896 127         127.0.0.1              267     0      413     0     0

# netstat -rn //察看路由情况
Routing tables
Destination      Gateway           Flags   Refs     Use  If   Exp  Groups

Route Tree for Protocol Family 2 (Internet):
127/8            127.0.0.1         U         7       142 lo0      -      -
192.168.0.0      192.168.0.11      UHSb      0         0 en0      -      -   =>

# vi /etc/hosts //察看 hosts 文件有否特殊的定义
# ping ****

#lsattr -El inet0 //路由的检测
authm         65536               Authentication Methods           True
hostname      h24                 Host Name                        True
gateway                           Gateway                          True
route         net,,0,172.16.23.81 Route                            True
bootup_option no                  Serial Optical Network Interface True
rout6                             FDDI Network Interface           True

11、有否符合要求的系统备份
第一次去可以先询问客户关于备份的策略
# ls -l /image.data //看看系统有没有备份的 image 文件,记录最后备份日期
-rw-r--r--   1 root     system         9600 May 19 17:31 /image.data


# lsvg -l rootvg //察看有否符合要求的数据备份和保护
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd4                 jfs        1     1     1    open/syncd    /
hd2                 jfs        11    11    1    open/syncd    /usr
hd10opt             jfs        1     1     1    open/syncd    /opt
oraclelv            jfs2       80    160   1    open/syncd    /oracle
loglv00             jfs2log    1     1     1    open/syncd    N/A
testlv              jfs        10    20    1    closed/syncd  /tmp/test

如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES

12、系统 Dump 设置是否正确
# sysdumpdev -l
primary              /dev/hd6
secondary            /dev/sysdumpnull
copy directory       /var/adm/ras
forced copy flag     TRUE
always allow dump    FALSE
dump compression     OFF

# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull
# sysdumpdev -P -c

13、HACMP 测试
# /usr/sbin/cluster/diag/clconfig -v '-tr'  // Cluster Verification 输出结果无Fail
# /lssrc -g cluster

14、maxpout, minpout 系统参数
如果系统中运行了HACMP
smitty chgsysy,将High/Low water mark从0/0修改为33/24

# lsattr -El sys0|grep maxpout 
//maxpout 用途: 对文件指定未决 I/O 的最大数目
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)

# lsattr -El sys0|grep minpout
//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)

15、syncd 参数
# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &

值: 缺省值:60;范围:1 到任何正整数
显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot
更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。
诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。
调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。

更改命令为:
#vi /sbin/rc.boot

16、aio 参数 //异步 I/O 可调参数
# lsdev -C|grep aio
察看状态是否是 available

# lsattr -El aio0
minservers 1         MINIMUM number of servers                True
maxservers 10        MAXIMUM number of servers                True
maxreqs    4096      Maximum number of REQUESTS               True
kprocprio  39        Server PRIORITY                          True
autoconfig available STATE to be configured at system restart True
fastpath   enable    State of fast path                       True

# smit aio  //可以更改参数

17、检查 errdaemon, srcmstr 是否正常运行
# ps -ef|grep err
# ps -ef|grep src

18、 系统硬件诊断
# diag
-> Diagnostic Routines
-> System Verification
-> All Resources
-> F7 或者 Esc+7

19、补丁程序 PTF 是否满足要求,当前系统补丁版本
#oslevel -r
5300-04

#instfix -i|grep
    All filesets for 5.3.0.0_AIX_ML were found.
    All filesets for 5300-01_AIX_ML were found.
    All filesets for 5300-02_AIX_ML were found.
    All filesets for 5300-03_AIX_ML were found.
    All filesets for 5300-04_AIX_ML were found.
    All filesets for 5300-05_AIX_ML were found.

# lscfg -vp //检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt
# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

你可能感兴趣的:(LAMP)