1,登陆到F85主机,仔细查看错误日志,确认系统镜像盘hdisk0的故障:
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
2F3E09A4 0801151907 I H hdisk0 REPAIR ACTION
16F35C72 0801083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0801003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0731163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0731083807 P H hdisk0 DISK OPERATION ERROR
B6048838 0731051907 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838 0731043107 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
B6048838 0731041907 P S SYSPROC SOFTWARE PROGRAM ABNORMALLY TERMINATED
16F35C72 0731003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0730163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0730083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0730003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0729163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0729083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0729003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0728163807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0728083807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0728003807 P H hdisk0 DISK OPERATION ERROR
16F35C72 0727163807 P H hdisk0 DISK OPERATION ERROR
2,打开机器前面板,根据硬盘使用繁忙程度(比较两块硬盘指示灯闪烁情况)初步判断系统镜像盘位于前面板右下侧硬盘笼子中的一号插槽,三号插槽中为hdisk1;
3,为进一步确保判断的准确性,请客户停掉主机上的应用、关闭数据库、关闭系统。待所有操作完成,打开硬盘笼子挡板,手工拔去一号插槽中的硬盘,重新启动到系统,“lsdev –Cc disk”观察hdisk0和hdisk1的状态,hdisk0由上次的“available”变为“defined”,hdisk1没有变化,则说明位于硬盘笼一号插槽中确为hdisk0;
4,根据服务手册,硬盘笼中硬盘可热插拔。在主机运行的情况下将拔出的硬盘插入一号插槽,合上硬盘笼挡板;
5,通过命令“cfgmgr”重新识别到hdisk0,“lsdev –Cc disk”查看hdisk0状态转为“available”,但在“lsvg –p rootvg”中查看物理盘hdisk0的状态为“missing”而非“active”,表示仍然有问题;
6,对hdisk0进行删除镜像操作:
# unmirrorvg rootvg hdisk0(取消hdisk0对rootvg的镜像)
# chpv -c hdisk0(清除引导区)
# reducevg rootvg hdisk0(将hdisk0从卷组中清除)
# bootlist -m normal hdisk1(重设启动顺序)
7,“lsvg –p rootvg”观察,确认hdisk0已经脱离rootvg,打开硬盘笼挡板,拔出一号槽中的hdisk0,并将新带来的36G硬盘插入到一号槽中,合上硬盘笼挡板。“cfgmgr”重新扫描硬件设备,“lsdev –Cc disk”查看新加硬盘在系统中显示为“hdisk0”,且状态为“available”,表示此硬盘可用;
8,对hdisk0进行镜像操作:
# chdev -l hdisk0 -a pv=yes(将新硬盘设为可用)
# extendvg rootvg hdisk0(将hdisk0加入rootvg)
# mirrorvg rootvg(对rootvg进行镜像,约二十分钟后镜像成功)
# bosboot -a -d /dev/hdisk0(在hdisk0上创建启动映象)
# bootlist -m normal hdisk1 hdisk0(重新设置启动顺序)
9,通过命令“lsvg –p rootvg”查看确认hdisk0已经包含在rootvg中并处于“active”状态,且使用pp数相同(一个pp等于64M):
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
hdisk0 active 542 148 76..12..00..00..60
F85系统镜像盘更换实录之一:删除原有镜像操作
# cfgmgr
# lsdev -Cc disk
hdisk0 Available 11-09-00-8,0 16 Bit LVD SCSI Disk Drive
hdisk1 Available 11-09-00-10,0 16 Bit LVD SCSI Disk Drive
# lsvg
rootvg
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
hdisk0 missing 542 148 70..00..00..00..78
# unmirrorvg rootvg hdisk0
0516-1246 rmlvcopy: If hd5 is the boot logical volume, please run 'chpv -c '
as root user to clear the boot record and avoid a potential boot
off an old boot p_w_picpath that may reside on the disk from which this
logical volume is moved/removed.
0516-1132 unmirrorvg: Quorum requirement turned on, reboot system for this
to take effect for rootvg.
0516-1144 unmirrorvg: rootvg successfully unmirrored, user should perform
bosboot of system to reinitialize boot records. Then, user must modify
bootlist to just include: hdisk1.
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
hdisk0 missing 542 542 109..108..108..108..109
# chpv -c hdisk0
# reducevg rootvg hdisk0
# lsvg -p rootvg
rootvg:
PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
hdisk1 active 542 148 70..00..00..00..78
# bootlist -m normal hdisk1
故障现象:一块S85硬盘在errpt中报错:
[root:/]errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
49A83216 0111232508 T H hdisk2 DISK OPERATION ERROR
处理过程:
1,errpt -a查看有关hdisk2故障的详细报告;
2,现场观察hdisk2状态灯为不正常状态;
3,lspv hdisk2查看hdisk2磁盘的从属关系:
[root:/]lspv hdisk2
PHYSICAL VOLUME: hdisk2 VOLUME GROUP: rootvg
PV IDENTIFIER: 000d202d530d2928 VG IDENTIFIER 000d202d00004c0000000101ba50e580
PV STATE: active
STALE PARTITIONS: 0 ALLOCATABLE: yes
PP SIZE: 32 megabyte(s) LOGICAL VOLUMES: 10
TOTAL PPs: 542 (17344 megabytes) VG DESCRIPTORS: 1
FREE PPs: 194 (6208 megabytes) HOT SPARE: no
USED PPs: 348 (11136 megabytes)
FREE DISTRIBUTION: 86..00..00..00..108
USED DISTRIBUTION: 23..108..108..108..01
经查,hdisk2为hdisk0(系统启动盘)的镜像;
4,插入一块同样大小(73GB)硬盘到另外插槽,cfgmgr识别出为hdisk4;
5,chdev -a pv=yes -l hdisk4让磁盘变得可用;
6,extendvg rootvg hdisk4将hdisk4加入卷组rootvg当中;
7,migratepv hdisk2 hdisk4将hdisk2中所有信息移动到hdisk4中:
root:/]migratepv hdisk2 hdisk4
0516-1011 migratepv: Logical volume hd5 is labeled as a boot logical volume.
0516-1246 migratepv: If hd5 is the boot logical volume, please run 'chpv -c hdisk2'
as root user to clear the boot record and avoid a potential boot
off an old boot p_w_picpath that may reside on the disk from which this
logical volume is moved/removed.
8,chpv -c hdisk2移除hdisk2中启动信息;
9,bosboot -ad /dev/hdisk4在hdisk4中加入启动信息;
10,reducevg rootvg hdisk2将hdisk2从rootvg中去除;
11,rmdev -l hdisk2 -d将hdisk2所有信息从系统中删除;
12,取出hdisk2;
13,bootlist -m normal hdisk0 hdisk4对原有启动顺序进行更改,将hdisk4取代hdisk2;
14,bootlist -m normal -o查看更改后的启动顺序是否生效:
[root:/]bootlist -m normal -o
hdisk0
hdisk4
整个过程完成。
昨天提到一客户那儿的突发事件,一台F85突然宕机,尝试重启或光盘/镜像盘启动都无法成功,最后认为问题出在电源上。因为就F85来说,两个电源是系统能够正常运行的充要条件。
今天收到了F85的电源备件,拿到客户那儿将故障电源替换下来,加电测试,新加电源有反应。合上侧翼机盖、加电、开机,启动到启动画面的时候,液晶面板上显示“AIX is starting”,经过几分钟后,机器正常启动到登陆界面。
用用户提供的用户名密码登陆到系统,diag、errpt检查系统运行状态、ping、telnet、netstat -in检查网络状态,su到oracle帐户下,启动数据库。至此,F85宕机故障解决。
除此之外,有一个命令“script”值得提及。一般我们在做巡检的时候,可以通过打开本机安装的SecureCRT进行telnet操作,可以通过菜单栏里“file-log session”或“transfer-receive ASCII”这两个工具来将巡检过程保存到指定的记事本里。但像面对金融、安全这样的客户的时候,因为安全性的顾虑,我们被禁止使用自己的电脑对客户电脑进行telnet操作,而只能在客户指定的机器上通过dos来telnet到相应客户机。众所周知,在dos里面进行操作是没法运行像“粘贴、复制”这样的命令的,这个时候,我们就可以通过“script”命令来将操作保存到客户机上指定的文件,再通过ftp命令将指定文件进行拷贝,这样就有了一个详细的操作记录文档。
“script”命令的用法是:
1,telnet到对方机器,如“# telnet 192.168.1.170”;
2,在命令提示符下输入“script output.txt(可以手工指定此文档的保存目录)”,这时会在屏幕上出现以下字样:
Script command is started on Tue Jun 7 14:15:11 BEIST 2007.
3,进行巡检;
4,通过敲击“exit”命令退出“script”模式,这时会出现下列字样:
Script command is complete on Tue Jun 7 14:22:55 BEIST 2007.
5,“cat”或者“more”output.txt文件,就可以对刚才的巡检操作进行查看。