AIX5.3 HACMP故障解析一例

因需要更换后端存储配件,对AIX小机进行停应用,在HACMP中先停NODE2节点再停NODE1节点,过程一切都很顺利。当更换配件完毕,需要重新启动NODE1时,却报了一个错误无法启动,让人一阵郁闷。经过分析后解决了这一故障,具体过程如下:

一、故障现象 :

ERROR: Logical volume fslv01 not found for VG oravg on node node1.
ERROR: Filesystem /sapbackup on node node1 does not exist.
Starting Corrective Action: cl_resource_auto_reimport_vg.
Would you like to update VG: oravg timestamp on
node(s): node1 for resource group: source1 [Yes / No]:

显示一个fslv01逻辑卷未找到,SAPBACKUP这个目录在节点1上不存在。这着实吓了我一跳,如果真的莫名其妙的丢了一个目录或卷,再恢复那就麻烦了。

二、分析过程:

1、有工程师提议说对oravg卷做varyoffvg强制离线再varyonvg做强制激活,再执行mount  all.这个虽然有一定可行性,但风险很大。我们知道卷的异常终止有时会造成卷组(VG)被锁定无法挂载任何目录。

2、与应用组联系,确定是否有此目录。经电话联系,确知 sapbackup没有使用,是之前建立后删除的。仔细回想了一下hacmp cluster的原理,决定用节点同步更新来解决这个问题。

HACMP原理:

 

在一个集群中,数据的完整性和一致性是非常重要的,HACMP会时常去严格检查数据的一致性和完整性,确保集群中各节点的正常。

三、具体操作过程:

1、启动HACMP
#smitty hacmp
 

 

选择第二项 extended configuration回车

 

然后选择第一项,然后再回车.

然后再执行extended verification and synchronization进行节点数据同步,最后问题解决。 

思考:联系沟通,回顾一下原理,避免错误的风险操作,镇定思考关键时刻是很重要的。

 

你可能感兴趣的:(AIX5.3 HACMP故障解析一例)