HP unix集群一个节点无法服务遇到的诡异问题

昨晚客户的HP集群数据库服务器出现点问题,断电后网络交换机由于某些原因重新配置了。数据库一个节点(节点2)一直起不来,另一个节点(节点1)正常对外提供服务。crs_stat -t,发现节点2部分资源在节点1上启动,其余的2上得资源都是offline状态(ons,gsd,vip,lis,.inst),手动启动,crs_start 资源名,顺序单个我都试过,都是报错:

CRS-0223: Resource 资源名  has placement error.

crs_stop -all,停掉全部资源,先启动节点一的资源srvctl start nodeapps -n oracle1,再启动节点2的资源,依然报错如上.

cmviewcl -v发现节点2和其包都是down的状态

后面的state分别是halted,blocked

关闭集群(hp集群和数据库集群)后再启动,cmview -v状态依旧

对两个节点分别vgdisplay

节点1(正常节点)oracle1:

有一个/dev/orabak是位启动状态

节点2:

/dev/oracle

/dev/oracle1

/dev/oracle2等均是如下提示:

vgdisplay: 卷组未启动。
vgdisplay: 不能显示卷组 "/dev/vglock"。

尝试如下:

cd /etc

mv lamtab lamtab.bak

vgscan -v

vgchange -a s oracle2

问题依旧

将lamtab.bak还原后将未启动的卷组激活

cmrunnode

可以启动,未有异常信息,但是cmview的时候仍然是down状态

支持的工程师说可能是hp的bug

 

也尝试了重启节点2的机器,不能解决问题。

最后将两个节点服务器全部重启,问题解决。

你可能感兴趣的:(HP unix集群一个节点无法服务遇到的诡异问题)