2014/7/4接XX人民医院系统管理员X工的反馈,医院由于停电导致IBM小机重启,重启后数据库没有正常启动,导致HIS无法登录,医院业务停顿,需要立即排除解决。
由于医院采用的RAC集群,因此首先要检测RAC集群状态是否正常,通过telnet远程命令方式连接到小机服务器,切换到oracle用户执行crs_stat –t命令查看CRS集群状态,结果如下:
$crs_stat -t
$Cannotcommunicate with the CRS daemon
根据提示可以确认,crs服务根本没有启动,肯定数据库无法使用,查看CRS的日志,在$CRS_HOME/log/crsd.log日志看到,没有就近的日志信息,最近的信息都是2013年10月份的,因此判断肯定CRS启动都还没有执行到日志写入部分,就出现了问题。
由于医院反馈出现问题的原因是小机重启,从过往的经验来看我们应该检测下硬件特别是共享存储情况,通过命令查看如下:
查看当前活动的磁盘,如下:
可以清楚的看到有2个vg没有激活,分别是heartvg和crsvg,从名称上可以判断,crsvg肯定是存放crs组件内容的,这个盘没有激活,crs肯定无法启动,因此问题基本定位。
在确定问题后,需要立即采用手工命令方式varyonvg激活磁盘,激活过程如下,非常简单。
随后利用命令启动crs集群服务,如下
这时候再去观察crs日志的情况,可以看到日志已经开始正常的写入,略等30秒钟后,集群正常启动,用户业务恢复正常。
关键知识
查看AIX磁盘命令:
lsvg
lsvg -o #查看活动逻辑卷
加载逻辑卷:
varyonvg 逻辑卷名
查看RAC集群信息:
crs_stat –t
通过命令启动CRS集群:
/etc/init.crs start