一次简单的AIX磁盘未正常激活导致RAC无法启动的故障排除

基本要素(时间、用户、问题)

2014/7/4接XX人民医院系统管理员X工的反馈,医院由于停电导致IBM小机重启,重启后数据库没有正常启动,导致HIS无法登录,医院业务停顿,需要立即排除解决。

问题分析

步骤一:查看集群状态

由于医院采用的RAC集群,因此首先要检测RAC集群状态是否正常,通过telnet远程命令方式连接到小机服务器,切换到oracle用户执行crs_stat –t命令查看CRS集群状态,结果如下:

$crs_stat -t

$Cannotcommunicate with the CRS daemon

根据提示可以确认,crs服务根本没有启动,肯定数据库无法使用,查看CRS的日志,在$CRS_HOME/log/crsd.log日志看到,没有就近的日志信息,最近的信息都是2013年10月份的,因此判断肯定CRS启动都还没有执行到日志写入部分,就出现了问题。

步骤二:查看共享磁盘信息

由于医院反馈出现问题的原因是小机重启,从过往的经验来看我们应该检测下硬件特别是共享存储情况,通过命令查看如下:


一次简单的AIX磁盘未正常激活导致RAC无法启动的故障排除_第1张图片

查看当前活动的磁盘,如下:

      可以清楚的看到有2个vg没有激活,分别是heartvg和crsvg,从名称上可以判断,crsvg肯定是存放crs组件内容的,这个盘没有激活,crs肯定无法启动,因此问题基本定位。

解决过程

在确定问题后,需要立即采用手工命令方式varyonvg激活磁盘,激活过程如下,非常简单。

一次简单的AIX磁盘未正常激活导致RAC无法启动的故障排除_第2张图片

      随后利用命令启动crs集群服务,如下


      这时候再去观察crs日志的情况,可以看到日志已经开始正常的写入,略等30秒钟后,集群正常启动,用户业务恢复正常。


关键知识
查看AIX磁盘命令:
lsvg
lsvg -o #查看活动逻辑卷
加载逻辑卷:
varyonvg 逻辑卷名
查看RAC集群信息:
crs_stat –t
通过命令启动CRS集群:
/etc/init.crs start

你可能感兴趣的:(一次简单的AIX磁盘未正常激活导致RAC无法启动的故障排除)