详细描述本人在使用IBM磁盘阵列及MSCS的日常维护方法,并对可能出现的问题说明了解决方法。
一、 磁盘阵列的维护
基本知识
1、阵列的四种主要状态:
。Online(在线):Cluster中有控制权的节点的阵列状态。
。Offline(脱机):Cluster中无控制权的节点的阵列状态,或有控制权,但处于脱机状态。
。Critical(临界状态):在Cluster中,处于此状态的阵列不允许进行切换,必须在原来有控制权的机器上对阵列进行恢复,即进行Rebuild或其它恢复操作。
。Blocked(阻塞状态):只出现在RAID0级别中。在Cluster中,处于此状态的阵列不允许进行切换或读写操作,必须在原来有控制权的机器上对阵列进行恢复。
2、磁盘的两种主要状态:
。Online(在线):硬盘灯为绿色或指示灯不亮(与阵列柜型号有关)。此时阵列的状态为Online。
。 Defunct(非在线、失效):硬盘灯为红色。此时阵列的状态为Offline、Critical或Blocked。
3、每次切换后,磁盘阵列都会进行一次数据的同步,此时硬盘灯出现有规则的闪烁,持续时间大概为2小时左右(与阵列容量有关)。同时仍然可以进行其它操作,但是一定不能断电或进行热插拔操作,否则阵列信息将丢失。
4、硬盘的Firmware版本查看:
在ServeRaid Manager的物理磁盘组中,点击要查看硬盘,屏幕上将显示该硬盘的的Firmware版本号。
说明:版本要求为1.09(或S96E)以上。
5、阵列卡的Firmware及Bios版本查看:
在ServeRaid Manager中,点击要查看的控制卡,屏幕上将显示该阵列卡的Firmware 及Bios版本号。
说明:Firmware版本应为3.70以上、 Bios版本应为4.0以上。
现象观察
1、查看阵列柜的前面板的状态灯提示
一般阵列柜中硬盘有两个指示灯,一个为状态灯(红),一个为硬盘读写指示灯(绿)。
。若干磁盘的绿灯不规则闪烁表示为对该盘当前有读写操作(此时绿灯较亮),阵列为Online状态;
。全部磁盘的绿灯规则闪烁表示阵列作同步操作(此时绿灯较暗),阵列为Online状态;
。磁盘的绿灯全灭表示当前无操作,阵列处于Online状态;
。单个硬盘亮红灯表示此盘状态为DDD(不可用)或OffLine;
。某个硬盘绿灯及桔黄灯交替规则闪烁表示该盘正在Rebuild;
。两个以上硬盘亮红灯时表示阵列柜已坏,Cluster 必然当机。
2、通过ServeRaid Manager管理工具查看
在有控制权的节点启动ServeRaid Manager。
。控制器、逻辑盘处于OK状态;
。构成阵列的物理硬盘处于Online状态(如果存在Hot Spare盘,可看到本机的Hot Spare盘状态为Hot Spare,另一节点的Hot Spare盘状态为Ready);
。如果存在Hot Spare 硬盘,则在Hot Spare 菜单中可以找到该硬盘;
。如果某物理硬盘状态为DDD,说明该盘已不可用,需要修复或替换;
。如果某块物理硬盘状态为Offline,表示该盘为脱机状态(未损坏);
。在RAID 1、RAID 1E、RAID 5及RAID 5E 中如果某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Critical,即临界状态;
。在RAID 0 中,如果某一硬盘状态为DDD或Offline,则阵列或逻辑盘状态为Blocked,即阻塞状态,此时对硬盘不能进行任何操作,等待恢复完后,手工将Blocked 状态设为UnBlocked状态;
说明:无控制权的节点阵列中的磁盘状态为Defunct(Hot Spare盘为正常)。
磁盘异常状态处理
要求主机对磁盘阵列拥有控制权。
1、单个磁盘DDD状态,此时禁止Cluster切换(可关闭备机)。
说明:DDD状态并不一定表示硬盘物理故障,根据该盘的使用情况,有如下处理方法:
。该盘作为Array磁盘时,并且该节点存在Hot Spare盘 :当该盘失效时,Hot Spare 盘自动完成接管,阵列自动进入Rebuild状态,同时该盘状态转为Hot Spare。如果没有自动Rebuild,需要人工执行Rebuild 操作,完毕后,将该盘设置为Hot Spare状态。若人工Rebuild操作失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操作;如果仍然失败,说明该盘可能存在物理故障。
。该盘作为Array磁盘时,节点无Hot Spare 盘;选中该盘,按鼠标右键,执行Rebuild操作,若操作失败,可拔出此盘,隔一分钟后再插入磁盘柜中,重复上述操作;如果仍然失败,说明该盘存在物理故障。
。该盘为Hot Spare 盘:选中该盘,按鼠标右键,执行Delete Hot Spare将此盘从Hot Spare状态删除,再将该盘重新设置为Hot Spare(也可使用Replace and Rebuild进行)。如果操作失败,可拔出此盘,隔一分种后再插入磁盘柜中,重复上述操作;如果仍然失败,说明该盘可能存在物理故障。
2、单个磁盘Offline状态
手工设置为Online;如果不成功,先关闭备机(无控制权),再重启主机,然后重新设置为Online;如果还不成功,将盘拔出磁盘柜,隔一分钟后重新插入柜中,再次关闭备机(无控制权),再分别重新启动主机和备机。
以下两种情况先关掉B机,防止系统切换
3、两个盘 Offline状态
先将其中一个Online,所另一个作Rebuild操作,完成后重新启动主机。
4、一个Offline,一个DDD
将Offline盘设置为 Online,对DDD盘作Rebuild操作,完成后重新启动主机。
5、硬盘状态为Defunct时,可按下列步骤进行恢复
。打开ServeRaid Manager。
。 选中Defunct的硬盘,按右键。
。使用Replace And Rebuild对硬盘数据进行重建。
。按照屏幕提示,需要先将硬盘拔出,然后再插入。
磁盘阵列异常处理
1、当阵列处于Critical时,只需在原来有控制权的机器上对故障硬盘进行Rebuild即可。
2、当阵列处于Blocked时,作如下操作:
。为了保证对阵列的恢复,先将原来没有控制权的机器关闭。
。重新启动有控制权的机器,此时系统提示:按F4——修正错误;F5 ——接收当前配置。
。按F4修正当前的错误,将Blocked状态修正为Critical状态。
。系统自动对硬盘进行Rebuild。
硬盘Rebuild时的进度显示ServeRaid Manager中窗口底部的状态条中
二、MSCS的维护:
MSCS的维护与阵列的维护密切相关,如果阵列工作状态正常,则MSCS一般情况下也正常,但是如果Cluster 中的某些服务不能启动或损坏,MSCS可能发生工作异常。
以下是日常维护操作说明:
1、首先检查RAID的工作状态(通过IBM ServeRaid manager检查);
2、使用Cluster Administators查看每个服务的工作情况,所有资源应为Online;
3、如果某服务或资源处于Offline状态时,先查明原因,然后人工设置为Online;
4、如果磁盘或磁盘阵列工作异常,可按照磁盘阵列的维护进行处理;
注意:此时阵列处于Critical状态,应防止、禁止切换操作(采取关闭备机的办法)。
5、如果异外断电(所有设备全部断电),启动时按下列顺序启动系统:
。先启动阵列柜;
。阵列柜加电后,启动断电前属于控制状态的节点;
。待完全启动后,再启动另外一个节点。
双机系统中存在主域控制服务器,应先启动主域控制服务器。
6、紧急情况下关机顺序如下:
。首先关闭处于备用状态的节点;
。再关闭处于控制状态的节点;
。最后关闭磁盘阵列。
原则上阵列柜不能掉电,特别是正在对进行阵列的读写操作时。
7、在特殊情况下,Cluster可能不能启动,一般情况下可能该节点对磁盘阵列无控制权,此时在命令行方式下执行ipshahto.exe文件,强行取得控制权。
此步骤建议在由技术人员指导下进行。
8、当硬盘正在Rebuild时,不允许切换;正在同步时,尽量不要切换;