IBM SUPPROT帮助下的DS4800故障排除操作

故障情况描述

管理员于2010620日下午接到报告,反映生产系统的应用速度突然变慢。

系统管理员做了如下的测试:

在与生产系统存储DS4800相连的windows主机进行测试:

1>从存储到本地盘进行文件拷贝操作,传输速度只有3-4Mb/s。远远低于平时存储到本地的传输速度(50-60Mb/s).

在与DS4800相连的生产系统(AIX主机)进行测试:

2>ORACLE RAC数据库做日志切换操作,”alter system switch logfile”,

一个切换需要3-4分钟,远远高于平时切换耗时(<1分钟)

3>AIX上用”sar 1 10”查看存储的性能,发现iowait40-60之间,远远大于平时iowait的数值(1-3)。

检查存储的情况:

4>查看存储DS4800的故障灯,并没有变黄。

因此管理员请求我们公司的协助。

 

故障情况调研

故障存储是**的核心存储之一,存储上挂载了多套核心应用,对应了1AIXRAC数据库,多套linuxRAC数据库。

我们到达现场之后,确认了管理员的诊断信息,并继续做了下面的一系列测试:

EM登录存储,查看四个管理端口的状态,四个端口都是默认地址

192.168.128.101/102  192.168.129.101/102,但是查看端口的地址,

5>四个管理的端口的状态都是Failed ,但是我们是带外方式进行连入的。

(如果四个端口真都failed掉,我们怎么能连得上去?

6>从管理主机 ping DS4800的两个管理端口,192.168.128.101 192.168.128.102

发现192.168.128.101无法ping通。(端口挂掉了?)

7)查看DS4800的扩展柜情况,发现有一个扩展柜(exp810)后端的ESM显示器没有显示。(正常情况下应有显示数字的,难道是扩展柜有问题吗?)

8)EM上收集DS4800的日志,一点收集选项,整个界面就HANG住了。

 

故障日志以及分析

因为目前存储的情况只是变慢了而不是不可用,最恼人的是用EM管理登陆没有发现错误警告信息,而收集日志信息的时候又HANG在那里了。   

最初我们怀疑是盘阵CACHE MIRROR被打开而影响了存储的速度,但因为cache mirror在很早之前就是打开的,而最近才出现这个存储速度变缓的问题。换句话说,如果要变缓早变缓了,看来我们还要从别的地方找原因。

这种情况下,我们考虑IBM的原厂支持。

根据管理员于下午出问题点收集的日志情况,我们把发送给IBM2线支持进行分析。

同时我们建议客户对生产数据库进行备份,以便后续对存储做一些可能损坏数据的操作。

客户否决了我们的建议,因为存储的速度已经很慢了,这个时候备份生产系统,会影响对外提供服务,所以只有等过了高峰期再做备份操作了。

(因为之前客户都做了全备份,所以相对来说,增量备份的压力要远远小于全备的压力)

 

问题进一步分析

交由IBM 支持分析之后,得到一个初步结论:

A控制器(192.168.128.101)下辖的一块硬盘有问题,所以从日志中出现了disk drive time out错误,这块硬盘的错误导致整个通信发生噪声.

影响了磁盘阵列对外的服务。

 

IBM的建议方案

把磁盘阵列的数据做完全备份。

通过EM管理磁盘阵列,对问题diskfail 操作,这样错误的磁盘将从阵列中剔除。

这样,磁盘阵列的全局hotspare将对失败的disk进行顶替。300G的硬盘,预估顶替时间为100分钟。

 

最终的建议解决方案:

客户根据这个建议方案,准备在10点停机。

再对今天的所有增量数据做备份。平时增量备份耗时大概为2小时左右。这次估计耗时会更长。

 

故障解决建议

 

当在凌晨3点把所有的业务停止并备份之后,再查看存储状态。我们发现,存储的报警灯亮了。用SM登录之后查看,存储报”degraded channel” 错误。

我们收集了这个错误,发给IBM2线,IBM 查看之后得出结论,还是因为那块硬盘的错误,导致出现很多噪声。因为噪声的错误次数超过了阀值,导致阵列报degraded channel 错误.

IBM 仍然建议我们先把问题盘手工fail掉,让hotspare 盘把问题盘替换。

 

实际的解决过程

我们通过EM,手工把盘fail掉,(ENCLUSURE 0,DISK2),查看阵列状态,

发现hotspare已经在替换问题盘了。

等待70分钟左右,问题盘被hotspare替换。

阵列上 因手工fail 磁盘导致的 degraded lun 错误消失。最好的一点是,磁盘阵列的速度恢复到故障前的速度。

查看阵列信息,还是有错误信息:

1、磁盘的hotspare被使用了

2degraded path 错误。

 

我们再次抓取相关的信息,提交给IBM的二线分析。

IBM 二线分析后得出结论,上面的1,2号错误都是正常的。

因为阵列的hotspare被使用,导致错误1

因为path上的错误磁盘错误,导致错误2

只需要把这个磁盘错误修复。上面的错误即可修复。

 

 

 

后续问题

3192.168.128.101无法连接的问题。

4ESM模块数字没有显示的问题。

需要进一步跟踪并解决。

IBM二线支持建议我们先启动存储相关联服务器的应用。

并通过串口登录,用cmd命令行收集相关的存储的信息交由IBM分析,并通过进一步方案来解决。

 

 



你可能感兴趣的:(数据库,IBM,存储,AIX,disk,磁盘)