管理员于2010年6月20日下午接到报告,反映生产系统的应用速度突然变慢。
系统管理员做了如下的测试:
在与生产系统存储DS4800相连的windows主机进行测试:
1>从存储到本地盘进行文件拷贝操作,传输速度只有3-4Mb/s。远远低于平时存储到本地的传输速度(50-60Mb/s).
在与DS4800相连的生产系统(AIX主机)进行测试:
2>在ORACLE RAC数据库做日志切换操作,”alter system switch logfile”,
一个切换需要3-4分钟,远远高于平时切换耗时(<1分钟)。
3>在AIX上用”sar 1 10”查看存储的性能,发现iowait在40-60之间,远远大于平时iowait的数值(1-3)。
检查存储的情况:
4>查看存储DS4800的故障灯,并没有变黄。
因此管理员请求我们公司的协助。
故障存储是**的核心存储之一,存储上挂载了多套核心应用,对应了1套AIX的RAC数据库,多套linux的RAC数据库。
我们到达现场之后,确认了管理员的诊断信息,并继续做了下面的一系列测试:
用EM登录存储,查看四个管理端口的状态,四个端口都是默认地址
192.168.128.101/102 192.168.129.101/102,但是查看端口的地址,
5>四个管理的端口的状态都是Failed ,但是我们是带外方式进行连入的。
(如果四个端口真都failed掉,我们怎么能连得上去?
6>从管理主机 ping DS4800的两个管理端口,192.168.128.101 和 192.168.128.102
发现192.168.128.101无法ping通。(端口挂掉了?)
7)查看DS4800的扩展柜情况,发现有一个扩展柜(exp810)后端的ESM显示器没有显示。(正常情况下应有显示数字的,难道是扩展柜有问题吗?)
8)在EM上收集DS4800的日志,一点收集选项,整个界面就HANG住了。
因为目前存储的情况只是变慢了而不是不可用,最恼人的是用EM管理登陆没有发现错误警告信息,而收集日志信息的时候又HANG在那里了。
最初我们怀疑是盘阵CACHE MIRROR被打开而影响了存储的速度,但因为cache mirror在很早之前就是打开的,而最近才出现这个存储速度变缓的问题。换句话说,如果要变缓早变缓了,看来我们还要从别的地方找原因。
这种情况下,我们考虑IBM的原厂支持。
根据管理员于下午出问题点收集的日志情况,我们把发送给IBM的2线支持进行分析。
同时我们建议客户对生产数据库进行备份,以便后续对存储做一些可能损坏数据的操作。
客户否决了我们的建议,因为存储的速度已经很慢了,这个时候备份生产系统,会影响对外提供服务,所以只有等过了高峰期再做备份操作了。
(因为之前客户都做了全备份,所以相对来说,增量备份的压力要远远小于全备的压力)
交由IBM 支持分析之后,得到一个初步结论:
A控制器(192.168.128.101)下辖的一块硬盘有问题,所以从日志中出现了disk drive time out错误,这块硬盘的错误导致整个通信发生噪声.
影响了磁盘阵列对外的服务。
IBM的建议方案
把磁盘阵列的数据做完全备份。
通过EM管理磁盘阵列,对问题disk做fail 操作,这样错误的磁盘将从阵列中剔除。
这样,磁盘阵列的全局hotspare将对失败的disk进行顶替。300G的硬盘,预估顶替时间为100分钟。
最终的建议解决方案:
客户根据这个建议方案,准备在10点停机。
再对今天的所有增量数据做备份。平时增量备份耗时大概为2小时左右。这次估计耗时会更长。
当在凌晨3点把所有的业务停止并备份之后,再查看存储状态。我们发现,存储的报警灯亮了。用SM登录之后查看,存储报”degraded channel” 错误。
我们收集了这个错误,发给IBM的2线,IBM 查看之后得出结论,还是因为那块硬盘的错误,导致出现很多噪声。因为噪声的错误次数超过了阀值,导致阵列报degraded channel 错误.
IBM 仍然建议我们先把问题盘手工fail掉,让hotspare 盘把问题盘替换。
我们通过EM,手工把盘fail掉,(ENCLUSURE 0,DISK2),查看阵列状态,
发现hotspare已经在替换问题盘了。
等待70分钟左右,问题盘被hotspare替换。
阵列上 因手工fail 磁盘导致的 degraded lun 错误消失。最好的一点是,磁盘阵列的速度恢复到故障前的速度。
查看阵列信息,还是有错误信息:
1、磁盘的hotspare被使用了
2、degraded path 错误。
我们再次抓取相关的信息,提交给IBM的二线分析。
IBM 二线分析后得出结论,上面的1,2号错误都是正常的。
因为阵列的hotspare被使用,导致错误1。
因为path上的错误磁盘错误,导致错误2。
只需要把这个磁盘错误修复。上面的错误即可修复。
3、192.168.128.101无法连接的问题。
4、ESM模块数字没有显示的问题。
需要进一步跟踪并解决。
IBM二线支持建议我们先启动存储相关联服务器的应用。
并通过串口登录,用cmd命令行收集相关的存储的信息交由IBM分析,并通过进一步方案来解决。