某医院-IBM DS5020-宕机故障处理案例

背景说明:

某医院PACS 系统 DS5020存储报错 ,服务器的LUN连接不上。控制器拨除灯是蓝色的,代码0E,L6 

控制器能够PING通,能够TELNET进入命令行,使用DS manager连接控制器提示设备暂不可用(这里可以初步判断控制器硬件应该是好的)。

查看 0E L6的代码解释,0E 指进入了锁定模式,L6 是指不受支持的主机卡(unsupport host card).

(注意:以下面排障操作中,一定要避免损坏数据,要拨出光纤线和硬盘。)


诊断步骤:

首先主柜断电重启,停在0S 5D代码上。 一会后,又回复到初始情况: 

(控制器拨除灯是蓝色的,代码0E,L6;使用DS manager连接控制器提示设备暂不可用。)


1、测试控制器是否异常

做好标记并拨除所有光纤线,拨离硬盘,硬盘一定要做好标记。关机然后每个控制器单独尝试是否能够正常开机。(故障结果一致)


2、记录控制器微码版本信息;

telnet下无法执行命令,用串口连接(boud rate:115200),重启控制器,会显示相关信息。

==============================================

Title:     Disk Array Controller

           Copyright 2008-2013 NetApp, Inc. All Rights Reserved.


Name:      RC

Version:   07.84.46.00

Date:      03/26/2013

Time:      12:15:07 CDT

Models:    4980 4981 4985 4988

Manager:   devmgr.v1084api04.Manager



3、更换控制器,提示同样的问题(控制器拨除灯是蓝色的,代码0E,L6),接串口线执行sysWipe命令提示如下;

02/26/16-01:42:58 (utlTimer): WARN:  Extended Link Down Timeout on channel 1

02/26/16-01:43:57 (tRAID): NOTE:  WWN baseName 000a0080-e52c78c6 (valid==>SoftRst)

02/26/16-01:43:57 (tRAID): NOTE:  spmEarlyData: No data available

02/26/16-01:43:58 (tRAID): SOD: Pre-Initialization Phase Complete

02/26/16-01:44:02 (tRAID): WARN:  dbm::RWFileSystem::initialize: Exception caught, ConstructorIOException: -16, dqId = 0

02/26/16-01:44:02 (tRAID): ERROR: In PersistenceManager::initialize: catch DbmNoFileSystemException: recType: 84

02/26/16-01:44:02 (tRAID): ERROR: ADM Load Reservations failed with error (5) Exception

02/26/16-01:44:02 (tRAID): NOTE:  ACS: Icon ping to alternate failed: -2, resp: 0

02/26/16-01:44:02 (tRAID): NOTE:  ACS: autoCodeSync(): Process start. Comm Mode: 0, Status: 0

02/26/16-01:44:02 (tRAID): WARN:  ACS: autoCodeSync(): Skipped since alt not communicating.

02/26/16-01:44:02 (tRAID): WARN:  Controller entering CtlUnsupp lockdown state. (这里还是提示进入了控制器不支持的锁定模式)


4、根据上述信息判断极有可能是存储的背板坏了,申请背板到场处理。

5、更换背板后机器能够正常开启,关机,插回硬盘及扩展柜接线,先开扩展柜的电然后再开控制柜的电,检测阵列状态如下:(提示阵列的硬盘丢失),这里先收集一份存储日志All support data(很关键!)

更换背板很简单,把框子前面的上下8个螺丝拧下,前面4个拧下,向前一提就出来了。


6、打开DS manager的诊断工具(就是点击 Need Attention),提示要拨除硬盘要删除对应的array信息


7、接下来的操作存在风险(虽然个人认为很小),需要和客户沟通好,客户同意后方可进行操作。

(1)把硬盘拨除,

(2)删除受影响的阵列信息,提示相关的LUN 映射关系会消除,之前收集存储日志的重要性在这就体现出来了。

(3)逐个重新插入硬盘

(4)在阵列界面导入存储

(5)对照之前的存储日志host mapping 映射关系,重新映射LUN。

8、与客户确认后,接回主机端口光纤线,主机端扫描磁盘,至此故障解决。


总结 :1、两个控制器同时物理损坏的可能性较小,申请备件是要注意;2、一定要做好线缆与硬盘的标记,收集好日志。3、尽量对设备进行擦除操作。


你可能感兴趣的:(案例,宕机,DS5020)