1.1 目的
根据文档和经验,为了规范和更好的完成“更换DS4300控制器电池”的实施工作,为了实施前查缺补漏,实施中检查参考,实施后总结,编制了本方案,为本实施工作以及以后类似环境的实施人员提供参考。
注意:
1、             以后类似环境的实施请参考IBM官方文档,请参考实际情况客户化修改,因为实际情况、微码和管理软件等因素有可能发生变化,所以本方案不对以后类似环境的实施结果负责;
2、             本方案仅供相关人员审核、实施参考,请勿上传网络、随意拷贝,本方案更新版本不主动分发,如果需要上传、拷贝和更新版本请联系初始修订人[email protected]
3、             因内容较多,重点内容用绿色突出显示文本,请一定阅读并准备;
1.2 实施目标和范围
更换DS4300 B控制器电池;
2 准备工作
2.1 环境调查
2.1.1 微码收集
记录下面内容:
Collect the Storage Server system profile.
Go to View > Storage System Profile
Click on Controller Tab and Make note of NVSRAM and Firmware versions listed
Firmware version: ___06.60.17.00 ____________________
NVSRAM version: ____N1722F60R960V0AF ___________________
Click on the “ Drives” tab and find the product ID and Firmware version.
HDD Firmware ___JFQ8 ________
Click on the “ Enclosures” tab and find the ESM Firmware version for each EXP unit
(all EXP of the same model should have the same version)
ESM _____无 ________
确认:
1、Firmware version与NVSRAM version一致
2、HDD微码不能有JFQ3/JFQ4/S707,此项检查必须完成,为更换电池的前提条件之一;
问题说明网址:
http://www-304.ibm.com/jct01004c/systems/support/supportsite.wss/docdisplay?brandind=5000008&lndocid=MIGR-5072364
2.1.2 日志收集
为了分析实施前故障情况和记录实施前系统状态,收集日志
微码在 06.xx.xx.xx以上的DS4000的故障数据收集
在这个版本的微码之下, SM子系统界面的版本是09.xx.xx.xx。
1. 强制要求收集 All Support Data
菜单: Advanced-->Troubleshooting-->Collect All Support Data ...
2. 查看 Major Event Log                           
菜单: Advanced-->Troubleshooting-->View Event Log
3. 查看 Read Link Status Diagnostics Report(RLS report)
菜单: Advanced-->Troubleshooting-->Run Diagnostics-->Read Link Status
这个文档主要描述与更换电池相关的思路和方法,zip包内容和分析将放到以后文章中;
 
微码在 05.xx.xx.xx或以下的DS4000的故障数据收集
在这个版本的微码之下, SM子系统界面的版本是08.xx.xx.xx。因为没有提供例如“All support data”的一揽子故障数据收集方式,因此我们需要单独收集日志文件: Storage Subsystem Profile、Major Event Log 和Read Link Status Diagnostics Report(RLS report),以及通过SM图形界面收集的控制器串口日志
收集串口日志方法:
在微码05.XX版本下,SM客户端软件提供了一个通过图形界面收集基本的控制器串口命令的方法:
菜单: Advanced-->Capture State Information
默认格式是文本(*.dmp文件),必须将收集到的文本文件重命名成 *.ss.txt。
注意:装有 Storage Manager客户端管理软件的PC(工程师笔记本或者客户工作站)必须通过以太网 HubSwitch同时连接 DS4000的两个控制器
 
 
2.2 环境准备
2.2.1 SM管理软件
使用10.15,可以正常连入,06.60.17.00
 
2.2.2 集线器1台和网线三根
维护用笔记本或工作站需要同时连接盘阵A控制器和B控制器的管理口,所以如果盘阵A、B控现在没有连入内网, 请准备集线器或交换机1台,网线3根;
2.2.3 电池备件
记录FRU号和SN。
2.2.4 需要知道A、 B控的管理口IP地址;
提前询问客户并记录;
2.3 问题确认
确认是否有其他故障,如果有其他故障,应先处理或等待处理之;
2.3.1 故障现象
 
2.3.2 日志分析
对环境调查搜取的日志进行分析,结论如下:
 
2.3.3 状态灯情况
观察盘阵各项状态灯情况如下:
raid controller后面指示灯
LOOP:
 
观察cache灯情况以判断是否有cache使用
 
2.3.4 查看LUN现有访问路径
lun是否在各自的首选路径上,
owner属于B控的lun是否已经切换到A控
2.3.5 多路径软件情况
AIX主机平台,接IBM存储,使用了RDAC多路径软件,如果你的环境没有多路径路径(则logical drives不能在使用)或者使用了其他多路径软件则应该做出一些改变以使新路径可以被顺利访问,否则会造成中断;
2.3.6 总体结论
根据日志和状态灯情况分析除B控电池故障外,不存在其他故障,不存在微码隐患,盘阵内LOOP冗余,AIX主机平台使用RDAC多路径软件,可以进行更换B控电池的实施工作;
2.3.7 请客户申请停止DS4300上涉及业务系统时间和维护窗口
为保证顺利完成实施工作,不造成其他情况对业务的影响, 请申请停止DS4300上涉及业务系统时间和维护窗口,原因在3.1小节中提及。