1、 问题发现及分析
数据库服务器告警黄灯亮,检查日志发现时raid卡电池告警导致
2、 问题分析诊断
输入命令:# sisraidmgr -M o0 -l'sisioa0'
或输入命令:# smitty pxdam 后选择操作
或按如下操作:#smit ->Devices -Disk Array ->IBM PCI-X SCSI Disk Array->PCI-X SCSI Disk Array Manager Select -> Diagnostics and Recovery Options -> Select Controller Rechargeable Battery Maintenance. -> Select Display Controller Rechargeable Battery Information.
显示电池信息如下:
IBM520小型机RAID卡电池更换_第1张图片

电池信息各参数含义如下:
battery state:显示电池当前具体状态,有以下几个可能的值
No battery warning/error:No warning or error condition currently exist 这种是电池的正常状态
Warning condition:A warning condition currently exists and an error has been logged 出现了一个警告并被记录在日志中
Error condition:An error condition currently exists and an error has been logged 电池已经出错
Unknow:Information is not available to determine whether a warning or error condition currently exists 无法判断
Power-on time(days):电池持续使用的天数
Adjusted power-on time(time):
Indicates the adjusted (prorated) power-on time, in units of days ,of the rechargeable Cache Battery Pack
Note:Some rechargeable Cache Battery Packs are negatively affected by higher temperatures and thus are prorated based on the amount of time that they spend at various ambient temperatures
Estimated(估算的) time to warning(days):
Estimated time, in units of days, until a message is issued indicating that the replacement fo the rechargeable Cache Bettery Pack should be scheduled
Estimated time to error(days):当值为0时,此时Cache被自动禁用,必须更换电池
Estimated time , in units of days ,until an error is reported indicating that the rechargeable Cache Bettery Pack must be replaced
Concurrently maintainable battery pack:该电池是否可以在线更换
Indicates that the rechargeable Cache Battery Pack can by replaced while the adapter continues to operate
Battery pack can be safely replaced:当值为YES时,该电池可以安全地更换,不会造成Cache数据丢失
Indicates that the adapter's write cache has been disabled and the rechargeable Cache Battery Pack can be safely replaced
根据信息显示:距离ERROR还有26天时间,电池安全取代更换状态为NO,需要强行控制电池错误才可以更换;如果电池包安全取代状态为YES,则可以直接更换。
3、 具体处理步骤如下:
1) 操作前先检查P52A系统状态,查看是否有其他报错信息;
2) 跟客户协调更换控制器电池时间并且在约定时间停止业务;
3) 检查电池信息是否没电了;
4) 请用户停止业务服务,不要关机;
5) 检查电池状态是否可以安全更换;
输入命令:# sisraidmgr -M o0 -l'sisioa0'
或输入命令:# smitty pxdam 后选择操作
或按如下操作:#smit ->Devices -Disk Array -> IBM PCI-X SCSI Disk Array->PCI-X SCSI Disk Array Manager Select -> Diagnostics and Recovery Options -> Select Controller Rechargeable Battery Maintenance. -> Select Display Controller Rechargeable Battery Information.
IBM520小型机RAID卡电池更换_第2张图片
IBM520小型机RAID卡电池更换_第3张图片

当Battery pack can be safely replaced . . : YES显示安全状态为YES,则可以直接关机更换RAID卡电池;如果显示为NO,需要强行控制电池错误后关机更换RAID卡电池。
6) 强行控制电池错误执行如下命令:
Smitty—> devices->Disk Array->IBM PCI-X SCSI Disk Array-> PCI -X SCSI Disk Array Manager->DiagnosticsandRecovery Options->Controller Rechargeable Battery Maintenance->Force Controller Rechargeable Battery Error;
或输入命令:# smitty pxdam 后选择操作
为了安全操作,再次查询RAID卡电池状态;
7) 系统关机;
8) 更换控制器RAID卡电池;
注意:必须将旧电池拆下来至少15秒后,再安装新电池,否则PCI-X SCSI RAID卡将不能正常识别电池已更换。
9) 更换完成后检查无问题后开机;
10) 系统启动后复查报错信息是否已经解决
IBM520小型机RAID卡电池更换_第4张图片

电池天数1087天,电池更换成功。
11) 重新激活写cache
输入命令# smitty pxdam
IBM520小型机RAID卡电池更换_第5张图片

12) 消除IBM小型机告警信息
操作步骤如下:# diag -> Task Selection (Diagnostics, Advanced Diagnostics, Service Aids, etc.) -> Log Repair Action -> sys0 System Object 回车确认此时,sys0前面出现了一个“+”符号,表示已选中该项
按F7(或ESC+7)提交确认
ESC+0退出
告警清除!
13) 确认无问题后开启业务;
14) 维修结束
可以参考:https://blog.51cto.com/eric1026/1883319
4、 风险及应急:
更换控制器电池需要停止业务,系统启动停止操作,在维修处理前一定要确认无其他报错信息不影响系统重新启动后方可操作
5、维护建议:
1) 对系统应定时检查,出现故障时及时联系维护人员,尽快解决故障,保证业务正常运行。
2) 当硬盘发生故障时,不要盲目更换配件,否则极易造成系统损坏,整个系统的瘫痪,因此要谨慎操作。
3) 当硬盘或背板故障时,不要盲目更换,应逐一排查,防止数据丢失。
5、 容易出现的问题
1、 更换电池后开机启动时,系统找不到镜像
问题分析:关机拔下raid卡,开机启动系统可以找到镜像,说明raid卡接触不良
解决办法:给raid卡除尘