华为S2600 存储BBU等并发故障分析


故障详情:

  1. 硬盘故障。
    05 槽位, 即第六块盘, 故障, 热背盘自动启用, 硬盘完成重构。
    12 块 2TB 硬盘, 11 槽位为热备盘, 已启用, 11 盘 raid5, 一个 lun。
  2. BBU 故障。
    A 控制器(左侧) BBU 故障, 策略修改为透写, 导致性能急剧下降。
  3. BBU 电量不足。
    A,B 控制器均告警电量不足。 电量不足, 会导致在设备在意外断电时造成数据无法完全
    下盘, 导致数据损坏或丢失。
    风险预判:
    一、 硬盘配置方面,目前已无热备盘可用,如再有硬盘故障,将导致无法进行硬盘重构,
    损坏数据将通过校验获得, 将导致硬盘整体负荷增加, 增加其他硬盘故障风险, CPU、
    缓存性能下降。 导致业务前端性能体验下降。
    二、 BBU 故障, 导致数据直接下盘, 应能体验极差, 因数据未经队列优化, 极大增加硬
    盘负荷, 容易导致硬盘大面积故障, 因未详细查看日志, 尚不明确当前故障盘与 BBU 故
    障之间的关系。
    三、 BBU 电量不足, 会导致在设备在意外断电时造成数据无法完全下盘, 导致数据损坏
    或丢失。
    目前处理方式:
  4. 更改 lun 归属。 业务模型没有变化, B 控仍有故障风险。
  5. 修改写策略为回写, 进行观察, 如自动改为透写, 则将策略改为强制回写, 进一步
    观察。
  6. 查看日志, 确定故障关联因素。
    建议后期处理方式:
  7. 尽快更换故障硬盘, 防止继续坏盘。
  8. 该型号设备, 15 年官方已停止提供备件, 17 年底将 EOS, 即停止服务。 官方将不在
    提供设备的任何技术支持。 且设备本身已多出迸发故障, 建议尽早完成数据迁移。
    该设备后续可承载非关键、 业务强度较低的业务。
    2017 年 9 月 28 日

转载于:https://blog.51cto.com/xiangrui/2057405

你可能感兴趣的:(华为S2600 存储BBU等并发故障分析)