服务器数据恢复故障描述:

这次要为大家介绍的数据恢复案例是一台存储因硬盘出现故障导致的数据丢失。这台存储设备为某常见品牌的DS5300型号存储,存储连接扩展柜。存储的最底层是十几块硬盘组成的几组raid5磁盘阵列。管理员有一天发现了存储的多组raid阵列中的一组阵列崩溃了,崩溃原因未知。

数据恢复硬件检测:

经数据恢复工程师对该组因为故障崩溃的磁盘阵列内的所有磁盘进行镜像并检测,发现阵列中有2块硬盘存在大量不规则坏道,只好使用数据恢复工具对存在坏道的硬盘进行恢复和生成镜像。

存储数据恢复过程:

数据恢复工程师需要收集这台存储的日志信息,从存储的日志信息中分析出这两块存在坏道的硬盘的掉线时间,从掉线较晚的那块硬盘中提取阵列的最新数据。
通常在这种情况下可以进行强制上线操作的尝试,不过在强制上线前不需要对数据做好备份,以防止万一强制上线失败后进行重组raid数据恢复。
工程师对存储进行了强制上前操作,强制上线成功但是raid阵列现在处于降级的状态,数据恢复工程师设置了一块热备盘并启用热备盘,阵列开始进行数据同步操作。待raid阵列数据同步操作成功后检查所有数据均可见,上层应用正常。

存储阵列维护小贴士:

在存储的运维中,要尽量保持机房的供电稳定,避免电源异常冲击存储及主机。对于服役年度比较长久的存储或服务器设备需要安排定期检查运行状况,及时评估硬件状态,必要时进行硬件升级。制定突发故障的应急处理预案,避免临时出现故障后为企业带来业务损失。
存储崩溃强制上线是否完全不可行?_第1张图片