EMC存储raid5阵列瘫痪,数据恢复成功全过程,学会就是赚到

一、服务器数据恢复故障描述

服务器型号:EMCVNXe3100存储
硬盘数量:8块
Raid级别:raid5磁盘阵列
故障表现:2块硬盘离线,服务器崩溃,上层应用不可用
故障情况预判:典型的硬盘离线数量超过raid5的冗余数量导致的服务器数据丢失,可以通过数据恢复操作对原始数据进行恢复,预估数据恢复成功率为90%。

二、对服务器数据进行备份

数据恢复工程师首先将客户服务器内的所有硬盘通过镜像的方式进行备份,在备份过程中注意检查掉线硬盘是否存在物理故障,在本次数据恢复案例中,客户两块掉线硬盘均不存在物理故障,直接镜像即可。

三、服务器底层数据分析及数据恢复过程

镜像完成后,数据恢复工程师归还了客户原始硬盘,开始在镜像文件上分析底层数据,经过底层数据分析计算出服务器原始的硬盘盘序,raid条带大小、raid阵列信息等,通过数据恢复工具重组raid。
由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组重组出来。然后分析LUN在RAID组中的分配信息,以及LUN分配的数据块MAP。由于底层只有一个LUN,因此只需要分析一份LUN信息就OK了。然后根据这些信息使用raid恢复程序,解释LUN的数据MAP并导出LUN的所有数据。

四、解释ZFS文件系统并修复

数据恢复工程师对导出的lun进行了文件系统解释,在文件系统解释过程中出现报错,数据恢复工程师对报错内容进行分析,调试文件系统解释程序,经过分析与调试确认是由于存储中某些元文件损坏导致解释zfs文件系统程序报错。数据恢复工程师针对这些损坏的文件进行了手动修复,以确保zfs文件系统可以被正常解析。

五、服务器数据恢复成功

经过对zfs文件系统的修复和解析,验证最新数据,经过验证数据无误。联系客户管理员对恢复的数据进行验证,确认数据恢复成功,数据恢复率为100%。

你可能感兴趣的:(服务器,程序员)