【服务器数据恢复】磁盘坏道导致RAID5崩溃服务器不可用的数据恢复案例

服务器数据恢复环境:
某单位一台某品牌DS系列服务器连接4个扩展柜;
50块磁盘组建两组RAID5,其中一组由27块磁盘组建的RAID5存放的是Oracle数据库文件;
上层一共划分11个卷。

服务器故障:
磁盘故障导致存放Oracle数据库文件的RAID5崩溃,服务器不可用。

服务器数据恢复过程:
硬件工程师先对故障服务器的27块磁盘进行硬件故障检测,发现其中的2块磁盘存在坏道,SMART错误冗余级别已经超过阈值。对另外的25块无硬件故障的磁盘做全盘镜像,对2块有坏道的磁盘进行恢复并生成镜像文件。
收集故障服务器的日志信息并进行分析,查明两块存在坏道的磁盘掉线先后顺序,用后掉线的磁盘进行数据恢复。
经过北亚数据恢复工程师团队会诊最终敲定两套数据恢复方案:
方案一:把故障服务器所有硬盘都备份后通过该品牌自带存储管理软件强制上线。
方案二:通过分析硬盘底层获取raid相关信息,利用获取到的信息重组RAID,提取数据并重新加载oracle数据库,调试上层应用。
执行第一套方案,先在模拟器上测试,测试完成后通过该品牌自带的存储管理软件进行强制上线。强制上线后发现raid处于降级状态,这时设置好热备盘上线并开始同步数据,同步完之后发现上层的卷已经可以直接使用,所有数据可见,上层应用可正常使用。
虽然上层的卷可以使用,数据也都可见,但是出于安全考虑,北亚数据恢复工程师将卷里的文件都拷贝出来移交给用户,经过用户反复测试后确认恢复数据完整可用。

Tips:
1、服务器发生故障后,切忌对服务器进行操作;也不要随意取出硬盘,以免弄乱盘序。
2、如果需要取出硬盘,标记好硬盘的顺序之后再取出。
3、服务器阵列瘫痪后应该立即断电,不要做同步或强制上线操作,防止数据进一步破坏。

你可能感兴趣的:(数据恢复)