磁盘阵列两块硬盘离线数据恢复案例一:

客户的一台服务器因为未知的原因导致一块硬盘红灯闪亮,不过服务器还在正常运行,管理员未做处理,随后该服务器内的另一块硬盘出现同样的报警提示,服务器崩溃。数据恢复工程师对该磁盘阵列数据恢复过程如下(下列操作有风险,请备份后再操作):
1.将服务器启动,服务器自检时手动进入管理程序查看raid磁盘阵列情况,发现硬盘的状态为Failel,手动将其中一块离线硬盘重新设置为online状态后尝试重启服务器但重启失败。
2.将该硬盘重新Fail掉,重复上次的操作步骤将另一块硬盘上线,启动服务器,服务器启动成功。
3.检查系统和服务器内的数据库数据运行是否正常,然后用阵列配置工具把Failed后的盘手动rebuild,待rebuild完成后服务器及raid磁盘阵列系统就恢复原状了。

磁盘阵列两块硬盘离线数据恢复案例二:

本案例中需要进行数据恢复的服务器为某品牌的 2850型号。服务器内有一组6块硬盘的raid5磁盘阵列,阵列内的硬盘为SCSI硬盘,单盘容量为300G,服务器操作系统为linux Redhat4;文件系统为ext3文件系统。服务器在正常使用过程中由于未知原因有两块硬盘离线,管理员使用了案例一中提到的方法对其中一块硬盘进行强制上线操作。但经过尝试发现服务器的操作系统启动异常,无法通过强制上线方式恢复数据,于是联系到北亚数据恢复中心进行专业服务器数据恢复操作。
数据恢复工程师对客户服务器进行扇区级别的完整备份,在备份过程中发现该服务器内的一块并未离线的硬盘居然存在大量坏道,可能由于服务器尚未读到硬盘的坏道部分,因此尚未离线。
备份工作完成后对raid阵列结构分析并重组raid环境验证raid结构,通过人工的方式对被破坏的结构进行修正并存档。最后将修正和存档的数据嵌入一台正常的服务器阵列上即可进行数据验证。
在服务器数据恢复工作中我们遇到了大量的raid5磁盘阵列两块硬盘同时离线的故障。其实raid5阵列是支持一块硬盘离线时的冗余保护的,一组raid5阵列在一块硬盘离线时是不会导致服务器瘫痪的,但如果是两块甚至多块硬盘处于离线状态时服务器便处于瘫痪状态并且无法自动上线。由于raid控制器具有一定的敏感性,多数硬盘掉线仅仅是因为电源波动、控制器bug等随机原因导致,所以掉线盘可能没有严重的物理故障。本案例就是如此。但是此时管理员进行强制上线操作风险性是很大的,一旦上线错误就会导致控制器对数据产生一些不可逆的损坏,当管理员进入操作系统后因为文件系统不一致进行修复,服务器中所有硬盘数据不一致,数据恢复难度非常大。