服务器数据恢复故障描述

服 务 器 型 号:HP P2000
服务器操作系统:VMWARE ESX
服务器文件系统:VMFS
磁盘阵 列 级 别:RAID-5
需要进行数据恢复的服务器挂载了8块硬盘组成RAID-5磁盘阵列,其中4号盘是热备盘,服务器在正常运行中两块硬盘亮×××故障灯,经用户方维护人员检测,故障硬盘应为物理故障,表现为:序列号无法读取,在SAS扩展卡上硬盘无法识别。需要对raid磁盘阵列进行数据恢复
**

硬盘物理故障修复

由于服务器故障情况严重,需要首先确定该组raid阵列的磁盘掉线原因,工程师在接到用户服务器后优先处理raid阵列中的两块掉线盘,将坏盘连接到外部的SAS扩展卡上加电检测,磁头不寻道,工程师将PCB分离、检查硬盘HDA组件发现有部分氧化,进行清洁操作后再次加电检查依然无法寻道。于是工程师进行十分复杂的修盘工作(无尘室禁止拍照修盘过程无图)
由于热备盘是正常硬盘,可以作为备件盘使用。于是硬件工程师将备件盘(也就是raid阵列中的4号盘)开盘拆取PCB安装到故障盘上替换故障盘的PCB进行修复,再将故障盘PCB上的ROM芯片拆取替换到新PCB上。硬盘硬件修复完成后再次对故障硬盘进行检测可以正常起转,磁头寻道声音正常,但是敲盘声音明显。由于4号盘的磁头与故障盘并不匹配,在另找配件后进行更换磁头操作,硬盘可以正常识别,故障盘数据镜像成功。
**

重组RAID-5磁盘阵列

使用数据恢复工具打开7块磁盘发现所有硬盘的的0扇区都有“55 AA”标志,0x01C2H处表示该分区的类型,这里显示“05”,代表这是一个扩展分区。因此从0扇区看这是一个不正常的MBR分区结构。
按照这一方法继续查找,分别在7号盘和8号盘找到了“55 AA”的标志。8号盘查询结果如下。这是一个正常的MBR分区,其0x01C6处数值代表指向的下一个扇区为GPT的头部。
图1硬盘物理故障开盘+RAID-5阵列瘫痪恢复数据过程_第1张图片

7号盘查询结果如下。其0x01C6处数值代表指向下一个扇区。但是下一个扇区很明显不是GPT的头部。
图2硬盘物理故障开盘+RAID-5阵列瘫痪恢复数据过程_第2张图片

由此可以确定8号盘是第一块盘,7号盘可能是最后一块盘。GPT分区所在扇区起始于172032扇区,因此初步确定LUN的起始扇区是172032扇区。
知识补课:条带也就是raid阵列块,它是RAID处理数据的基本单元。不同的RAID阵列的条带大小也各不相同。RAID-5的1个条带组中有1个校验区,根据这个规律可以对该raid-5阵列进行分析,也可以通过比较法确定条带大小。如某一条带组中的校验区跟这一条带组中的非校验区可能相差的很明显,通过WinHex查看并做对比,就可以找到条带大小。工程师对该服务器raid阵列分析得出条带大小为1024个扇区。
按照1024扇区分割,使一个记录为一个条带的大小,如图5所示。并且7块盘跳到同一记录283123。
图3硬盘物理故障开盘+RAID-5阵列瘫痪恢复数据过程_第3张图片

当7块盘都定位到同一位置时,通过对比可以判断校验区的走向,继而判断整个RAID-5的走向。之前已经判断出8号盘是第一块盘了,把8号盘放在第一个位置,确定RAID-5为左走向,盘序为8,2,3,4,1,7,5。
图4硬盘物理故障开盘+RAID-5阵列瘫痪恢复数据过程_第4张图片

工程师初步确定了LUN的起始扇区是172032扇区。使用数据恢复工具跳到172032扇区对硬盘的使用情况进行观察,正常情况下这个扇区所属条带中的5号盘应该是校验区,但实际情况中却显示校验区为8号盘,根据该raid左走向的规律,5号盘的校验区应该在172032-1024=171008扇区,即上一个条带。跳转到171008扇区,发现校验区为5号盘。因此可以确定LUN的起始扇区为171008扇区。
使用数据恢复工具按照确定的盘序重组raid添加进去,如图所示。选择RAID-5,Stripe size 512KB,左异步。
图5硬盘物理故障开盘+RAID-5阵列瘫痪恢复数据过程_第5张图片

点击Build进行重组。组好后,由于数据从1024*8=8192个扇区开始,若专业恢复工具没有跳转到此扇区的功能,那么刚组好的RAID必须和一个文件再进行一次Build重组操作。RAID的起始扇区(Start sectors)选择8192,这个文件可以任意选择起始扇区和大小大小(Count sectors),下图为重组后的raid5磁盘阵列。
图6硬盘物理故障开盘+RAID-5阵列瘫痪恢复数据过程_第6张图片
**

服务器数据恢复结果

RAID-5磁盘阵列重建完成经由客户验证,验证通过,服务器数据恢复成功。