一次RAID阵列修复的笔记(1)

2月1日,接到一个客户的NAS设备保修,客户的设备配置如下:

设备配置:

机箱:国鑫36盘位,前24盘背板,后12盘背板,8643接口,expand

RAID卡:lsi9361-8i一片

硬盘:8T日立企业SATA盘24+7

阵列:前面24盘做raid5+热备,后7盘做raid5

NAS软件:飞鱼星

整个体过程按照时间来进行记录。

2月1日

上午用户发现24盘的盘阵不能使用,登录NAS后台看到有两块硬盘异常,显示为错误,热备盘没有正常生效。

用户发现阵列失效后,对提示错误的两块硬盘中的其中一块,在开机状态下进行了拔出并插入的操作,结果这块硬盘的状态从错误变成了外部。之后便在项目群里报修。

飞鱼星工程师根据日志分析得出如下结论:

1、阵列因为连续两个盘有问题导致失效了,而两个盘出故障的间隔太短,导致全局热备盘来不及起作用。

2、又因为对其中一个盘进行了热插拔,导致一块硬盘变成外部状态。

工程师认为:“要恢复阵列不太好恢复了, 只能尝试把两个有问题的盘数据备份一下,然后用备份的磁盘插入,看看能否导入阵列。”

下午给客户闪送两块8T硬盘,客户拿到硬盘对其中一块盘开始做拷贝操作,在飞鱼星工程师见一下使用ghost软件,结果用户操作失误,导致拷盘失败,数据丢失。

2月2日

安排赵宇和晓东去现场支持,在现场用烤盘机选择扇区复制的模式复制硬盘,复制的速度是220MB/S左右,12GB/Min,720GB/H,全盘容量7.3TB,共10.38小时。

出于已经有一块硬盘数据丢失,RAID5就已经不允许再有坏盘,飞鱼星工程师建议把所有数据盘进行一次扇区级备份。做一次备份除去操作做失误丢掉数据的硬盘,需要23块8T的企业级SATA硬盘进行扇区备份。当天确定库存硬盘数量,决定将24块硬盘带回公司进行备份,所有后续操作等将原数据盘备份成功后进行。

当晚制定的方案为:

1、对所有23块数据盘进行扇区级备份

2、使用备份好的新硬盘+原RAID卡进行上线试验

3、使用21块正常的数据硬盘+1块提示错误但已经拷贝为新盘的数据盘(排除硬盘故障的可能)进行强制上线

4、不装热备盘,以免自动加入阵列

5、不装新盘做Rebuild,避免Rebuild过程中出现问题导致风险增加

6、强制上线后如果可以看到阵列,但阵列处于危级,启用NAS系统拷贝关键数据

7、加入新硬盘,进行Rebuild,成功后对原始硬盘进行相同操作

8、若不能成功,考虑委托第三方进行数据恢复


2月3日

选择磁盘备份工具

先测试了ghost,发现ghost中的to Disk不能做扇区级的备份,备份出来的磁盘带有文件系统,to Image因为image需要作为ghost文件存放,需要文件系统,所以目标磁盘不可选。后又对WinHex进行测试,顺利的完成了对拷。

测试对拷后的磁盘是否可是进行计划中的操作,用3块240G SSD +LSI 9361-8I进行方案测试,过程如下:

1、 将3块SSD做RAID5,将RAID阵列挂在Window10下面,拷入多个视频文件

2、 对3块SSD分别用WinHex进行扇区级备份

3、 将备份的3块SSD接入RAID卡中,RAID5自动识别,阵列正常

4、 将阵列挂在win10下面,之前拷入的所有视频文件都可以正常播放

5、 将阵列中的1块硬盘剔除,访问降级后的阵列,视频可以正常播放

结论:通过WinHex拷贝的硬盘同原盘数据完全相同,可以依照计划替换硬盘进行试验。

在准备烤盘的时候面临一个问题,在一个软件进程中只能对拷一块硬盘,这样就需要搭建23个服务器平台进行硬盘拷贝,工程浩大。最后发现WinHex可以同时打开多个进程,同时对多块硬盘进行拷贝,这样使用10个SATA接口的主板可以拷贝4套硬盘,一共搭6套平台就可完成拷贝。

硬盘拷贝速度大约是12-13GB/min,230MB/s,828GB/h,全盘拷贝需要10-11小时。当天晚上搭好平台开始拷盘。搭建平台的过程中发现电源的15Pin硬盘供电口只有6个,实际需要9个,手里没有大4pin转15pin的线,所以只能自己动手丰衣足食,找到了合适的头,给每台电源焊了三个15PIN的供电口。

终于跑起来了,可是在拷盘过程中,因为打开了几个进程想查看情况,结果有3个进程突然自动关闭,猜测是因为同时打开多个进程,而且拷贝过程中磁盘读写比较敏感,所以在查看拷贝状态时就导致进程意外结束。

将几个进程重新启动后已经是晚上十一点多,其他的就没啥可做的了,只能祈祷第二天早上能有佳音。


你可能感兴趣的:(一次RAID阵列修复的笔记(1))