一次RAID阵列修复的笔记（1）

2月1日，接到一个客户的NAS设备保修，客户的设备配置如下：

设备配置：

机箱：国鑫36盘位，前24盘背板，后12盘背板，8643接口，expand

RAID卡：lsi9361-8i一片

硬盘：8T日立企业SATA盘24+7

阵列：前面24盘做raid5＋热备，后7盘做raid5

NAS软件：飞鱼星

整个体过程按照时间来进行记录。

2月1日

上午用户发现24盘的盘阵不能使用，登录NAS后台看到有两块硬盘异常，显示为错误，热备盘没有正常生效。

用户发现阵列失效后，对提示错误的两块硬盘中的其中一块，在开机状态下进行了拔出并插入的操作，结果这块硬盘的状态从错误变成了外部。之后便在项目群里报修。

飞鱼星工程师根据日志分析得出如下结论：

1、阵列因为连续两个盘有问题导致失效了，而两个盘出故障的间隔太短，导致全局热备盘来不及起作用。

2、又因为对其中一个盘进行了热插拔，导致一块硬盘变成外部状态。

工程师认为：“要恢复阵列不太好恢复了，只能尝试把两个有问题的盘数据备份一下，然后用备份的磁盘插入，看看能否导入阵列。”

下午给客户闪送两块8T硬盘，客户拿到硬盘对其中一块盘开始做拷贝操作，在飞鱼星工程师见一下使用ghost软件，结果用户操作失误，导致拷盘失败，数据丢失。

2月2日

安排赵宇和晓东去现场支持，在现场用烤盘机选择扇区复制的模式复制硬盘，复制的速度是220MB/S左右，12GB/Min，720GB/H，全盘容量7.3TB，共10.38小时。

出于已经有一块硬盘数据丢失，RAID5就已经不允许再有坏盘，飞鱼星工程师建议把所有数据盘进行一次扇区级备份。做一次备份除去操作做失误丢掉数据的硬盘，需要23块8T的企业级SATA硬盘进行扇区备份。当天确定库存硬盘数量，决定将24块硬盘带回公司进行备份，所有后续操作等将原数据盘备份成功后进行。

当晚制定的方案为：

1、对所有23块数据盘进行扇区级备份

2、使用备份好的新硬盘+原RAID卡进行上线试验

3、使用21块正常的数据硬盘+1块提示错误但已经拷贝为新盘的数据盘（排除硬盘故障的可能）进行强制上线

4、不装热备盘，以免自动加入阵列

5、不装新盘做Rebuild，避免Rebuild过程中出现问题导致风险增加

6、强制上线后如果可以看到阵列，但阵列处于危级，启用NAS系统拷贝关键数据

7、加入新硬盘，进行Rebuild，成功后对原始硬盘进行相同操作

8、若不能成功，考虑委托第三方进行数据恢复

2月3日

选择磁盘备份工具

先测试了ghost，发现ghost中的to Disk不能做扇区级的备份，备份出来的磁盘带有文件系统，to Image因为image需要作为ghost文件存放，需要文件系统，所以目标磁盘不可选。后又对WinHex进行测试，顺利的完成了对拷。

测试对拷后的磁盘是否可是进行计划中的操作，用3块240G SSD +LSI 9361-8I进行方案测试，过程如下：

1、将3块SSD做RAID5，将RAID阵列挂在Window10下面，拷入多个视频文件

2、对3块SSD分别用WinHex进行扇区级备份

3、将备份的3块SSD接入RAID卡中，RAID5自动识别，阵列正常

4、将阵列挂在win10下面，之前拷入的所有视频文件都可以正常播放

5、将阵列中的1块硬盘剔除，访问降级后的阵列，视频可以正常播放

结论：通过WinHex拷贝的硬盘同原盘数据完全相同，可以依照计划替换硬盘进行试验。

在准备烤盘的时候面临一个问题，在一个软件进程中只能对拷一块硬盘，这样就需要搭建23个服务器平台进行硬盘拷贝，工程浩大。最后发现WinHex可以同时打开多个进程，同时对多块硬盘进行拷贝，这样使用10个SATA接口的主板可以拷贝4套硬盘，一共搭6套平台就可完成拷贝。

硬盘拷贝速度大约是12-13GB/min，230MB/s，828GB/h，全盘拷贝需要10-11小时。当天晚上搭好平台开始拷盘。搭建平台的过程中发现电源的15Pin硬盘供电口只有6个，实际需要9个，手里没有大4pin转15pin的线，所以只能自己动手丰衣足食，找到了合适的头，给每台电源焊了三个15PIN的供电口。

终于跑起来了，可是在拷盘过程中，因为打开了几个进程想查看情况，结果有3个进程突然自动关闭，猜测是因为同时打开多个进程，而且拷贝过程中磁盘读写比较敏感，所以在查看拷贝状态时就导致进程意外结束。

将几个进程重新启动后已经是晚上十一点多，其他的就没啥可做的了，只能祈祷第二天早上能有佳音。

一次RAID阵列修复的笔记（1）

你可能感兴趣的:(一次RAID阵列修复的笔记（1）)