群晖NAS误删30T数据全部成功恢复并可用实战全过程

公司一名同事已经提交离职,正在交接工作,不知道是无意还是恶意删除了公司200T群晖NAS上30T的数据。通过Linux CIFS挂载磁盘,一条rm -rf命令挂着删了三天三夜,直到第三天同事工作发现刚刚还在的数据突然就没了,才发现有人在删除NAS里面的数据。我们第一时间打开群晖的日志找到了这个同事的ID还在不停的删除数据,立即去强制关闭了他的电脑。
群晖NAS误删30T数据全部成功恢复并可用实战全过程_第1张图片
要命的是因为数据经常需要采集写入和删除更新,不是那么重要,测试组的数据管理员对这个目录也一直没有开启回收站功能,所有数据全部从硬盘直接删除了。但幸亏该员工权限不高,没有涉及到核心数据。我们第一时间联系了群晖官方技术,但官方表示他们也无法恢复,只能联系专业数据恢复机构,在线上线下问了几个机构,不是需要寄群晖NAS(涉及公司的信息安全,不能外寄),就是上门要五六万甚至上十万的恢复费用。虽然这些是测试数据对公司而言比较重要,重新采集需要一个多月,人员设备等费用也需要近十几万元,最后花了几千元联系了一位老家专业做数据恢复的朋友提供方案和远程协助,开始了数据恢复。

群晖NAS误删30T数据全部成功恢复并可用实战全过程_第2张图片 群晖NAS型号是  群晖DS2422+ 加扩展柜DS 2419+ ,一共24块16T盘组的RAID5,存储空间约200T用btrfs格式。

第一步准备硬件。当天立即在京东上采购了36块WD 18T氦气盘,其中24块用来克隆原磁盘镜像,剩下的12块用来存储恢复出来的数据。当天腾开了一台36盘位的华为存储服务器,至少需要准备64G内存,安装上windows server 2012系统,关闭自动更新等功能,系统用来安装克隆镜像和恢复数据的软件。因为数据都是随机删除的,只能恢复整个大的文件夹,恢复出来的数据会比删除的大很多。

群晖NAS误删30T数据全部成功恢复并可用实战全过程_第3张图片

第二步 安装磁盘镜像克隆软件WINHEX,一一对应克隆硬盘。为了尽可能减少对工作的影响,我们利用周末时间关闭了群晖NAS,按顺序拔下每块硬盘,并每块相对应做好标签,分两次插到华为服务器上进行克隆。让华为服务器上有一半NAS的硬盘和一半新硬盘,每块数据对应克隆到新硬盘上,也做好顺序标记。服务器上通过WINHEX软件克隆了NAS上每块磁盘的镜像到新的硬盘上,克隆这12块16T硬盘的数据用了2天,一共用了4天时间。全部硬盘克隆完成后,立即按标签位置插回恢复原群晖NAS使用,不影响整个公司其他的同事办公,尽可能把影响降到最低。

群晖NAS误删30T数据全部成功恢复并可用实战全过程_第4张图片

第三步 安装raid恢复软件UFS Explorer professional recovery  9.10,进行数据扫描。把克隆出来的新硬盘都安装在华为24盘位的存储服务器上,注意服务器内存不能小于64G,否则会出现内存不足而导致发生问题。安装UFS PRO 9.11版本,注意只有PRO版本才能够恢复RAID磁盘组,尽可能安装高版本,之前安装8.1出现卡死问题

 第四步    开始扫描磁盘数据。200T存储空间的群晖NAS(减去删除的30T,实际用了130T)用这个软件日夜扫描了15天,一共扫出了300T数据。

第五步  把扫描出来的数据 分批恢复到其他的12块18T硬盘里面。UFS EXPLORER PRO这个软件最大占用内存64G,前面扫描完一次花了15天,最后不知道是内存太小  还是软件版本问题 还是win10系统问题导致黑屏和死机了,所以重新增加内存到96G,并升级了软件版本到9.11,更换了服务器的win server 2012系统重新进行第二次扫描,才顺利恢复数据。

幸运的是恢复出来的数据,经过测试这些天的测试全部可以用, 帮公司挽回了大笔损失。经过这次事件,也让我个人收获了很多的经验,总结分享下。


1. 开启挂载日志,收缩权限检查挂载的日志权限是否都勾选了,这个是找回和追溯NAS用户行为的最关键线索。定期检查日志,我们这个删除行为持续了3天3夜,如果每天检查日志肯定可以最早发现并挽回损失,可惜群晖没有一个单位时间内删除大容量数据的提醒告警功能(我向官方建议过),比如一天内某用户删除了1T的数据,就给管理员发邮件提醒。普通用户绝不要轻易分配删除权限,利用自定义的读和写即可,删除权限赋予部门主管,明确责任。减少群晖管理员,管理员越多出问题的概率越大,这次事故的回收站就是测试组数据管理员关闭的。

群晖NAS误删30T数据全部成功恢复并可用实战全过程_第5张图片

2.开启回收站关闭自动定期清空回收站策略!定期检查群晖回收站是否开启,回收站是群晖数据最后的保障,任何时候都不要关闭回收站!不要关闭回收站!不要关闭回收站!任何人意外删除的数据都可以在回收站找到,一定要关闭自动定期清空回收站策略,我遇到有同事数据被其他人误删了,刚好这个数据前几天被自动设置的清空回收站策略清空了,回收站数据必须人为手动清空,流程应该是 清空前让小组先确认数据的完整性,确认后才去手动清空。
群晖NAS误删30T数据全部成功恢复并可用实战全过程_第6张图片

3. 在套件中心 一定安装 snapshot 套件,对整个文件夹定期做快照。不仅可以防止恶意删除,更能够防范中了勒索病毒,通过快照迅速恢复所有文件,为数据安全再加一把安全锁。

群晖NAS误删30T数据全部成功恢复并可用实战全过程_第7张图片

4. 发现删除行为的第一时间全面停止整个群晖的写操作。 从发现巨量数据丢失的第一时间,我们就在群晖上关闭了所有的写入权限,并发通知告知 整个公司停止了写入权限,并保留了读让公司业务受影响程度最小。这个也是源于几次电脑硬盘数据丢失数据被找回的经验,数据丢失只要没有被重新覆盖,找回的几率还是非常大的。

5. 抓紧时间,立即采购需要的硬件。首先准备相同数量的硬盘,容量比之前的要大一点。还有准备一些存储恢复数据的磁盘。准备一台更多盘位的服务器,比如我们准备了一台36盘位的华为存储服务器。

6. 克隆磁盘镜像,减少业务中断时间。为了最大限度减少整个公司使用只读的群晖NAS的影响,利用周末时间,拆下所有硬盘做好标记,放12块原硬盘 和 12块新硬件  放入24盘位的存储服务器上,一一对应克隆镜像。克隆了两次,克隆16T硬盘一次需要36小时,分两次差不多用了4天克隆完,立即恢复原200T的群晖NAS的使用,并打开了写功能,让NAS原来所有业务保持正常使用。整个NAS从发现故障,关闭写功能,到周末关闭NAS克隆镜像花了4天,到打开群晖恢复读写功能,最大化减少了对原业务的影响。

7. 选合适的软件和硬件。网上数据恢复软件多如牛毛,真正能恢复群晖BRTFS格式raid5的没有几个,经过大神指点推荐选择了UFS PRO。之前用的UFS PRO 8.1版本扫描过程卡死黑屏,于是立即升级到9.11版本。华为36盘位服务器居功至伟,同时看到原服务器32G内存跑满,立即加大了内存,并监控系统CPU 内存使用情况,CPU占用不大,但是内存最大使用了64G,建议使用96G内存。扫描200T的硬盘raid组 花了15天的时间,真是煎熬,面对未知的结果,和测试同事反复的催促问询 能不能恢复出来,如果不能恢复,他们就要立即去重新采集数据。因为第一次做这么大的数据恢复,包括我经验丰富的朋友也无法给最终的结果一个准确的答案。 未知等待的过程非常忐忑煎熬,害怕花了这么多的时间、金钱、精力最终一无所获。就好像炼丹一样,不知道炼出一坨屎还是一颗仙丹,好在所有等待都是值得的,最终抢救回来了95%的数据,交付测试组测试后基本全部可用,只有几个文件出现问题无法打开,对整体影响不大。


数据恢复是一件充满未知性的事情,估计成功的概率和赌博输赢的概率一样,但是把握好每一个细节过程,就可以不断提升成功率。以前有过几次硬盘几GB的数据误删,通过一些数据恢复软件恢复,大部分恢复出来的数据都是乱码这些,这次没想到全部是清晰的目录和可用的原文件。我觉得最大的原因是  群晖用的BRTFS格式的写时复制的特性(类似快照,虽然没有专门去做快照,但相当于通过软件找回了最后一次快照)和RAID5多磁盘数据校验机制无疑是这次全部顺利找回并可用最大的功臣,因为所有数据都分摊在24块不同的磁盘上,重新小批量写入并没有立即覆盖删除之前大容量的数据。其次是31T的数据量巨大,短时间内很难被覆盖和破坏,因为我们一天NAS新写入的数据最多只有一两百G,应该写入到了新的扇区,没有去覆盖旧的。更主要是发现被删除的第一时间立即停止了所有写操作,后续有条不紊地采取了正确的恢复措施。希望这次的教训能够帮助后面所有遇到类似情况的IT管理和维护人员,面对灾难,不用惶恐和无措,冷静下来,用我的真实经历给你们一些参考和信心。
 

你可能感兴趣的:(数据恢复,运维)