记录公司SAN RAID 5+1两块硬盘同时故障的恢复精力

    进入公司将近4年的时间了,一直负责管理公司的一些常用的windows server平台的服务器和存储,硬件有IBM x系列的,也有DELL Poweredge系列的。四年时间,基本很少出现的大的问题,一般都是某块硬盘坏了,直接找供应商报障直接更换。今年11月份的一天,早上接到用户反馈说某系统无法使用,本以为跟平时的小故障差不多,可能是某个service down掉了,进机房检查服务器,突然发现某个SAN存储上亮***警告灯,赶紧打开机柜门检查,一看居然除状态灯报警外,两块硬盘的等同时报警,心里咯噔一下,心想这次故障估计比较棘手了。马上按照常规处理方法,立即向DELL官方报障,DELL工程师一听描述,首先就告知数据可能会丢失。接着赶紧报告部门领导以及用户方领导等相关人员。

    下午,DELL工程师到达现场,因我们是DELL的金牌客户,加之可能这次问题本身就比较棘手,这次DELL派过来的工程师明显是比较有水平的,对这方面的经验比较丰富。通过现场检查后,尝试了一些常规的恢复性动作,仍然不能使raid进行rebuilding,检查日志,发现两块硬盘几乎同时掉线,这个结论无疑告诉我们,数据丢失的可能性已经极大了。而这个存储存放了十几个TB的银行业务资料,一旦丢失,后果难以想象。DELL工程师最后个给出了建议,要想通过SAN找回数据只能寄希望于找专业的数据恢复公司恢复,而且还不能保证一定能够恢复。

    下午5点,各方人员(IT、用户、系统供应商、领导、DELL等)开始召集电话会议,开始商议如何处理,会议一致持续到第二天凌晨,期间,听取了各方意见,讨论了数据的重要性,及时性,已经如何保证安全的恢复完整的数据。

    这个时候,我们平时最不起眼的数据的磁带备份终于可以展现他的重要作用了,顺带说一句,到此时此刻,我才知道数据的备份是如此的重要,因为之前几年天天做数据备份,总感觉公司现有的硬件架构设计,很难会有数据丢失的情况发生,结果证明,多么小的小概率事件都是可能发生的。

最后听取各方意见之后,决定恢复的方案:即保留现有磁盘存储柜不动,从DELL火速发送一套新的SAN存储阵列过来(因我们是DELL的金牌客户,直接找到DELL华南区负责人,立马调动深圳地区所有可用资源配合),使用磁带尝试将数据恢复到新的SAN,保留旧的SAN以备万一磁带数据不能恢复,或者不能恢复到最新数据。

    方案确定了,剩下的就是执行。在DELL工程师协助将SAN安装配置之后,开始通过symantec backup exec恢复磁带数据,因数据量大,我们采取了分批次恢复数据,分步恢复业务功能的办法,最终通过两天时间的日夜加班恢复,终于将所有的数据恢复完成,最后请系统开发商和用户确认了数据的完整性,用户恢复正常业务。我们这颗悬着的心才总算落地。

虽然整个过程事后来看没有什么波澜曲折,但实际上,在这么大的压力下,这么重要的数据,一旦某个步骤出现问题,将是不可挽回的局面。

    所以通过这次经历,我深刻的认识到,从事运维工作,数据安全是多么的重要,平时的工作态度是多么的重要。数据备份是多么的重要,数据备份是在危难时刻挽救我们的最后一颗稻草。所以,也希望所有跟我一样从事IT运维的同仁们,能够吸取经验一起共勉。

你可能感兴趣的:(数据恢复,raid,5,磁盘阵列)