工作吓得自己一身冷汗

昨天晚上都快八点了,自己在玩电脑,广播电视台的打电话给我,说门户网站的后台上不去,说视频数据传不上去,我起先也没把他当回事,就当做一般故障处理,后来才发现了根本就不是那么回事,后台连接的是另外一台数据库服务器,认证都是在这台服务器上的,暂称这台服务器为A吧,另外一台数据库服务器暂称为B吧,门户网站服务器成为C吧,视频服务器成为D吧,这是大致的环境,C主要是系统源码,A和B提供数据库服务,D提供流媒体服务,也就是在线视频服务。
 
   他给我说后台上不去我就习惯性的,用我的后台账号和密码去打开,但是发现输入用户名和密码后压根就没有反应,我第一反应是A服务器出问题了,因为认证都是在A上的,所以接下来去看A服务器,ping数据库服务器A,一切正常,唯独是A的物理IP可以通的,但是A上原来做群集的虚拟IP不通的,我就用A的物理IP登上服务器,发现数据库服务已经死掉,没有起来,因为我晚上做了补丁更新和系统重启,服务没有起来有时很正常的,但是我试图手动启动时发现也不行,但是当时没有在意磁盘已经丢失了,因为A服务器上有两个虚拟磁盘是从网络上挂接过来,这个情况没有注意到,我直接将问题定位到数据库内部异常,直接电话通知门户网站系统开发商,告知情况。稍后十分钟电话告知陈乾出故障了。
 
   因为已晚上八点半,都不在办公室,他们远程拨号连接到内网,发现数据库服务器数据文件所在的磁盘全部丢失,数据已经不存在,然后又电话告诉我,让我检查存储阵列柜,我登陆到存储阵列柜,发现A服务器的存储是正常连接的,没有提示任何错误,然后我在A服务器上观察powerpath,发现也没有提示错误,但是磁盘确实是不可见的,唯独本地磁盘是可见的,这时我已经感觉到问题严重了,因为A服务器以前和B服务器是做的群集,磁盘是共享的,但是五月份的时候开发商说群集经常出问题,把群集要去掉,但是那段时间我刚好回去,不在这里,也没有经过我同意,只经过陈乾同意,便把群集给去掉了,就相当于把B服务器这个节点删掉了,但是处理的不是很干净的,磁盘还是共享的,数据库还是群集的,不过只是一个节点因为被删掉,就相当于群集系统中的一台服务器宕机,但是群集还是正常工作的,只不过是单台对外提供服务,就这样,数据在B上还是可以看到的。
 
    问题就出在,我前两天把B服务器给做了,重新分配给别的应用,IP地址也变了,vlan也变了,这台B服务器可以说是不在了,重要就是在A服务器因为在B不存在之后重启了,群集服务也重启了,重启之后磁盘丢了,但是A上的数据都在丢失的这两块磁盘上,包括备份的数据也在这两块磁盘的一块上,现在磁盘没有了,如果找不回数据的话就相当于整个门户网站彻底瘫了,除过C服务器上的一些静态网页不受影响,别的都要受影响的,这个责任是相当重的,现在门户网站里面集成的系统太多了,政府里好多东西都在这上面放着,备份数据有没有在远程做过,我来这里之前还更糟糕,本地备份都不是很彻底,现在面临的是磁盘不可见,我当时有点担心了,怕磁盘还是不可见,后面的压力盒责任将是很大的,所有人应该都是有牵连的!
 
   这时我有想了两套方案,把情况和开发商说了说,第一种就是将这两个磁盘挂接在另外一台服务器上,从存储阵列管理器上划过去,将数据备份出来,系统瘫了就瘫了,这都好说,关键是数据不能丢失,如果丢失了压力很大的,责任也很大的。但是这种方案有危险的,一旦挂接不成功,也有可能导致数据丢失的!这是我们三个人不想的!
 
   第二种方案就是,第一种方案所不愿出现的结构的补救方案,就是找存储厂商,让他们看有没有比较保险的方法,因为自己在存储方面没有多少经验,也就是一个多月的实战,和以前数月的模拟实验,我之所以想这个就是防止出错之后没法补救。
 
   这时自己真的是心惊肉跳啊!生怕出问题,毕竟自己经验不足,存储方面涉及的知识太多了,何况一个存储工程师每个月那么多薪资,我也就是一个刚接触这个,郎振中和陈彦都说吓怕了,这个项目毕竟是他们最大的一个,出问题对他们我想影响应该也是很大的。我何况不是啊!每个人都是一个字怕啊!
 
    幸亏的是,最后在操作之前我把服务器又远程重启了一下,重启之后,我看能否在挂上,不能挂上的话就要汇报给领导。找解决方案,我对重启也没有抱多大的希望,但是重启之后,郎振中给我发来消息说,A做群集的虚拟地址可以ping通了,我一下放松了好多,因为群集的虚拟IP如果能通的话,就说明数据库服务也肯定是起来了,登录到服务器上一看,没有起来,有点伤心,然后手动启动数据库服务,发现已经起来了,只不过是没有刷新而已。
 
   至此,整个故障暂时得到解决,磁盘也是可见状态,数据库也起来了,也能正常对外提供服务了,给陈乾说明处理情况,说故障解决,赶紧做好远程数据备份和服务器迁移,其实服务器迁移工作已经准备好了,前段时间门户网站服务器经常莫名奇妙的的出现异常,已经准备更换服务器了,都在计划中,不过这次意外时没有相到的!原因也不明。还有待进一步研究……

你可能感兴趣的:(工作,网络,服务器,后台,冷汗)