反反复复的磁盘丢失故障处理过程

  这两天遇到一个问题,很让人头疼,就是我们的CX3-10C上分配给一台服务器的虚拟磁盘老是掉线,原因起先不明,不过现在正常了。
  说说大致经过吧,前天晚上开始出现这个情况,BCC告警短信发到我手机上,由于没有及时看,过了一会广电中心的人电话打过来说视频上传不上去,我然后看了一下视频服务器,发现磁盘又没有了,以为和上次的问题一样,但是我想也不大可能啊,因为前期我的测试从来没有出过这个问题,十一放假刚结束就出现这个问题确实有点奇怪,何况我的那块HBA卡是新的,以前在服务器上插着但是没有用过,最近才刚刚开始启用。
   问题是这台视频服务器上面的两个虚拟磁盘没有了,存储阵列管理端提示光纤未连接,然后我就猜测是网通的人把线碰掉了或者是拔掉了,因为他们最近在摸线,准备机房搬迁,碰掉也很有可能。电话告诉陈乾,可能原因,我去机房检查服务器光纤连接情况,处理这起故障。去了之后发现确实是光纤松掉,指示灯都不亮了。插好之后重启,一切正常。
   但是第二天早上,也就是昨天早上又出现这样的问题就是这台视频服务器上面的两个虚拟磁盘没有了,但是存储阵列管理端显示连接一切正常,服务器端的powerpath一切也正常,也没有提示任何错误,只是系统日志里有几个提示错误,错误截图如下:
此时问题原因不明啊,服务器端也提示正常,但是确实是没有磁盘,很让人意外。然后我就重启服务器,因为windows系统好多问题一重启就正常了,重启之后果然正常,但是这时不知道原因,至少我认为在存储阵列上是没有问题的,光纤交换机肯定也是没有问题的,即使有问题也是某个端口的问题,我怀疑最大的是网通又把线碰了,打电话问网通那边的负责人问有没有人去机房,他们说没有人去机房,我很怀疑,但是没有办法,因为我们那机房暂时没有门禁系统,也无从判断,我就暂时把这个问题放在这里,日志也看不出是什么原因。
   郁闷的是两个小时之后又那样了,磁盘又没有了,提示都正常,错误日志也和上次一样,我想会不会是光纤的问题,去了机房把光纤和光纤交换机端口都换了,重启机器又正常了,但是还是没有用,下午三点钟又出现原问题,又重启恢复正常,待进一步观察问题,每次提示的错误都是一样的,就是数量上稍微有区别。
   由于还有一件事情比这个重要,下午下班赶紧去办另外一件事情,回来之后八点,那会在路上同事打电话说又出问题,我说你先重启一下,又恢复正常,回来之后立即研究,时刻监控,同时备份上面的数据,防止磁盘数次卸载挂上出现问题,但是备份途中又坏掉,由于已很晚,这台服务器访问量也不是很高,晚上就没有加班处理,说实话即使加班也不知道该怎么做,回家想了想,断定剩下的只能是HBA卡的问题了,端口也换过了,光纤也换过了,还是重复性出现这个问题,时断时续,真的很烦人……
   早上来的比较早,发现磁盘昨天晚上已经掉了,昨晚零晨前半个小时,早上重启之后和dell售后服务工程师联系,商讨问题解决方案,咨询了类似的问题,他看了一下存储阵列spa、spb、系统日志、光纤交换机的supportshow命令的输出(那个我看不懂,他让我抓下来给他的)。然后也断定是HBA坏掉,我当时已经在机房,由于这台服务器上面有两块HBA,我把光纤接到另外一块HBA卡上面,然后重新再管理端注册这个hba卡,形成对存储阵列的有效访问链接。切换过程不用多说,就是一般的注册过程,很简单,就这样问题解决。一切恢复正常。
   这样的问题很烦人的,时断时好,你说他有问题吧,他又能工作,没有问题吧,又反复这样出现故障,真的很头疼,尤其是存储这样重要的东西。总之处理问题一定要思路清晰,要判断准问题发生部位,最有可能的原因。这样才能解决问题。
 

你可能感兴趣的:(存储,故障,光纤,虚拟磁盘,HBA卡)