血和泪的教训!故障是运维之难?之幸?

=========

事件背景

=========

    故事背景是这样的:公司有一台服务器磁盘空间不足,原本就已经通过iscsi挂载了一个LUN在使用。现为了给服务器再增加空间,需要给主机多添加了一个虚拟磁盘。按照正常的添加流程,添加完成后发现尽然没有生效。我个人觉得配置完成后可能需要重新启动一下iscsi服务,但担心重启iscsi服务会影响到现有已经挂载的LUN的使用。于是咨询了dell的工程师:“重启iscsi服务是否会影响到现有已经挂载使用的磁盘空间。”对方给出的答复是不会。只会短暂的停顿而已。于是自己就计划夜里面进行重启iscsi服务。原来一开始就觉得如果可以的话,还是对原本的数据进行一次操作前的备份比较安全。但自己经过思考觉得确实重启iscsi服务,应该是不会影响到原本的东西。而且此理论也是经过dell工程师的验证。随后呢,这个备份的想法就被我给抛在脑后了。


=========

事件经过

=========

    很好,夜里的时间到了。开始准备重启iscsi服务了。(其实如果真的只是简单的重启服务,我完全可以来个定时任务完成就可以了)但担心会怕出点什么叉子就手动操作,反正也相当快。嗯/etc/init.d/iscsi restart 一下子就给它重启。想着嗯 很好打完手工。 验证一下磁盘情况fdisk -l。显示的结果一下子就让我倒吸了一口凉气。尼玛窝XXXXX,原本映射的LUN 不见了,新加的也没见到。df -lh 查看原本挂载的目录还是mount的。但是数据已经访问不到了。心理暗暗不爽,DELLXXX 怎么还说不会影响,这下可好一下子就没有掉了。想了想,好吧。可能需要手动重新和存储建立一下连接,重新discovery一下。结果发现还是没有。想说把原本的node删除掉,然后重新添加。结果删除的时候又提示错误。最后想说再重启一下iscsi服务,结果一样提示login 和logout均提示了错误。好吧 ,业务允许的停顿时间不能太长。那就先把相应的数据恢复回来,让业务恢复之后再慢慢解决问题。赶紧去查看备份的数据,去查看,哇擦备份服务器上面的文件日期居然是乱码,看不到日期。但是管不了是几号了。先恢复回去。嗯 等啊等,心里就一直在期望这个数据是最新的。(其实事情本来就不应该是心里去期望,而应该是很确定知道它就是比较新的数据。这就是工作的漏洞啊。运维不是一个能够靠直觉的工作,是需要确确实实的依据。)当时心里简直就是有一万个草泥马在奔腾啊,有木有。头皮都快被我给抓破了呀,有木有。


=========

重要情节

=========

    当时根本就静不下心来解决问题。好吧,等待数据恢复的期间,先通知一下产品的相关人员。不过这个产品比较不经常使用,所以也导致了我操作的时候警惕性不够高。(其实平常工作无论对待什么样的东西,哪怕你觉得很小但一定要保持比较高的警惕性。因为这样的一个谨慎能给自己避免不必要的麻烦,给自己节省时间。)相应的人员通知完了。心情还是没有办法平复下来,简直是不爽到爆呀。于是赶紧给我的女朋友打电话。好好让她给我开导开导,因为有时候一个人遇到问题之后很容易思维短路,眼睛所能看到的东西也会变窄掉。而且我有一个很厉害的女朋友,总是能够让我很安心。让我在几近困顿的时候,找到灵感找到出路。在此我也要好好感谢下我的女朋友,嘻嘻。


    和她的谈话内容主要是这样的:我先是把今天的问题大致讲了一下,随便抱怨一下自己的倒霉。接着是DELLxx攻城师的不靠谱,自己大意忽略。文件备份的坑爹,自己查找问题的瓶颈,自己手贱。她很耐心的听完了我的抱怨。(此处可以有掌声)然后讲了以下的一番话,让我豁然开朗。“首先你现在已经遇到问题了,烦躁以及抱怨是解决不了问题的。如果你觉得你现在十分烦躁,根本就找不到问题的原因在什么地方。建议你可以起来稍微走一走放松一下心情。或者做一些和这个问题不是直接相关的问题。但不要忘了这件事情。比如通知一下相关的人员。或许相关的人员会遇见同样的故障能够给解决问题的新思路。再说这次的错误对你来说是一件好事。也是你应该庆幸的。因为这次的数据还算是不那么重要的。也正是因为这次故障,才把你的文件备份潜在的问题暴露出来。现在仅仅只是几天没有备份成功。倘若是等到1个月之后出现问题发现没有备份成功,你觉得你的情况会比现在好吗?。这也给了你教训,在做一些处理的时候,一定不能够光凭直观感觉,一定要慎之又慎。因为你多一分的谨慎就能给自己少一分的麻烦。并且你也要注意你自己是不是平日工作没有做到位了。这次教训之后,你自己要寻找你工作中的漏洞。可能你的工作性质就是需要你们很仔细,做得很到位。所以平日里该完成的一定不能拖拉不完成。因为有可能一点点错误,就会引发一个更严重的问题。....”

    恩谈话的内容大致就是以上这些,当然她能还从其他方面给我一些安慰。我女朋友的这番话确实让我很吃惊(我女朋友的职业是物流行业,完全不懂IT),因为一个门外汉却道出了我们本应该深刻认识的东西。


=========

感悟

=========

    确实也是如此,运维一定会遇到问题。遇见问题不是一种不幸,苦难。故障是一些潜在问题的体现。这种体现的背后一定是有原因的:可能是一个误操作,坏的操作习惯,或是平时的工作不到位等等。具体的道理或者感受,你们可以慢慢去体会一下。我相信,很多运维的同学一定也遇见过同样的情况。那你们之后又是什么样的情况呢?是及时的亡羊补牢,还是继续浑然不知。

    最后,就是要再次感谢一下我女朋友,我很幸运。


你可能感兴趣的:(故障排除,iscsi错误)