接着写吧,把该补得都补上!

一台承载者每周百万封业务邮件的服务器不知道为啥就down掉了??? 【poweredge 750】

   是这样的,大约在很久很久以前的早上(那时候快过年了吧,好像在公司年会的前两天)我刚刚到办公室,按照常规重复的一遍又一遍的工作内容,查看监控系统的图像观察有无异常,突然电脑右下角的Foxmail有一个敏感的提示出现了大概的内容是什么“无法找到服务器 XXXXXXX” 之类的吧。记不清楚了,长期用电脑,是我的记忆力严重的下降!
   在看看能否打开网页,可以的呀,办公网络没有问题,在登录邮件服务器看看,那个光标一直在那儿闪闪的,心也怦怦的直跳,最担心的事还是发生了,服务器无法连接! 通过其他的服务器跳过去看看还是连接不上!
   马上打电话给机房的技术支持:请帮忙给我看一下服务器,位置在XXXXXX IP是:XXXXXXXXXX
是不是关闭了? 麻烦帮我看一下,技术很温柔的说:好的,我马上去给您看看,一会儿给您回电话。
    挂了电话,等待着机房的电话,同时我吧情况和经理说明了一下,经理说,你自己搞定就行了。幸好这时候的邮件业务量不大,有一台备份的邮件,暂时使用单台的。(可见容灾备份是多么的重要,为你处理故障提供了充足的时间!)
     在等待中电话响了,是技术打来的:您的服务器关机了,我试着开机,机器报警 1长2短3短(大概是这个情况,我是在既不清楚了哇)
这应是服务器关闭的原因,好的我知道了,谢谢!


 根据我的经验和在google上搜索了一下相关的信息初步确定是内存的问题,内存是带ECC校验的
由于不在机房,没法了解具体情况,把服务器宕机的初步的判断和经理又说了一下,经理说:我们有一台可以用,你明天去机房看一下情况,要是内存的问题的话,就把其他服务器上的多余内存拔下来放进去看看,前提是两条内存都损坏的情况下(我晕倒哇把其他服务器的内存??这可咋办god?差东墙补西墙),没办法,老板的抠门是全公司都知道的呢。
   第二天就是年会了,经理让我明天早上去机房处理一下,如果不行的话就明年再说吧。完事儿之后直接去年会现场吧。我很有力量的回答我尽力弄好!
   早上直接去的机房,已经提前将螺丝刀扳手准备好了,(还有服务器的密码 嘘!这个不能让别人知道!) 来到机房走到机柜前,大致看了一下其他服务器的情况,一切良好!
   天哪!这后排的天花板的等怎么都不亮了,我这这么操作啊,挨千刀的IDC! 技术支持已经都放假回家过年去了,我还在这个该死的、冰冷的、黑暗的、吵闹的、喧嚣的、机房中游荡!
   还好有联通的人呢,和他们接手电筒用吧,你把你的出入证押在这儿,就可以把手电筒拿去用了!(这唯一的家用电器还得要抵押!)
   借来的手电筒,把随身携带的包,衣服放一边卷起袖子大干一场!
按照心理规划好的步骤实施

先自己开机确认一下情况,就像技术说的那样报警,没办法了
实施第二个计划,把电源拔下,把服务器由机柜中拖出来!(很黑的,手电筒我放一边,由机柜前面抽出来)用准备好的螺丝刀将服务器的上盖打开,两条内存展现在我的眼前。
先把两条内存全部取下开机,一直报警,对的! 接着按上一条内存,还是报警和两条内存放在一起的报警是一样的,换一条再试试,嘀的一声,正常开机了!心理暗暗高兴。 然后再将两条内存放在不同的插槽中开机,还是不行,现在已经确认其中的一根内存条出现了问题,看看好的内存容量是1G 还好,对于平常发个几十万封的邮件已经足够了,
就这么着吧,把机箱盖装好,开机接上鼠标显示器,进入了系统
在黑夜中我小心翼翼的把服务器放入机柜中,同时把心放在了肚子里。
再重启一下没问题了,确认没问题了!把相关的服务启动,测试能否正常运转,网络连接正常。
给办公室的经理报告好消息!拨通了经理的电话:服务器没有问题了,您在办公室测试一下,把应用的参数调整一下吧,经理在电话那边测试了一下,没问题了!干得好! 
挂了电话,心里暗暗高兴。


整理好东西,把家用电器还回去,赎回我的出入证!歇了口气,在巡视一遍机柜,
准备出发去开年会喽,嘿嘿,还有我一个节目呢!回去的路上我又总结了一下。

根据现象看本质,根据本质去分析,分析过后
制定一个解决问题的步骤,即使不写出来,也要在心里有个步骤
遇到事情不要慌(这是我以前打工的时候,一个班长提醒我的,不要慌,细心点儿)

罗嗦了这么多又下班了,希望能给大家带来点儿启示!