今天有点儿时间,突然想起了刚来公司的时候,服务器的硬件就出现了一次故障,现在写下来给各位朋友们点儿经验分享

       记得那次是我这个岗位的人员离职走了之后,经理带我到机房熟悉一下环境,顺便把备份磁带更换一下(备份磁带还得手动换掉,我晕啊),由于进机房需要出入证件,我没有证件,就需要等内部的人员来接待,这时候也快到下班的时间了,经理说:小刘啊,你现在这等我吧,我进去先看一下,没事儿就不用进去了,下次再说吧,我说行吧。

   大约过了20分钟后经理从机房出来了,说小刘我看我们的数据库服务器前面板的LED的指示灯闪×××警告,LED显示英文字母 “BP Driver 0 ” 同时有个硬盘的小指示灯也闪黄, 你回去查查这个原因是什么?
    坐在经理那陈旧的充满烟焦油味道的车厢中,我在思考这原因。没有头绪。回到家 Google 了一下,原来这个可能和硬盘有关系, 那个Driver 0  是不是硬盘在BIOS中的ID号? 出现问题了? 这台服务器用的是RAID5的阵列  坏了一块硬盘的话还是能继续服务的。(服务器的硬件是比较的老了 powerage 850的机器了)
    第二天早上早早的来到了办公室,打了Dell的售后技术支持,说明了情况,Dell的技术告诉我那是阵列里面的一块硬盘掉线了(果然是硬盘的问题),你把硬盘拔下来在插上就可以了,
这我就放心了,等经理来了和他说一下情况看看什么时候把这个问题处理一下。
    经理是个很小心谨慎的人,从来不愿意冒险去做事情,他了解了这个情况后说等等在处理吧,当前的业务量很大,那个库每天都在处理业务,找个时间在处理一下吧,(我晕倒)只好这样了,大约过了2周了,还是没出问题,我们在一次总结会中我提到了这个事情,经理说好吧,老这样拖下去也不是办法,决定在周六的早上去机房处理。
     周五通知了业务部门我们需要停机维护系统,一切准备做好。周六约好在机房见面。
     周六我准备一下相关的工具和资料早早的来到了机房,找到显示器,鼠标键盘等。(机房的技术不知道干嘛去了,要什么都得自己动手),接上显示器,键盘,鼠标,登录系统,看着那×××的警告,心理默默地祈祷,不要出事儿:) 按照先前和精力商量好的流程,先备份数据库的数据,关闭数据库,执行热插拔硬盘。糟糕了,没有把密码带来,一身冷汗(这么粗心大意呢),打电话给经理吧。

电话接通了:领导您啥时到机房啊,我忘记带密码了! 经理在电话那头嚷道: 什么都不带,来干吗啊! 我恨自己咋那么粗心呢?
等我过去吧! 好的! 挂断电话我等待着经理的到来
 一会儿领导来了,有训斥了我一顿,以后做事儿细心点儿啊,别那粗心大意的!我答应着。
按照先前的流程先登录系统将数据库全备,使用RMAN 物理备份一份,备份的时间比较长,等吧,经理外边出去抽烟去了,我在旁边等着备份完成,大约20分钟后备份完成了。
好了第二步,关闭数据库
第三步,吧友问题的那块硬盘从前面板拔出在插入进去(服务器硬盘支持热插拔的)。这时候前面板的LED指示屏的闪烁变成了正常的蓝色,错误提示消失。
这时候已经是没有问题了,为了进一步确认没有后顾之忧,我们还是将系统重启了一下,启动之后一切正常
第四步,将数据实例启动,没有错误,登录网站测试没有问题,这次就这么解决了这个问题。

这次遇到的硬盘掉线问题,据我的经验应该是服务器的长期运行,机箱共振引起了硬盘接口的松动,或者机房的温度差别变化引起硬件热胀冷缩引起的。当然也不排除人为的原因。

解决了这次故障,我总结了一下:
任何故障出现之前根据其现象找原因,再就是咨询相关硬件厂商的售后工程师,他们接到的故障报修是最多的,会很快给你一个方向,指出问题大概的原因。
还有就是个人问题了,不能粗心大意,去机房维护,要把可能发生的事情都想到了。