经历dell R720 服务器坏盘 raid 重建

    2015年3月30日下午快下班时候同事从机房出来跟我说服务器磁盘亮黄灯。

    我走到机房看见有问题的服务器dell r720前面板闪烁着:Fault detected on drive 0 in disk drive bay 1.中文意思大约是:在驱动器托架1中磁盘0检测到故障。

    磁盘0 LED指示灯的确亮着黄灯,看样情况不好很好。这台服务器上跑着公司至关重要的erp数据库,处理故障我需要格外小心。我决定今晚把问题处理掉,不希望问题会拖出其它问题。

    在处理之前要做的一个非常关健的步骤就是对数据进行备份,当然个备份的目地是另外一台存储。

    备份完数据,到了下午6:20。通知公司同事,停掉服务器业务关闭了服务器。我没有选择在线操作,因为我担心在线操作可能会出现磁盘瓶颈或磁盘读写压力太大出现新的故障。

    重启服务器进入阵列bios,发现前任工程师把服务器共6块盘做的是raid10。关闭服务器,将有问题的盘拿出,准备将老文件服务器(已停用)磁盘柜中热备盘进行置换。

    可拿出有问题的盘一看大惊,磁盘是sata类型,并不是服务器磁盘sas。检查一下r720其它磁盘都是sata。难怪服务器才一周岁多就出现磁盘问题,原来不是专业的。

    看来老服务器的sas盘用不上了,要raid重建。磁盘的类型是必须是一样。

    同事找了半天没有找到同类型的sata 2t磁盘,我告诉他将监控主机磁盘拆下一个来用。这个真不是好主义,可是没有什么好办法。

    将新的磁盘插进去以后,重新开机进入系统。从磁盘指示灯来看,磁盘并没有进行raid重建。

    我重启了服务器,进了阵列bios,将新插入的磁盘手工配置为热备盘。此时系统自动将这块盘rebuild,RAID重建中。我停掉所有主机服务状态下进行rebuild,从大约8点开始至11点3个小时完成整个过程。

    其实在线重建是允许的,可我总是小心翼翼。有句话这样说:小心使的万年船。

    如果花点时间数据业务得到恢复,会得到同事说事。如果少花时间搞错了数据,会得到老板请去喝茶。




你可能感兴趣的:(raid,重建,服务器坏盘)