我们公司有唯一一台长城的服务器NS3120,有12个 250G 硬盘。应该是 2005 年8月份左右买的,用来做公司主存储,命名主机名称用nas。到去年8月份就过了保修期。
上周6突然收到很多这样的邮件警告:
Subject:3ware 3DM2 alert -- host: nas
20090919192526 - Controller 0
WARNING - Sector repair completed: port=2, LBA=0x1B6BD900
后来又有内容如下的警告:
20090919192925 - Controller 0
ERROR - Degraded unit: unit=0, port=2
20090919192925 - Controller 0
ERROR - Drive timeout detected: port=2
20090919000129 - Controller 0
WARNING - SMART threshold exceeded: port=2
因为是周末邮件都是到了晚上才看到。当然服务器日志message里面也出现了很多这样的错误。
这时候我登录到nas服务器上,输入tw_cli(有很多人可能喜欢tw_cli 后直接接命令,像tw_cli info c0 u0 等,但我更喜欢先进入tw_cli的命令界面后,再进行别的操作),得到:
[root@nas ~]# tw_cli
//nas> info c0 u0
Unit UnitType Status % Cmpl Port Stripe Size(GB) Blocks
-----------------------------------------------------------------------
u0 RAID-10 DEGRADED* - - 64K 1396.92 2929557504
u0-0 RAID-1 OK - - - - -
u0-0-0 DISK OK - p10 - 232.82 488259584
u0-0-1 DISK OK - p11 - 232.82 488259584
u0-1 RAID-1 OK - - - - -
u0-1-0 DISK OK - p8 - 232.82 488259584
u 0-1-1 DISK OK - p9 - 232.82 488259584
u0-2 RAID-1 OK - - - - -
u0-2-0 DISK OK - p6 - 232.82 488259584
u 0-2-1 DISK OK - p7 - 232.82 488259584
u0-3 RAID-1 OK - - - - -
u0-3-0 DISK OK - p4 - 232.82 488259584
u 0-3-1 DISK OK - p5 - 232.82 488259584
u0-4 RAID-1 DEGRADED - - - - -
u0-4-0 DISK DEGRADED - p2 - 232.82 488259584
u 0-4-1 DISK OK - p3 - 232.82 488259584
u0-5 RAID-1 OK - - - - -
u0-5-0 DISK OK - p0 - 232.82 488259584
u 0-5-1 DISK OK - p1 - 232.82 488259584
//nas> info c0
Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC
------------------------------------------------------------------------------
u0 RAID-10 DEGRADED - 64K 1396.92 ON OFF OFF
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 232.88 GB 488397168 WD-WCAL76280314
p1 OK u0 232.88 GB 488397168 WD-WCAL76207833
p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836
p3 OK u0 232.88 GB 488397168 WD-WCAL73587842
p4 OK u0 232.88 GB 488397168 WD-WCAL75670919
p5 OK u0 232.88 GB 488397168 WD-WCAL76197410
p6 OK u0 232.88 GB 488397168 WD-WCAL73498032
p7 OK u0 232.88 GB 488397168 WD-WCAL73588557
p8 OK u0 232.88 GB 488397168 WD-WCAL76291855
p9 OK u0 232.88 GB 488397168 WD-WCAL76254218
p10 OK u0 232.88 GB 488397168 WD-WCAL76251971
p11 OK u0 232.88 GB 488397168 WD-WCAL76280979
查看
raid
卡序列号
//nas> info c0 serial
/c0 Serial Number = F 19302A 4430087
查看
raid
卡型号
//nas> info c0 model
/c0 Model = 9500S-12
由上面的输出,显示
u0-4-0 DISK DEGRADED - p2 - 232.82 488259584
这个硬盘已经降级,发现
p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836
在
Port2
出现
device-error
,基本可以判定
port2
上的硬盘坏了(或者说可能快坏了,最好更换)。
拨长城
400
技术售后电话,无法接通(不再上班时间段),等到周日再拨,叫我联系苏州地区维修点。苏州维修点周日不上班,再等到周一。
这时候心里其实很着急的,因为这个主存储器上放了公司很多重要的东西,而且硬盘被频繁读写了这么多年,如果损坏影响会比较大,不过唯一比较安慰的就是从周
5
到周
6
晚上我已经完成了重要数据的备份。使用
rsync
同步
1.1T
共
8053566
个左右文件,耗时共
39.5
小时。
好不容易挨到周一,打苏州维修告诉了他们具体情况比如(机器型号,硬盘大小,
raid
卡型号
3ware 9500S-12
),因为对长城的服务器不熟,因为我们服务器不方便关机重启,然后咨询了几个问题
1.
我们这个服务器是否支持热插拔
2.
是否支持
raid
卡的
raid10
自动重建
3.
如果我自己更换一个
320G
的硬盘是否可以
4.
如果不支持我怎么自己来
rebuild
他们说需要查询总部,然后没消息了,打过几次电话过去给了些没用的信息,打长城总部技术支持也这样,还联系过南京维修点。共打了估计
10
次电话吧,总之都没有人回答我这几个基本问题。这次对长城服务器的售后维护这块超级不满意。到我记录为止(现在已经周
3
早上了,还没有给我明确答复)。我估计是因为可能长城不主攻服务器市场,里面的技术工程师都是桌面机的。而且他们和客户联系的好像都是普通工程师,问个什么问题都说要和后台工程师确认,而且效率超级慢,为什么不能让“厉害”的后台工程师直接和客户联系呢?
最后看来是不能指望长城的售后了,只能自己到
3ware
的网站去翻资料,熟悉了下
9500s-12
卡,但是没有明确看到
autorebuild
功能。
因为同步过一次数据,心里稍微放心点,心想自己弄吧。如果真坏了,大不了就用我备份服务器上的数据。根据以往换别的服务器的经验,周一晚上定了块
320G
的西数企业硬盘(目前市场上很难买到
250G
的西数企业硬盘了。)周
2
拿到了硬盘,然后再次同步了下最重要的
cvs
数据。
到了晚上,我走进机房,再次确认了下是
port2
口,拨下硬盘然后用
tw_cli info c0 u0
查看信息没任何变化。
更换托架新硬盘插入,输出信息还是没有任何变化。这个卡不支持自动
rebuild
?
只能手动了
rebuild
了。
通过网上的资料,输入:
我这里输入的是
p0
,当时由于按错了本来应该输入
p2
的,哈哈,还好
RAID10,
移除一个没有问题。
错误移除了p0,那就先对p0重建吧。
过了会查看状态:
可以看出p0上的硬盘已经rebuild完成了40%。 差不多1个半小时,P0上的硬盘全部完成。
按照同样的方法对p2硬盘rebuild.
maint remove c0 p2
maint rescan c0
maint rebuild c0 u0 p2
再等了差不多1个半小时全部完成。
可以看出p2上的硬盘是WD-WCAT和别的硬盘WD-WCAL不一样的,这个是我新换上的 320G 的硬盘。到此raid10修复全部完成。
其实,最重要就是胆大(我主要是有备份所有心里不怎么担心),心细(当然不能像我这样把p2,打成p0哦,如果你是raid5,那就惨了。)
这2天的担心终于可以轻松下了,以后再出现这样的硬盘问题就能很快更换上。