1. 备份您重要的数据,以免导致数据的丢失。
2. 重新启动您的服务器,按下ctr+m(这是raid 卡的bios),进入raid bios
3. 选择object(目标对象),回车进入
4. 选择physical driver(物理硬盘),在物理硬盘这个菜单中,你可以看到各种硬盘的状态:
主要有(online(在线)/fail(失败)/rebuild(重建)/ready(预备)。通常情况下ready表示您的机器硬盘处于预备状态,硬盘没有任何数据。
Fail表示您的机器这个硬盘脱离了您的阵列,这个时候有可能硬盘坏了,也可能仅仅脱离阵列,您需要
在每个硬盘上按一下F2键,检查一下是否有media error (媒质错误),other error(其他错误)
如果错误超过10个就需要更换硬盘。
如果错误全部是0,仅仅需要rebuild(重建)就可以。
在经过5小时后硬盘会从rebuild(重建)状态改变为online(在线),就是raid 回复正常。
有关RAID的常见问题
1. 为什么硬盘会掉线?
SCSI的通讯采用的是并行总线技术,当SCSI链路中出现冲突,设备故障或通讯干扰,就会造成总线无法释放,在此期间SCSI控制器可能无法正确识别到某些磁盘的状态,因此会将这些磁盘置为离线状态。SCSI控制器会尝试通过总线的复位来释放总线。SCSI链路中的任何一个设备的故障都会造成SCSI总线通信故障,它包括下面这些部件:
l SCSI线缆
l 硬盘背板
l 硬盘
l SCSI控制器或RAID卡
l 有缺陷的SCSI设备固件
l SCSI终结器
l EMM卡
2. 为什么诊断工具可以发现硬盘故障,而硬盘本身却没有报警?
硬盘在工作一段时间后,可能因各种原因会产生一些介质错误,但硬盘厂商对这些介质错误都有设定一个报警阀值,当硬盘的介质错误超过预设的报警阀值,硬盘firmware将触发报警,并反映到硬盘报警灯,但有时硬盘虽然产生了介质错误,但这些错误并没达到报警预设阀值,所以硬盘报警灯可能会没有提示。
3. 为什么硬盘可以rebuild成功,但却经常掉线?
Rebuilding的操作是一个RAID数据冗余性重新同步的过程,rebuilding成功仅反应出磁盘介质在同步过程中无读写错误。硬盘离线通常跟SCSI总线的稳定性有关(参见问题1)。
4. 什么原因导致Rebuilding失败?
l Double fault:由于多快磁盘故障,导致数据的冗余性丢失。
l 错误的操作:在更换硬盘时,如果该硬盘本身并没有离线,应该使用prepare remove功能通知RAID卡,以便系统更新磁盘状态。否则,系统可能不会接纳更换的硬盘,从而导致不能rebuild,另外,建议热更换故障硬盘。
l 新换磁盘上存在不正确的RAID配置信息(仅针对Apaptec公司的RAID卡)
l 更换的硬盘物理容量比故障硬盘的小或存在介质故障。
l RAID卡故障。
l SCSI总线不稳定。
5. RAID卡Firmware有什么作用?
RAID卡的功能都是由firmware决定的,不同版本的firmware会有不同实现方式,高版本的firmware总是提供更多的功能以及修复早期版本的缺陷。
6. 如何维护RAID数据?
定期执行check consistency和启用RAID卡的patrol功能是一个良好的维护习惯。通常磁盘的介质会随着时间的推移出现读写故障。当一个写操作遇到坏块 (RAID卡会将其标记,并存放在RAID卡及磁盘的NVRAM中,如果该表中的值到达预设阀值时,硬盘firmware将触发故障告警),该写操作不能完成,但RAID卡会尝试将该数据写到其它健康的块上。当一个正常的读操作遇到坏块,那么数据是可以通过校验信息重新得到,RAID卡将得到的信息放到一个健康的块上,并将先前的坏块标记出来。有时我们可能会遭遇double fault(即数据存放于多个有坏块的的硬盘上),为了防止这些错误的出现,我们必须进行维护。
7. 什么是consistency check ?
一致性校验是磁盘阵列控制器的一种高级维护功能。它可以预先检查阵列上的数据,以保证它们的一致性,即数据是正确的、没有被破坏。对于有奇偶校验值的阵列(RAID-5),一致性校验通过数据的奇偶校验,并且和存校验值的盘上的校验值进行比较,确定并纠正数据的一致性。对于镜像盘,一致性校验比较RAID-1上2块硬盘的数据是否完全一致。不一致的需要进行同步处理。对于剩余空间的磁盘介质consistency check一样会进行读校验。
8. 为什么要进行一致性校验?
系统崩溃、意外断电或者硬盘出现坏道,都可能导致阵列上的数据被破坏或不一致。根据硬盘的原厂家的数据,平均每进行1,000,000,000,000,000次的比特位(bit)数据传输,就会产生一个不可恢复的数据错误。以36GB硬盘为例,平均每进行3000次的全盘读操作,就会产生1个错误字节(byte)。如果在阵列不一致的状态时,发生硬盘故障,RAID控制器就无法通过奇偶校验计算出正确的数据,阵列将无法rebuild成功。
9. 什么是RAID卡的Patrol功能
Patrol功能是基于磁盘介质的,RAID卡firmware会在后台按照设定的计划定期对磁盘介质进行读校验,类似于SCSI卡的verify, 当发现坏块时会对坏块进行标记及搬移。Patrol功能不对RAID数据进行校验。
10. 什么是Media error
Media Error一般是指RAID卡发现的磁盘读写错误。通过这个指标我们可以简单的判断磁盘介质的情况,有media error并不意味者磁盘一定需要更换,因为磁盘的firmware会对坏块进行屏蔽及迁移。但应建议对磁盘进行诊断,依据诊断结果来判断是否需要更换该磁盘。
11. 什么是other error
Other error一般是指RAID发现的SCSI总线通信错误。一般表明SCSI总线中存在硬件设备故障,一般是SCSI线缆,硬盘背板,SCSI终结器等。