根据政策、工具和员工专业知识的不同,不同组织之间的磁盘故障实际管理流程也不尽相同。但是在磁盘替换过程中,Windows管理员有一些规律可循。

首先,需要确定有故障的磁盘。Windows Server 2012 R2提供了一些磁盘故障的参考资料和一些识别数据,包括Event Viewer日志、Server Manager中的Physical Disks报告、System Center Operations Manager(SCOM)的警告对话框或Windows PowerShell查询等。SCOM可以报告故障磁盘的具体位置,例如槽、托盘和方位。其他工具将故障磁盘作为物理磁盘号或全局唯一标识符(GUID)产生报告。使用PowerShell Get-PhysicalDisk命令可以将GUID转化为物理磁盘号。

在确定哪些磁盘有故障之后,在存储阵列模块中找到它。许多存储阵列中会有LED闪烁提示相应的磁盘故障。如果没有提示,技术人员将需要额外的时间来找到正确的物理磁盘或序列号。

许多技术人员会先检查磁盘连接试图复位磁盘槽或电缆连接。如果起作用,重置物理磁盘使用或通过PowerShell PhysicalDisk命令从存储池中删除该磁盘,这样可以清楚闪烁的LED灯。如果磁盘问题依然存在,使用特定的存储阵列指令来更换磁盘。典型的最佳实践是确保新磁盘的功能与发生故障的磁盘相匹配,这样可以防止性能不匹配所导致的存储问题。取代物理磁盘之前,应该清楚该磁盘在任何存储池中的配置,这样才能给新磁盘重建的机会,否则可能会有数据丢失。

每个组或阵列中完全相同的磁盘应该使用相同的固件版本。一旦新磁盘加入,应该将其固件版本进行更新,确保与该组或者该阵列中的其他磁盘保持一致。记住,每个新版本的固件随着时间和访问可能会引入变化。虽然这可以提高磁盘本身,固件版本差异也可能引入性能差异,从而会引发意想不到的或间歇性的存储错误。可以通过Server Manager或Windows PowerShell等工具查询磁盘固件版本报告,另外,更新应遵循制造商的指示。

使用Server Manager或Windows PowerShell往存储池中添加新的物理磁盘,然后删除旧的磁盘。在一个完整的磁盘故障事故中,失败的磁盘应该自动退休。如果磁盘提前被替换——如针对间歇性问题——首先要通过PowerShell删除该磁盘。

作为磁盘故障管理的最后一步,技术人员可以运行存储健康测试来验证存储池或集群,然后消除任何警报。