1.故障描述

        124盘的FP5280G2机器安装了63.84Tnvme固态盘,这6块盘的电源灯都是绿色正常,状态灯也都没有红色告警,但是通过lspci命令查看实际只识别到了5块盘。

2.排查过程

      由于raid卡不支持nvme协议的固态盘,所以无法通过点灯来缺失到底是那个槽位的硬盘无法识别。这样就只能通过命令dd if=/dev/zero  of=/dev/nvme1pn1向每个磁盘中写入数据,然后观察闪烁的磁盘状态灯,逐一排查,最终来确定是22槽位的盘没有被识别。

  定位到了没有被识别到的nvme固态盘,此时也不能确定该盘是好的还是坏的,需要通过将该块盘与其他槽位正常识别到的盘互换位置,然后再次通过dd命令逐一向每块磁盘写入数据,观察磁盘的状态灯,来确定。最后观察发现,没有被识别的22槽位磁盘放到0槽位是可以被识别到的,而那块正常的盘放到22槽位也不能被识别到。此时可以证明,之前22槽位的盘是好的。

  既然22槽位的盘是好的,那么问题可能就是背板、riser卡、oculink线损坏导致的22槽位硬盘不能被识别,所以我先对调了一下oculink线,发现还是无法识别硬盘。那么就排除了oculink损坏的可能。范围进一步缩小到了背板和riser卡上,这时我又把背板给替换掉了,最终22槽位的硬盘被识别到了。此时可以确定是背板损坏了导致22槽位nvme固态盘无法被识别。

3.解决方法

更换背板。