EMC VNX 中端存储系统控制器更换常见问题探讨

最近遇到一些客户在更换EMC Clariion系统(就是传统的中端存储,包含CX,VNX1代,VNX2代,VNXe和Unity类似)控制器中遇到一些问题,然后处理方案千奇百怪,问题越高越复杂,最后丢数据。本文对标准的更换流程做个描述,不同的产品是有些差异的,但总体差不太多。当然,Vnxe和Unity是完全不同了,由于底层做了改写,但是Unity和VNXe还是保留和继承了很多VNX的东西,有些方法也是适用的,比如启动过程SP控制器的指示灯变化。最后对一些常见的误区做些描述,有不清楚的地方,欢迎添加微信 StorageExpert 进一步沟通探讨。

标准过程描述:

  1. 把5400-B的wirte cahce先disable了。

EMC VNX 中端存储系统控制器更换常见问题探讨_第1张图片

  1. 如果能有navisecli 最好用命令来shutdownsp,如果没有就只能物理上来关机和开机了。
  2. 找到5400的SPA物理东西,A从后面看是右手的

EMC VNX 中端存储系统控制器更换常见问题探讨_第2张图片

从前面看,A在左边,B在右边。

  1. 笔记本打开串口程序,如puttty,波特率是 115200(注意的是VNX1代的波特率是9600)。 然后把串口线接到笔记本上,见检查串口驱动是否正常。如果正常就继续
  2. 串口另外一端接到5400B的下图串口上

EMC VNX 中端存储系统控制器更换常见问题探讨_第3张图片

  1.  物理上把spa 拿下来,然后把base module A 也拿下来,注意记录base module A上的线的顺序

如何把控制器拧下来?看下图:

EMC VNX 中端存储系统控制器更换常见问题探讨_第4张图片

  1. 物理上先把base module A插进去,然后接好后端线
  2. 新的控制器接上串口,然后插入控制
  3. 正常就应该能启动。如果有问题,就再来看器,加电以后就开始启动,观察启动过程,串口应该有输出
  4. 最后别忘记把write cache重新enable

EMC VNX 中端存储系统控制器更换常见问题探讨_第5张图片

上面是正常的无任何异常情况发生,一切顺利的过程。

常见易犯错误梳理

1. 更换控制器没有串口线

建议对于控制器的更换,最好或者说一定带上串口线,CX和VNX的串口线都是一样的,如下图,一头是DB9,但是另外一个头是Micro DB9。很多人一说串口线,马上想到的就是交换机上用的RJ45。

由于现在的笔记本上都已经没有了com口,还需要准备一条USB转COM的线。这个线也很重要,遇到过很多次由于这个线有问题,显示正常但是无法输入任何文字的现象,浪费很多很多的时间。

2. 认为控制器PN不对是导致控制器更换不成功的原因

举个简单的例子,还是用EMC VNX5400 控制器来举例,我们在市场上看到的VNX5400 SP的PN号是有好几种的,最常见的有:

110-201-003D

110-201-013B

110-201-023D

还有 110-201-006B等很多种,认为这个pn不同控制器就不同,更换不成功这是根本原因。这种思路统统都是错误的,只要是型号一样,EMC 中端Clariion系统的控制器都是通用的。

还有人认为后缀一些是 003B,有些是003D,认为这个也不行,这更是胡说八道了。最后的字母基本上是代表不同的版本批次,完全不影响控制器的正常使用。

3. 一定强调要os版本一样。比如需要 5.33.*版本

这个就更是对EMC VNX存储不懂了。EMC的CX和VNX系统,操作系统OS都是保存在系统的前4块或者前5块磁盘中,控制器没有任何的操作系统OS。但控制器中是有不同的维码版本,比如BIOS等,这些是可能不同的,但这些不同是不影响控制器的更换的,如果要更换的控制器这些版本比较低,系统会自动进行同步升级。

4. 更换过程中控制器重启,就认为控制器故障

控制器在更换过程中,是有可能发生多次重启的。如果被更换的控制器内部的维码版本比较低,每个控制器大概有10多个不同的子系统都有维码固件的。如果比较低,系统就会自动升级这些固件,有些固件升级完毕是要重启控制器的,如果有多个子系统的固件需要升级,就会有多次的重启。当然,如果你有串口输出,就可以看的很清楚,控制器为什么发生了重启。

5. 控制器无法成功启动,就认为控制器故障

如果我们使用的控制器有正确的完整的测试报告,但在客户现场还是无法成功启动。不要马上就得出控制器是故障的结论。其实很多问题都可以导致控制器无法启动,我们很多工程师等一会控制器还没有启动,马上就得出一个结论,控制器坏了。然后还拿出证据,就是Unispere上的控制器依然显示fault,或者控制器的故障LED显示黄色。如果仅仅这些内容就得出控制器是坏的是非常不专业的。

最简单的控制器无法启动可能和前四块盘的系统有关系,可能是IO module有关系,可能和内存有关系,可能和base module有关系,甚至我见过vnx2代控制器无法加电是BBU的原因。

6. 什么时候系统硬件可以判断没有问题?

如果现场有串口线,看到post结束,就可以认为系统硬件95%是正常的。如果没有串口线,就看控制器的故障LED灯,如果黄色闪烁结束,进入蓝色闪烁,说明硬件正常,到了软件阶段。我曾经遇到过某知名第三方上市公司的二线,系统都来回重启了好多次了,还忽悠客户说是系统自检没有通过,控制器硬件故障,需要再次更换控制器。这就属于没有知识,还没有逻辑的主了。

7. 系统rolling reboot

有时候系统会反复重启,停不下来。正常情况下,如果遇到这种反复重启的情况,一般重启到5次就进入了degrade模式,LED蓝色灯常亮。也有情况一直停不下来,这个时候就需要手工去设置系统进入degrade模式,然后到remoteanywhere来查看系统到底在什么地方出了问题,一般都是某个驱动无法加载。还有一种遇到比较多的情况,就是VNX的一个bug,两个控制器死锁了,必须要手工把另外一个控制器也宕机下来才可以正常启动。

8. 观察控制器SP的LED指示灯变化

根据这个也能大概判断出来问题的大概,但更深入判断就无法进行了,还是需要串口的boot log和spcollect日志。

9. 系统盘是否可以更换

最近几天遇到一个case,系统无法启动,不知道什么原因把两个控制器都搞挂了。然后维保商居然天真的想到一个注意,就是更换系统盘,把5个系统盘都换了,系统不是就正常起来了。这个简直就不知道该怎么评论。系统盘中保存了OS系统,也同时保存的是客户的系统配置信息。如果5个系统盘都没有了,客户的数据也就全部没有了。这种到最后,基本上都是把客户数据搞丢了。

遇到控制器的问题,一般来说都不是那么容易解决的问题,很多客户就拿一个照片或者一句话,然后天真的让给出一个solution,这种情况也是无语。当然,如果有人根据这个就能给你一个解决方案,建议您也要慎重,本来小问题搞成大问题,没有困难创造困难。

你可能感兴趣的:(EMC存储设备,运维,服务器,网络,系统架构,硬件架构)