今天来谈谈DS系列存储几种常见的问题,

1,Multiple Drive failed

这个问题应该是所有管理员最头疼的问题了,一旦出现多个盘坏掉,应用系统就访问不了存储,所有应用就得停机。接着IT负责人一边被上级领导责问,一边还要心急火燎地打电话四处求救。很多多个盘坏掉的case就是因为平时不好好巡检,不定期做health check,有的盘都坏了两三个月,运维还没发现,等到第二个盘再坏掉,应用访问不了了(以RAID5为例),才发现。

遇到这种情况,如果在维保期,应该保护现场,立即打800找support,千万不要随便插拔盘,也许你会把事情越高越复杂。在某些情况下,多个盘fail掉是可以恢复过来的(下面都以RAID5为例)。有人会有疑问,RAID5不是最多能坏一块盘吗?是的,RAID5不管什么情况下,是只能坏一块盘,但是这指的是物理损坏,但有些硬盘failure,也许是logical failure。比如在已经坏掉一块硬盘的情况下,热备盘顶进来,系统在reconstruct,这时应用仍然在写数据,如果负载很大,就可能会出现某个硬盘logical failure。此时,这个array就fail掉了。这种情况,数据其实是可以恢复过来的。

2,FailOver

什么情况下会Failover?其实很多人都不愿意有用到failover的时候,因为只有在某些部件出问题,比如主机的HBA卡,主机和存储间的交换机,网络,存储的其中一个控制器等等出现问题的时候,才会发生failover。这个有点像买保险,都是为了以防万一,但是大家都不希望有用到保险公司的时候,一旦用到了,就说明你有麻烦了。

一般的多路径架构就如左下图,主机两个HBA卡,两个FC/Network Switch,双控,这样中间任何一部件出问题,也不会影响主机访问存储。如下,上图为物理图,下图为逻辑图IBM DS 存储几种常见的问题(1)_第1张图片


IBM DS 存储几种常见的问题(1)_第2张图片

Tips:要定期做消防演练,比如在应用负载较小的时候,把每个主机访问的其中一个lun从一个控制器切换到另一个控制器,然后观察应用有无停顿,如果无法切换过去,就说明中间的某个部件有问题,可以逐个部件排查,如果自己排查不了,就打电话给800吧。

关于Failover Mode,又涉及到ADT/AVT(Automatic Logical drive Transfer),ALUA(Asymmetric Logical Unit Access),有时间会专门写一篇Blog。

3,LED灯

中国古人从“看脸色”,“把脉”等来观察人的身体健康状态,同样,存储系统也可以。从LED可以看出很多问题。不知道LED灯在哪?到https://www-947.ibm.com/account/userservices/jsp/login.jsp?persistPage=true&page=/support/entry/myportal/&PD-REFERER=none&error=去下载《Hardware and Maintenance Guide》,一般都是在《Chapter 4. Operating the storage subsystem》这一章节。

1,Drive LED,这个很简单,一旦琥珀色亮了,就说明盘坏了,要及时更换掉。

2,Controller/ESM 7-Segment Display LED,这个一般显示的是Enclosure ID,默认是“85”,当然你也可以自己修改。如果出现其他数字或字母,则代表控制器可能有问题了。如果是“OS+SD”,说明controller在boot的过程中。置于其他LED的意思,有兴趣可以去相应产品的《Hardware and Maintenance Guide》中去查。

3,Drive channel和Host channel LED,这个不仅能看出Drive channel有无问题,而且可以看出Link speed,例如

IBM DS 存储几种常见的问题(1)_第3张图片

具体的还是去《Hardware and Maintenance Guide》查。

4,Service Attention LED, 如果看到琥珀色亮了,就说明存储系统有问题了,就要打开Storage Manager检查哪里出了问题。

今天就先写到这,还有其他问题以后想到再写。


帮老婆的淘宝店做个广告--

IBM DS 存储几种常见的问题(1)_第4张图片

链接--http://item.taobao.com/item.htm?spm=a1z10.1.w4004-1197388427.20.kuPXWA&id=35649225275