VMware vSphere 5.1 提供了4种SCSI控制器的类型可选:
BUS Logic
LSI logic 并行
LSI logic SAS
Vmware准虚拟(PVSCSI)
在 Guest操作系统安装好后 通常是不能更改SCSI控制器类型的 更改后,操作系统会不能启动。
基于某些原因,在测试环境中 :
ESXI5.1 |Centos 5.9 X86_64| 内核2.6.18-348.el5| LSI 1028/8i SAS控制器 |hadoop|solr|hbase|..
估计在磁盘读写并发大的情况下 几乎所有vhost都出现了
**************************************************************************************************************************************************************
mptscsih: ioc0: attempting task abort! (sc=ffff8104ab981980)
Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:
Nov 21 15:52:01 node1006 kernel: command: Write(10): 2a 00 07 27 79 c8 00 00 08 00
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: WARNING - Issuing Reset from mptscsih_IssueTaskMgmt!! doorbell=0x24000000
Nov 21 15:52:01 node1006 kernel: mptbase: ioc0: Initiating recovery
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff8104ab981980)
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff810527c8b800)
Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:
Nov 21 15:52:01 node1006 kernel: command: Write(10): 2a 00 07 24 4f 38 00 04 00 00
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff810527c8b800)
Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff8103cbd52680)
Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:
。。。。
。。。。
。。。。
***************************************************************************************************************************************************************
应用现象是,solr hadoop Dispatcher 等等应用之间,几乎所有的机器不定时出现了no route 的错误 最初以为是防火墙等原因导致;最终发现,所有设备出现noroute的时间 正好对应应用所在服务器上也出现了上述错误。上述错误出现期间 大概3~4分钟时间 磁盘被锁定,取消了当时所有的读写操作并恢复task。
考虑到所有虚机 都选择的是LSI SAS SCSI控制器,可能是其内核驱动MPTSAS与系统,控制器等等的兼容性问题或其他BUG导致。决定将SCSI控制器更改为LSI Logic 并行。
直接更改SCSI控制器 系统肯定是不能启动的;采用步骤:
###########以下是代码################################# #/bin/bash cp /boot/initrd-2.6.18-348.el5.img ~skybug/initrd-2.6.18-348.el5.gz #复制出启动内核镜像 mkdir ~skybug/initrd cd ~skybug/initrd gzip -dc ../initrd-2.6.18-348.el5.gz |cpio -id #解包; cd lib/ cp /lib/modules/2.6.18-348.el5/kernel/drivers/message/fusion/mptspi.ko ./ 将mptspi模块拷贝过来(LSI Logic 并行SCSI控制器需要的驱动) rm -rf mptsas.ko #删除mptsas模块(LSI logci SAS 控制器需要的驱动) chmod 0600 ./mptspi.ko #授权 cp /lib/modules/2.6.18-348.el5/kernel/drivers/scsi/scsi_transport_spi.ko ./ 复制scsi_transport_spi.ko 模块(modinfo mptspi 可以看到是mptspi的依赖关系) rm -rf scsi_transport_sas.ko #删除依赖mptsas的模块 chmod 0600 scsi_transport_spi.ko #赋权 rm -rf shpchp.ko #删除shpchp模块,为什么?不清楚,保留该驱动以及init加载的话,系统卡到kernel panic 无法启动,删除该驱动后正常启动 原因不详 哪个解释下 cd ../ sed -i "s/mptsas.ko/mptspi.ko/g" init #在init里把mptsas换成mptspi sed -i "s/scsi_transport_sas.ko/scsi_transport_spi.ko/g" init #同上 sed -i "/shpchp.ko/d" ./initrd/init” #删除shpchp模块的加载 cd ../ rm -rf initrd-2.6.18-348.el5.gz cd initrd find ./ -depth | cpio -H newc -o > ../initrd-2.6.18-348.el5.cpio #重新打包启动镜像 cd ../ gzip initrd-2.6.18-348.el5.cpio mv initrd-2.6.18-348.el5.cpio.gz initrd-2.6.18-348.el5.img #替换原启动镜像 chmod 0755 /boot/initrd-2.6.18-348.el5.img cp initrd-2.6.18-348.el5.img /boot chmod 0600 /boot/initrd-2.6.18-348.el5.img sed -i "s/mptsas/mptspi/g" /etc/modprobe.conf #修改modprobe配置 改为加载mptspi模块 poweroff #####################以上是代码###########
关机后 在Vcenter里 将scsi控制器 类型从LSI Logic SAS 修改为 LSI logic 并行 #只能在guest系统关闭的情况下才能修改
然后给虚拟机加电启动。
************************************************************************************************
至于把控制器改为LSI 并行后 是否会继续出现 系统的磁盘不定期锁定的现象 只有待测试一段时间来确定了