升级内核IO使用率达到瓶颈

           前两周为了让系统支持cgroup,将内核从2.6.27.54升级到2.6.32.41,升级后观察发现sca01号机器,ssh登录缓慢有延迟,通过iostat查看%util一直处于%100状态,磁盘达到瓶颈,询问相关工作人员,系统在之前的使用中没有这种情况,跑着同样应用的sca02号机器升级内核后没有出现io过高的情况,怀疑跟升级内核有关系,将内核回退到2.6.27.54观察发现IO确实不高了,于是开始查找问题原因。

          (1)首先在2.6.32.41内核上将加载ext3分区时,增加选项barrier=0,重启后观察,io还是处于100%状态

          (2)尝试通过命令修改raid卡的cache策略,查看两台机器的raid卡不同,

SCA1的卡:
     01:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic      Unknown device 0072 (rev 03)
         Kernel driver in use: mpt2sas
         Kernel modules: mpt2sas

SCA2的卡:
     02:00.0 RAID bus controller: LSI Logic / Symbios Logic Unknown      device 0073 (rev 03)
         Kernel driver in use: megaraid_sas
         Kernel modules: megaraid_sas

         通过命令mggacli  -LDGetProp  -Cache -Lall  -aALL查看raid卡当前策略,在sca01号机器上没有信息输出,在sca02号机器上可以获取到当前raid卡策略,通过命令修改raid卡策略megacli -LDSetProp WB -Lall -aAll失败,尝试更换各种参数,最终都没能将sca02号机器的raid卡策略修改,怀疑RAID卡没有内置cache(RAM),因此不能修改

          (3)sca01号机器的raid驱动为mpt2sas,两个内核版本使用的驱动版本不同,

2.6.27.54  
version:        05.00.00.00
    

2.6.32.41

version:        02.100.03.00

          尝试在2.6.31.41内核版本上将mpt2sas驱动更换为5版本,发现io高的现象还是存在

         (4)尝试更换redhat,debian内核观察现象,也都存在io高的现象

         (5)分别在sca01和sca02机器上dd一个1G文件,观察iostat信息,

sca1:(27内核)
Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz
avgqu-sz   await  svctm  %util
sda               0.00   106.00    0.00  232.00     0.00    69.11   610.10  
134.57  327.50   4.33 100.40

sca2: (32内核)
Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz
avgqu-sz   await  svctm  %util
sda               0.00   443.00    1.00  793.00     0.00    79.23   204.36  
151.35  125.93   1.26 100.00

            发现iops不同,sca01号机器持续在300w/s左右,sca02号机器可以达到1000w/s

    2.6.32.41内核比2.6.27.54内核的IO频率高,且写不连续。同等环境下,32内核比27内核请求的数量就多很多,
而硬盘的IOPS是固定的,因而在sca1上32内核IO就显得高,而27内核就低。而sca2的IOPS比sca1的IOPS大很多,sca2
能更快处理IO请求,因而IO负载就低。看w/s,表示每秒的写请求

 (6)后续方向:
     1,提高硬盘的IOPS,调整RAID参数和驱动是否有参数,RAID参数需要进入BIOS中查找,驱动则可在系统层面进行。
     2,降低系统的IO请求数量,从内核层面进行,准备时间较长。





       

你可能感兴趣的:(升级内核,io瓶颈)