一次服务器故障

大周末的,接到同事电话,说服务器不通了,服务器在公司机房里,没有远程控制卡,说让我去看一下,接上显示器,发现满屏幕的“sd 0:1:1:0 rejecting I/O to offline device”,无法远程连接服务器,我就按电源重启了。

重启后能正常使用。

把这个报错到网上查了一下说这个sd 0:1:1:0 被踢下线了。

到系统下用cat /proc/scsi/scsi 一看是

Host: scsi0 Channel: 01 Id: 01 Lun: 00
  Vendor: LSILOGIC Model: Logical Volume   Rev: 3000
  Type:   Direct-Access                    ANSI SCSI revision: 02
####是sd 0:1:1:0 是raid

/usr/bin/lsiutil 查看raid也是好的

1 volume is active, 2 physical disks are active

Volume 0 is Bus 0 Target 1, Type IM (Integrated Mirroring)
  Volume Name:                                  
  Volume WWID:  00566177e1862e87
  Volume State:  optimal, enabled
  Volume Settings:  write caching disabled, auto configure
  Volume draws from Hot Spare Pools:  0
  Volume Size 139236 MB, 2 Members
  Primary is PhysDisk 1 (Bus 0 Target 2)
  Secondary is PhysDisk 0 (Bus 0 Target 8)

 

此时看了一下 tail -f /var/log/messages

Jan  5 12:29:00 spider58 kernel:         command: Write(10): 2a 00 04 56 68 97 00 00 10 00
Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=ec999440)
Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832800)
Jan  5 12:29:00 spider58 kernel: sd 0:1:1:0: 
Jan  5 12:29:00 spider58 kernel:         command: Write(10): 2a 00 04 56 69 47 00 00 10 00
Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=f7832800)
Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832d00)

参考http://ilinuxkernel.com/?p=386

说这个报错和“该信息与硬盘是否故障无直接联系”

再看磁盘io

Device:         rrqm/s   wrqm/s   r/s   w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdc              12.04     8.12  7.88  5.94   130.70   111.66    17.54     1.02   74.05   5.06   6.99
sdc1              0.05     0.00  0.01  0.00     0.12     0.00    15.08     0.00    2.70   1.85   0.00
sdc2              0.04     0.00  0.00  0.00     0.08     0.00    61.22     0.00    8.44   8.22   0.00
sdc3              0.12     2.33  0.10  1.38     4.45    29.68    22.97     0.27  179.59  18.91   2.81
sdc4              0.00     0.00  0.00  0.00     0.00     0.00     3.50     0.00   14.25  14.25   0.00
sdc5              8.74     0.17  0.66  0.08    24.09     1.55    34.38     0.05   65.53   7.46   0.56
sdc6              1.50     0.82  0.28  0.56     6.60    10.77    20.70     0.15  179.76  23.79   2.00
sdc7              0.45     1.08  0.27  1.21     3.32    18.19    14.50     0.09   59.13  15.11   2.24
sdc8              1.13     3.72  6.54  2.71    92.02    51.47    15.51     0.47   50.67   5.97   5.52

 

根据上面的情况也没看出问题在哪? 还得请大牛们指点指点

 

参考:

Linux内核I/O系统报错日志与硬盘故障对应关系 http://ilinuxkernel.com/?p=386

linux IO 调度算法 http://blog.csdn.net/theorytree/article/details/6259104

iostat 分析http://www.php-oa.com/2009/02/03/iostat.html

 

你可能感兴趣的:(iostat,offline,device,io调度算法)