linux下网络丢包问题处理--overruns不断增加

最近业务上老有问题,查看发现overruns值不断增加,学习了一下相关的知识。

发现数值也在不停的增加。G 了一下,发现这些 errors, dropped, overruns 表示的含义还不大一样。
eth2      Link encap:Ethernet  HWaddr 00:8C:FA:F1:DA:78  
          inet addr:10.249.2.112  Bcast:10.249.2.255  Mask:255.255.255.0
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:26191508237 errors:0 dropped:0 overruns:45732243 frame:0
          TX packets:20141298524 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000 
          RX bytes:4684832167216 (4.2 TiB)  TX bytes:4670328443919 (4.2 TiB)
          Memory:c7200000-c7280000 
RX errors: 表示总的收包的错误数量,这包括 too-long-frames 错误,Ring Buffer 溢出错误,crc 校验错误,帧同步错误,fifo overruns 以及 missed pkg 等等。
RX dropped: 表示数据包已经进入了 Ring Buffer,但是由于内存不够等系统原因,导致在拷贝到内存的过程中被丢弃。
RX overruns: 表示了 fifo 的 overruns,这是由于 Ring Buffer(aka Driver Queue) 传输的 IO 大于 kernel 能够处理的 IO 导致的,而 Ring Buffer 则是指在发起 IRQ 请求之前的那块 buffer。很明显,overruns 的增大意味着数据包没到 Ring Buffer 就被网卡物理层给丢弃了,而 CPU 无法即使的处理中断是造成 Ring Buffer 满的原因之一,上面那台有问题的机器就是因为 interruprs 分布的不均匀(都压在 core0),没有做 affinity 而造成的丢包。
RX frame: 表示 misaligned 的 frames。

1、先查看硬件情况
一台机器经常收到丢包的报警,先看看最底层的有没有问题:
# ethtool  eth2 | egrep 'Speed|Duplex'
        Speed: 1000Mb/s
        Duplex: Full

# ethtool  -S eth2 | grep crc
     rx_crc_errors: 0
Speed, Duplex, CRC 之类的都没问题,基本可以排除物理层面的干扰。
 
2、通过 ifconfig 可以看到 overruns 字段在不停的增大:
for i in `seq 1 100`; do ifconfig eth2 | grep RX | grep overruns; sleep 1; done
这里一直增加
RX packets:26191785302 errors:0 dropped:0 overruns:45732243 frame:0

3、查看buffer大小
找了一些国外的文章,可以通过ethtool来修改网卡的buffer size ,首先要网卡支持,我的服务器是是INTEL 的1000M网卡,我们看看ethtool说明 
-g   –show-ringQueries the specified ethernet device for rx/tx ring parameter information.
-G   –set-ringChanges the rx/tx ring parameters of the specified ethernet device.

查看当前网卡的buffer size情况ethtool -g eth0   
Ring parameters for eth0:
Pre-set maximums:
RX: 4096RX Mini: 0
RX Jumbo: 0
TX: 4096
Current hardware settings:
RX: 256
RX Mini: 0
RX Jumbo: 0
TX: 256

4、修改buffer size大小
ethtool -G eth2 rx 2048
ethtool -G eth2 tx 2048

查看丢包
[root@appserver1 network-scripts]# cat /proc/net/dev | column  -t
Inter-|             Receive      |        Transmit
face                |bytes       packets  errs      drop      fifo  frame  compressed  multicast|bytes  packets      errs  drop  fifo  colls  carrier  compressed
lo:1697064305645    4937104295   0        0         0         0     0      0           1697064305645    4937104295   0     0     0     0      0        0
eth0:72829268758    343814516    0        21338     0         0     0      9764241     74743576507      418943369    0     0     0     0      0        0
eth1:5826509023     48719872     0        0         0         0     0      11358883    127451707        1107964      0     0     0     0      0        0
eth2:4684766978372  26191366713  0        0         45732243  0     0      278436828   4670300836866    20141168183  0     0     0     0      0        0
eth3:               0            0        0         0         0     0      0           0                0            0     0     0     0      0        0           0
bond0:              0            0        0         0         0     0      0           0                0            0     0     0     0      0        0           0
[root@appserver1 network-scripts]# netstat -i | column  -t
Kernel  Interface  table
Iface   MTU        Met    RX-OK        RX-ERR  RX-DRP  RX-OVR    TX-OK        TX-ERR  TX-DRP  TX-OVR  Flg
eth2    1500       0      26191244868  0       0       45732243  20141056331  0       0       0       BMRU
lo      16436      0      4937053994   0       0       0         4937053994   0       0       0       LRU


问题:接受队列溢出产生错误,当抵达的包多于内核可以处理的包时,计算机会产生漫溢(overruns)。输入队列达到其上限(max_backlog)时,多抵达的那些包会全部被丢弃掉。

你可能感兴趣的:(linux)