一次udp包错误的分析经历

前一段学了个命令netstat -su,拿着没事乱看服务器udp包的统计数据,发现某几台server的udp包错误率相当高,于是开始了这次分析之旅.

一般的netstat -su显示出来的* packets receive error,都是因为某个程序无法或无力完全处理udp包,导致系统udp buffer满了,然后内核开始丢弃数据包. 当然也有可能是系统的buffer size设的过小.可以用sysctl -a | grep mem查看一下系统的buffer size先.

确认不是系统配置问题以后,开始乱找程序原因.用tcpdump -i eth0 udp和tcpdump -i eth1 udp抓抓包,没啥发现,没经验啊.去网上转了一大-----大圈,最后用netstat -ulnp发现竟然是syslogd阻塞了.好大的不处理的RECV-Q.tcpdump -i lo udp.刷屏了.找着元凶:haproxy.神奇的是,haproxy往syslog传的包,明明走的127.0.0.1,系统syslog都不接受处理.在/etc/sysconfig/syslog的启动参数里加上-r以后可处理包.最后在haproxy的配置文件里配置上log level.搞定.

 

你可能感兴趣的:(UDP)