一天,一个朋友跟我说他们的网站访问速度变得极慢基本打不开,他也找不到问题于是来找我帮忙。
刚好我也没什么事,就用他给我的密码远程登录了他们的服务器。刚进入的时候就感觉很卡,操作起来很慢,我当时以为是他们服务器的负载太高才导致这样或者我们公司的网络本来就不好。登录进去后用常用的几个命令检查了下
uptime
18:08:02 up 5 days, 17:59, 2 users, load average: 3.00, 3.35, 2.68
sar 1 5
Linux 2.6.18-128.el5 (web) 2010年03月20日
18时09分48秒 CPU %user %nice %system %iowait %steal %idle
18时09分49秒 all 7.50 0.00 1.25 21.00 0.00 70.25
18时09分50秒 all 10.00 0.00 1.25 31.75 0.00 57.00
18时09分51秒 all 11.22 0.00 1.00 13.47 0.00 74.31
18时09分52秒 all 5.50 0.00 1.00 18.75 0.00 74.75
18时09分53秒 all 11.50 0.00 1.00 17.75 0.00 69.75
Average: all 9.15 0.00 1.10 20.54 0.00 69.22
iostat -x 1 5
Linux 2.6.18-128.el5 (web) 2010年03月20日
avg-cpu: %user %nice %system %iowait %steal %idle
2.60 0.02 0.94 11.18 0.00 85.26
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 44.98 262.94 42.27 79.17 3080.00 5621.09 71.65 6.22 51.24 3.42 41.57
sda1 0.00 0.00 0.00 0.00 0.00 0.00 17.49 0.00 8.10 4.92 0.00
sda2 3.36 214.84 20.70 61.64 2515.97 5095.23 92.43 1.91 23.24 4.45 36.67
sda3 41.49 36.77 21.11 17.20 500.79 432.63 24.36 4.28 111.79 4.95 18.96
sda4 0.00 0.00 0.00 0.00 0.00 0.00 2.00 0.00 3.60 3.60 0.00
sda5 0.04 0.22 0.25 0.21 18.02 3.46 46.19 0.01 25.76 12.15 0.56
sda6 0.10 11.10 0.20 0.12 45.22 89.77 427.25 0.01 43.77 6.91 0.22
vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 0 546844 627104 21656 1879204 63 54 385 703 8 8 3 1 85 11 0
0 1 546844 626856 21656 1879304 20 0 124 228 1426 1395 1 1 96 3 0
0 0 546844 626848 21664 1879292 4 0 24 68 1454 1461 1 1 97 2 0
0 0 546844 626600 21680 1879496 4 0 136 280 1403 1309 1 0 95 3 0
0 0 546844 626476 21688 1879468 20 0 112 228 1465 1386 1 1 96 2 0
sar -n DEV 1 5
Linux 2.6.18-128.el5 (babeltimeMysql3) 2010年03月25日
19时10分21秒 IFACE rxpck/s txpck/s rxbyt/s txbyt/s rxcmp/s txcmp/s rxmcst/s
19时10分22秒 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分22秒 eth0 449.50 632.67 103700.00 648439.60 0.00 0.00 0.00
19时10分22秒 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分22秒 sit0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分22秒 IFACE rxpck/s txpck/s rxbyt/s txbyt/s rxcmp/s txcmp/s rxmcst/s
19时10分23秒 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分23秒 eth0 512.00 563.00 94441.00 563203.00 0.00 0.00 0.00
19时10分23秒 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分23秒 sit0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分23秒 IFACE rxpck/s txpck/s rxbyt/s txbyt/s rxcmp/s txcmp/s rxmcst/s
19时10分24秒 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分24秒 eth0 426.00 495.00 90839.00 438853.00 0.00 0.00 0.00
19时10分24秒 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00
19时10分24秒 sit0 0.00 0.00 0.00 0.00 0.00 0.00 0.00
说实话,我看完这些我也一时找不出哪里有问题,而且据他说他们这个是一个普通网站 就是平时发布点消息 也没什么访问量。可就今天不知道为什么变得特别的慢。我跟他说我也找不到具体哪里问题,
I/O不高,CPU很闲,负载也不是很大,网络流量也不高...我又查了半天也没找到具体什么原因.我突然想起来是不是他们本地网络不行啊!
我又问他是不是因为他们那里网络不好造成的,结果他说这个服务器放在
网通的三线机房里,网络不会出问题的,我一想,也是啊,机房网络出问题的几率很低...不过也不能保证100%,于是我就尝试着从他们的服务器上ping 了一下新浪结果...
ping www.sina.com.cn
PING jupiter.sina.com.cn (202.108.33.32) 56(84) bytes of data.
64 bytes from 202.108.33.32: icmp_seq=1 ttl=244 time=399 ms
64 bytes from 202.108.33.32: icmp_seq=2 ttl=244 time=388 ms
64 bytes from 202.108.33.32: icmp_seq=3 ttl=244 time=388 ms
64 bytes from 202.108.33.32: icmp_seq=4 ttl=244 time=383 ms
64 bytes from 202.108.33.32: icmp_seq=5 ttl=244 time=378 ms
64 bytes from 202.108.33.32: icmp_seq=6 ttl=244 time=370 ms
64 bytes from 202.108.33.32: icmp_seq=7 ttl=244 time=374 ms
64 bytes from 202.108.33.32: icmp_seq=8 ttl=244 time=371 ms
64 bytes from 202.108.33.32: icmp_seq=9 ttl=244 time=357 ms
我直接把结果告诉他,结果他也很吃惊 说他们可是申请了10Mb的独享啊!怎么会这个效果,我说不一定是带宽的问题,也许是中间那台路由坏掉了。于是我在本地的电脑上测试了一下
Tracing route to 202.x.x.x over a maximum of 30 hops
1 42 ms 48 ms 40 ms 222.10.18.1
2 38 ms 39 ms 39 ms 222.13.128.1
3 27 ms 29 ms 28 ms 125.3.70.25
4 28 ms 29 ms 27 ms 61.18.152.53
5 29 ms 28 ms 28 ms b-28-069.bt.net.cn [202.6.22.9]
6 29 ms 28 ms 37 ms 61.148.157.23
7 27 ms 31 ms 28 ms 61.148.15.14
8 2631 ms 2095 ms 2202 ms 202.96.3.146
9 2281 ms 2246 ms 2547 ms 211.10.125.38
10 2889 ms 2872 ms 2882 ms 211.15.18.18
果然,
202.96.3.146这个路由有问题,我让他马上联系机房看看到底怎么回事。他过了一会儿打过来了,告诉我问题找到了,机房去找上面的网通骨干网xxx机构查了,说那台路由被攻击,所以才会这么慢。现在问题解决了。
我有点奇怪,难道那些做主机托管的机房没有网络监测的措施吗?客户这边出问题了打电话以后才去查!!!没做过IDC 不知道他们是怎样来对服务进行监控的。
通过这件事情,提示我有时候问题是在找不到原因的时候不妨换个思路,也许会有很大的收获 O(∩_∩)O~