一天,一个朋友跟我说他们的网站访问速度变得极慢基本打不开,他也找不到问题于是来找我帮忙。
   刚好我也没什么事,就用他给我的密码远程登录了他们的服务器。刚进入的时候就感觉很卡,操作起来很慢,我当时以为是他们服务器的负载太高才导致这样或者我们公司的网络本来就不好。登录进去后用常用的几个命令检查了下

uptime
 18:08:02 up 5 days, 17:59,  2 users,  load average: 3.00, 3.35, 2.68

sar 1 5
Linux 2.6.18-128.el5 (web)     2010年03月20日

18时09分48秒       CPU     %user     %nice   %system   %iowait    %steal     %idle
18时09分49秒       all      7.50      0.00      1.25     21.00      0.00     70.25
18时09分50秒       all     10.00      0.00      1.25     31.75      0.00     57.00
18时09分51秒       all     11.22      0.00      1.00     13.47      0.00     74.31
18时09分52秒       all      5.50      0.00      1.00     18.75      0.00     74.75
18时09分53秒       all     11.50      0.00      1.00     17.75      0.00     69.75
Average:          all      9.15      0.00      1.10     20.54      0.00     69.22

iostat -x 1 5
Linux 2.6.18-128.el5 (web)     2010年03月20日

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           2.60    0.02    0.94   11.18    0.00   85.26

Device:         rrqm/s   wrqm/s   r/s   w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sda              44.98   262.94 42.27 79.17  3080.00  5621.09    71.65     6.22   51.24   3.42  41.57
sda1              0.00     0.00  0.00  0.00     0.00     0.00    17.49     0.00    8.10   4.92   0.00
sda2              3.36   214.84 20.70 61.64  2515.97  5095.23    92.43     1.91   23.24   4.45  36.67
sda3             41.49    36.77 21.11 17.20   500.79   432.63    24.36     4.28  111.79   4.95  18.96
sda4              0.00     0.00  0.00  0.00     0.00     0.00     2.00     0.00    3.60   3.60   0.00
sda5              0.04     0.22  0.25  0.21    18.02     3.46    46.19     0.01   25.76  12.15   0.56
sda6              0.10    11.10  0.20  0.12    45.22    89.77   427.25     0.01   43.77   6.91   0.22

vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 0  0 546844 627104  21656 1879204   63   54   385   703    8    8  3  1 85 11  0
 0  1 546844 626856  21656 1879304   20    0   124   228 1426 1395  1  1 96  3  0
 0  0 546844 626848  21664 1879292    4    0    24    68 1454 1461  1  1 97  2  0
 0  0 546844 626600  21680 1879496    4    0   136   280 1403 1309  1  0 95  3  0
 0  0 546844 626476  21688 1879468   20    0   112   228 1465 1386  1  1 96  2  0

sar -n DEV  1 5
Linux 2.6.18-128.el5 (babeltimeMysql3)     2010年03月25日

19时10分21秒     IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/s  rxmcst/s
19时10分22秒        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
19时10分22秒      eth0    449.50    632.67 103700.00 648439.60      0.00      0.00      0.00
19时10分22秒      eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00
19时10分22秒      sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

19时10分22秒     IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/s  rxmcst/s
19时10分23秒        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
19时10分23秒      eth0    512.00    563.00  94441.00 563203.00      0.00      0.00      0.00
19时10分23秒      eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00
19时10分23秒      sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

19时10分23秒     IFACE   rxpck/s   txpck/s   rxbyt/s   txbyt/s   rxcmp/s   txcmp/s  rxmcst/s
19时10分24秒        lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00
19时10分24秒      eth0    426.00    495.00  90839.00 438853.00      0.00      0.00      0.00
19时10分24秒      eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00
19时10分24秒      sit0      0.00      0.00      0.00      0.00      0.00      0.00      0.00

   说实话,我看完这些我也一时找不出哪里有问题,而且据他说他们这个是一个普通网站 就是平时发布点消息 也没什么访问量。可就今天不知道为什么变得特别的慢。我跟他说我也找不到具体哪里问题, I/O不高,CPU很闲,负载也不是很大,网络流量也不高...我又查了半天也没找到具体什么原因.我突然想起来是不是他们本地网络不行啊!
   我又问他是不是因为他们那里网络不好造成的,结果他说这个服务器放在 网通的三线机房里,网络不会出问题的,我一想,也是啊,机房网络出问题的几率很低...不过也不能保证100%,于是我就尝试着从他们的服务器上ping 了一下新浪结果...
             ping www.sina.com.cn
PING jupiter.sina.com.cn (202.108.33.32) 56(84) bytes of data.
64 bytes from 202.108.33.32: icmp_seq=1 ttl=244 time=399 ms
64 bytes from 202.108.33.32: icmp_seq=2 ttl=244 time=388 ms
64 bytes from 202.108.33.32: icmp_seq=3 ttl=244 time=388 ms
64 bytes from 202.108.33.32: icmp_seq=4 ttl=244 time=383 ms
64 bytes from 202.108.33.32: icmp_seq=5 ttl=244 time=378 ms
64 bytes from 202.108.33.32: icmp_seq=6 ttl=244 time=370 ms
64 bytes from 202.108.33.32: icmp_seq=7 ttl=244 time=374 ms
64 bytes from 202.108.33.32: icmp_seq=8 ttl=244 time=371 ms
             64 bytes from 202.108.33.32: icmp_seq=9 ttl=244 time=357 ms
我直接把结果告诉他,结果他也很吃惊 说他们可是申请了10Mb的独享啊!怎么会这个效果,我说不一定是带宽的问题,也许是中间那台路由坏掉了。于是我在本地的电脑上测试了一下
Tracing route to 202.x.x.x over a maximum of 30 hops
 
  1    42 ms    48 ms    40 ms  222.10.18.1
  2    38 ms    39 ms    39 ms  222.13.128.1
  3    27 ms    29 ms    28 ms  125.3.70.25
  4    28 ms    29 ms    27 ms  61.18.152.53
  5    29 ms    28 ms    28 ms  b-28-069.bt.net.cn [202.6.22.9]
  6    29 ms    28 ms    37 ms  61.148.157.23
  7    27 ms    31 ms    28 ms  61.148.15.14
  8  2631 ms  2095 ms  2202 ms  202.96.3.146
  9  2281 ms  2246 ms  2547 ms  211.10.125.38
 10  2889 ms  2872 ms  2882 ms  211.15.18.18
    果然, 202.96.3.146这个路由有问题,我让他马上联系机房看看到底怎么回事。他过了一会儿打过来了,告诉我问题找到了,机房去找上面的网通骨干网xxx机构查了,说那台路由被***,所以才会这么慢。现在问题解决了。
    我有点奇怪,难道那些做主机托管的机房没有网络监测的措施吗?客户这边出问题了打电话以后才去查!!!没做过IDC 不知道他们是怎样来对服务进行监控的。
    通过这件事情,提示我有时候问题是在找不到原因的时候不妨换个思路,也许会有很大的收获 O(∩_∩)O~