服务器网络故障处理——常见链路异常场景和测试报告

服务器网络故障处理——常见链路异常场景和测试报告

前言

常见的链路异常场景及测试报告实例如下所示:

目标主机网络配置不当
ICMP 限速
环路
链路中断

目标主机网络配置不当

示例数据:

@mycentos6 ~]# mtr --no-dns www.google.com
My traceroute  [v0.75]
mycentos6.6 (0.0.0.0)                                             Wed Jun 15 19:06:29 2016
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                                  Packets               Pings
 Host                                           Loss%   Snt   Last   Avg  Best  Wrst StDev
 1. ???
 2. ???
 3. 111.1.20.41                                  0.0%     10  521.3  90.1   2.7 521.3 211.3
 4. 111.1.34.209                                 0.0%     10    2.9   4.7   1.6  10.6   3.9
 5. 211.138.126.29                              80.0%     10    3.0   3.0   3.0   3.0   0.0
 6. 221.183.14.85                                0.0%     10    1.7   7.2   1.6  34.9  13.6
 7. 221.183.10.5                                 0.0%     10    5.2   5.2   5.1   5.2   0.0
    221.183.11.5
 8. 221.183.23.26                                0.0%     10    5.3   5.2   5.1   5.3   0.1
 9. 173.194.200.105                            100.0%     10    0.0   0.0   0.0   0.0   0.0

在该示例中,数据包在目标地址出现了 100% 的丢包。乍一看是数据包没有到达,其实很有可能是目标服务器相关安全策略(比如防火墙、iptables 等)禁用了 ICMP 所致,导致目的主机无法发送任何应答。

所以,该场景需要排查目标服务器的安全策略配置。

ICMP 限速

示例数据:

[root@mycentos6 ~]# mtr --no-dns www.google.com

My traceroute  [v0.75]
mycentos6.6 (0.0.0.0)                                             Wed Jun 15 19:06:29 2016
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                                  Packets               Pings
 Host                           Loss%   Snt   Last   Avg  Best  Wrst StDev
1. 63.247.74.43                  0.0%    10    0.3   0.6   0.3   1.2   0.3
2. 63.247.64.157                 0.0%    10    0.4   1.0   0.4   6.1   1.8
3. 209.51.130.213                0.0%    10    0.8   2.7   0.8  19.0   5.7
4. aix.pr1.atl.google.com        0.0%    10    6.7   6.8   6.7   6.9   0.1
5. 72.14.233.56                 60.0%    10   27.2  25.3  23.1  26.4   2.9
6. 209.85.254.247                0.0%    10   39.1  39.4  39.1  39.7   0.2
7. 64.233.174.46                 0.0%    10   39.6  40.4  39.4  46.9   2.3
8. gw-in-f147.1e100.net          0.0%    10   39.6  40.5  39.5  46.7   2.2

在该示例中,在第 5 跳出现了明显的丢包,但后续节点均未见异常。所以推断是该节点 ICMP 限速所致。

该场景对最终客户端到目标服务器的数据传输不会有影响,所以,分析的时候可以忽略。

环路

示例数据:

[root@mycentos6 ~]# mtr --no-dns www.google.com

My traceroute  [v0.75]
mycentos6.6 (0.0.0.0)                                             Wed Jun 15 19:06:29 2016
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                                  Packets               Pings
 Host                           Loss%   Snt   Last   Avg  Best  Wrst StDev
1. 63.247.74.43                  0.0%    10    0.3   0.6   0.3   1.2   0.3
2. 63.247.64.157                 0.0%    10    0.4   1.0   0.4   6.1   1.8
3. 209.51.130.213                0.0%    10    0.8   2.7   0.8  19.0   5.7
4. aix.pr1.atl.google.com        0.0%    10    6.7   6.8   6.7   6.9   0.1
5. 72.14.233.56                  0.0%    10    0.0   0.0   0.0   0.0   0.0
6. 72.14.233.57                  0.0%    10    0.0   0.0   0.0   0.0   0.0
7. 72.14.233.56                  0.0%    10    0.0   0.0   0.0   0.0   0.0
8. 72.14.233.57                  0.0%    10    0.0   0.0   0.0   0.0   0.0
9 ???                            0.0%    10    0.0   0.0   0.0   0.0   0.0

在该示例中,数据包在第 5 跳之后出现了循环跳转,导致最终无法到达目标服务器。这通常是由于运营商相关节点路由配置异常所致。

所以,该场景需要联系相应节点归属运营商处理。

链路中断

示例数据:

@mycentos6 ~]# mtr --no-dns www.google.com

My traceroute  [v0.75]
mycentos6.6 (0.0.0.0)                                             Wed Jun 15 19:06:29 2016
Keys:  Help   Display mode   Restart statistics   Order of fields   quit
                                                  Packets               Pings
 Host                           Loss%   Snt   Last   Avg  Best  Wrst StDev
1. 63.247.74.43                  0.0%    10    0.3   0.6   0.3   1.2   0.3
2. 63.247.64.157                 0.0%    10    0.4   1.0   0.4   6.1   1.8
3. 209.51.130.213                0.0%    10    0.8   2.7   0.8  19.0   5.7
4. aix.pr1.atl.google.com        0.0%    10    6.7   6.8   6.7   6.9   0.1
5. ???                           0.0%    10    0.0   0.0   0.0   0.0   0.0
6. ???                           0.0%    10    0.0   0.0   0.0   0.0   0.0
7. ???                           0.0%    10    0.0   0.0   0.0   0.0   0.0
8. ???                           0.0%    10    0.0   0.0   0.0   0.0   0.0
9 ???                            0.0%    10    0.0   0.0   0.0   0.0   0.0

在该示例中,数据包在第 4 跳之后就无法收到任何反馈。这通常是由于相应节点中断所致。建议结合反向链路测试做进一步确认。

该场景需要联系相应节点归属运营商处理。

链路测试步骤

通常情况下,链路测试流程如下链路测试流程图所示:

服务器网络故障处理——常见链路异常场景和测试报告_第1张图片

相关步骤详细说明如下:

获取本地网络对应公网 IP
正向链路测试(ping 和 mtr)
反向链路测试(ping 和 mtr)
测试结果分析

获取本地网络对应公网 IP

在客户端本地网络访问 ip.taobao.com 等网站,如下图,获取本地网络对应的公网 IP。

服务器网络故障处理——常见链路异常场景和测试报告_第2张图片

正向链路测试(ping 和 mtr)

从客户端向目标服务器做 ping 和 mtr 链路测试:

从客户端向目标服务器域名或 IP 做持续的 ping 测试(建议至少 ping 100 个数据包),记录测试结果。
根据客户端操作系统环境的不同,使用 WinMTR 或 mtr,设置测试目的地址为目标服务器域名或IP,然后进行链路测试,记录测试结果。

反向链路测试(ping 和 mtr)

进入目标服务器系统内部,做反向 ping 和 mtr 链路测试

  • 从目标服务器向前述步骤 1 获取的客户端 IP做持续的 ping 测试(建议至少 ping 100 个数据包),记录测试结果。
  • 根据目标服务器操作系统环境的不同,使用 WinMTR 或 mtr,设置测试目的地址为前述步骤 1 获取的客户端 IP,然后进行链路测试,记录测试结果。

测试结果分析

参阅前述说明,对测试结果进行分析。确认异常节点后,访问相关网站查询、获取相应节点归属运营商及网络。

如果是客户端本地网络相关节点出现异常,则需要对本地网络进行相应排查分析。如果是运营商相关节点出现异常,则需要直接或联系阿里云售后技术支持向相应运营商反馈问题。

你可能感兴趣的:(云计算,运维)