smokeping监控设计和网络分析对比
目录:
目录:
6 部署监控内容:
6.1 主机对比
1 功能点:
2 原理:
3 怎样看懂图表:
整体如何看图:
3.1 多主机概览图:
av md: 平均中位数
av ls:平均损失
av sd:平均标准偏差
am/as:平均中位数 和 平均标准差的 比率
线:
根据网络抖动判断:
3.2 细节图:
轴:
看线条颜色曲线:
看烟雾(灰色块):
看数据:
median rtt (中间数)
packetloss (丢包率)
loss color:
probe:20 ICMP Echo Pings every 60s
4 实际分析:
准确性?
怎么利用这个特点:
延时性?
5 注意项:
7 告警配置:
通过smokeping可以查看/监控当前发起端到服务器端的网络健康状况。同时反过来也可以监控服务器到各个端点的网络监控状况。
1,那需要监控就需要哪里部署smokeping。如,【学校网络根据复杂情况需要部署至少一台。】
网络存在波动影响:我们可做的【减少考试时间段其他非考试机器网络使用的影响。】
2,服务器部署:
监控各大ISP网络
服务器当地ISP供应商网络情况
增加考试点的出口网络监控等
可以做横向对比,监控网络波动出现在那个点,还是面;判断是学校出口流量过大/丢包,还是ISP供应商同时出现问题。(第6章 详细描述)
合格网络:
曲线无抖动/偶尔抖动,阴影不明显。
ping值小于50ms还算合格。
概览图直线表示稳定,曲线表示抖动。抖动超过10ms代表网络不稳定。
烟雾
中线颜色根据丢包率变化;丢包率低,不出现过多的蓝,紫,无红色块。
一般丢包:
12次检查中出现了3次丢包的情况,
严重:
rtt 如果连续出现两次50毫秒以上的延时
6 部署监控内容:
部署最新版 smokeping 2.7.3
http://192.168.0.159:8004
部署docker-compose
6.1 主机对比
图6-2
通过网站比较,判断大赛服务器当前网络和主流网站的网络比较,ping质量测试响应速度和丢包率情况。
如下图6-3,大赛232 (11.3ms 平均md响应;0.3%丢包率)服务器相对比 百度,搜狐,腾讯的响应和丢包率都要低(大赛服务器当前无压力,ms毫秒的区别可以忽略)
图6-3
下图6-4,大赛232服务器和对应入口的大赛服务器的几个上海电信节点的网络监控。响应在11.2ms,丢包0.3%在合理范围内。
再对比上下两张图的曲线,曲线的波动也是接近(分别是8点,10点烟雾波动比较大)。说明在8点,10点本地网络出口流量比较大,网络出口相对波动比较大。
1 功能点:
监控 本机房到xxx网络 状态和稳定性,通过图表展示。
每一个绿色的短横线都是一个测试回合300秒内向目标设备发送20个测探测数据包【参考probe项】。绿色画出的是中间数的位置,一个回合中的其它值都在它附近被以灰度的形式被刻画;灰度的范围越小越好,灰色的范围像是烟雾一样笼罩在中间数附近。在中间数附近的烟越小越好,说明网络很平稳。RTT曲线的起伏还显示了网络的负载情况。
1.1 可应用范围:
服务器部署:
监控各大ISP运营商
监控服务器当地网络运营商网络情况
监控远程考试点的网络情况(考试点到服务器)
考试点部署:
考试点发起到服务器的网络情况监控
考试点出口到各大ISP供应商网络状况
2 原理:
smokeping绘制每轮测量的数据包中间值(中线),和通过灰色阴影(烟雾)来展示测试时间段的网络情况。同时用不同的中线颜色区分不同的丢包情况。
通过中线颜色(丢包情况)、和烟雾大小图形化表明网络的健康状况。
对于每轮测量,smokeping发送几个数据包。然后它对不同的往返时间进行排序并选择中值(即中间的)。这意味着当有10个时间值时,选择并绘制值5。其他值在背景中绘制为连续较浅的灰色阴影(烟雾)。
有时会发送测试数据包但不会返回。这称为丢包。中线的颜色根据丢失的数据包的数量而变化。
所有这些信息一起表明了网络健康状况。例如,丢包是不应该发生的事情。这可能意味着链路中间的设备过载或某处的路由器配置错误。
3 怎样看懂图表:
整体如何看图:
3.1 多主机概览图:
图3-1 和图一放大
av md: 平均中位数
average median 可以理解为:ping质量测试的响应速度平均值
av ls:平均损失
average loss可以理解为:ping质量测试的丢包率
av sd:平均标准偏差
在每一轮的多次测量的平均标准偏差
the average standard deviation of the multiple measurements in each round
am/as:平均中位数 和 平均标准差的 比率
the ratio of average median and average standard deviation
线:
直线表示稳定,曲线表示网络抖动。
根据网络抖动判断:
图3-2
像上图3种曲线有明显抖动,抖动范围超过10ms的都属于有网络不稳定。
更详细的可以点击进去查看详细报告看每天是否都是有规律的网络抖动。
3.2 细节图:
图3-3
图3-4
图3-5
轴:
Y轴: 表示ping的时间值
X轴: 表示时间轴
看线条颜色曲线:
横向线条颜色描绘了丢失数据包的数量。图2为拉长按天来看,就可以看到在一些时间段存在不同颜色(丢包)的情况。【图3-1,图3-2 中整体绿色,说明丢包情况良好】
竖向 黑色,绿色 或 蓝色 等 【图3 颜色竖条】线标示的是中间数的值(media rtt);不同颜色代表丢包情况,造成 median rtt 取值的偏差(参考下面 median rtt的解释)。
看烟雾(灰色块):
图3-4 中:阴影部分表示有抖动20个测试数据包里有部分时间值高但不丢包。
浅蓝表示20个数据包里有1个丢包。
线条周围的暗区域显示了各个探测器之间的变化量。灰度范围越小越好,起伏太大说明网络不稳定。【图3-5 网络不稳定】
看数据:
RTT (Round-TripTime)(往返时间):值的剧烈波动也表明网络过载。这在图上显示为烟雾; 烟雾越多,波动越大。
sd:standard deviation of the median中间数的标准偏差
am/s:ratio of average median vs standarddeviation平均中值和标准偏差的比值
计量 数值 时间区间 分析
平均 avg rtt 9.1ms 全图时间7:55 - 10:50 它是每一个测试回合中所有的RTT算术平均值。
最大 max rtt 79.9ms 9:25 - 9:30
最小 min rtt 4.7ms -
sd rtt 16.1ms 全图时间 标准差中位数
am/s rtt 564.7ms 全图时间 平均中位数 和 标准差的 比率
median rtt (中间数)
它是中间数并不是平均值。探针在默认的设置下,每 300 秒向目标设备发送 20 测探测数据包。假如这 20个数据包都返回的话,它就记录下了 20 个 rtt,那么media rtt 就是第十个包的 RTT;如果有5 个包丢失的话,那么media rtt 就是第八个返回的包的 rtt 值。
packetloss (丢包率)
通过ping包进行测试的进行测算。通过loss color进行展示。
loss color:
丢包情况从绿色 安全色 到 红色 警告色。
如果是绿色的短横线,说明一个300秒的周期内所有的包都返回都有RTT的时间记录下来;如果是蓝色的短横线则说明有2个包丢失。
probe:20 ICMP Echo Pings every 60s
我们设置的是每60秒向目标设备发送20个探测数据包
4 实际分析:
准确性?
同时监控下图4个不同的IP【(网址)分布在不同的服务器】,在 2019/08/06 9:20的时间,网络产生了波动。波动曲线接近相同。而这个波动影响源为本地这个时段的网络波动。所以不管smokeping监控那个服务器,从本地这个点发起,到达各个服务器都受到了影响。
结论: smokeping监控网络为点对点的ping数据。会受到当前网络波动影响。
怎么利用这个特点:
点对点的网络数据,而我们考试场景基本为 “学校 - 服务器”点对点。
受到当前网络健康情况影响。我们无法干扰运营商的网络波动,但是本身考试现场可以减少非考试机器的网络使用干扰。
延时性?
记录数据时间和当前时间存在几分钟的延迟。所以通过图表看到的数据为一个趋势。
可以通过设置probe来改变探测包发送频率。
5 注意项:
如果不出现图像,连续不出现绿块,说明smokeping没有和对方建立连接,检查本地网络问题。
7 告警配置:
smokeping告警配置
自定义smokeping告警(邮件+短信)