网络性能监控指标

网络性能监控(Network Performance Monitoring NPM)是指用户体验到的测量,诊断和优化网络服务质量的过程。NPM是应用程序性能管理(Application Performance Management APM)的补充。

网络性能监控解决了网络在最终用户体验中的作用。这包括以下指标:

  • Latency 延迟 - 获取数据包响应所需的时间。这是双向测量的。测量的一个方向是查看本地主机(如应用程序或负载平衡服务器(如HAProxy或NGINX))何时将数据包发送到远程主机并计算获取响应所需的时间。另一个方向是查看从远程主机收到数据包的时间,并测量应用程序(服务器)发送响应所需的时间。
  • 无序数据包的数量和百分比 - 这是一个重要的衡量标准,因为TCP不能将数据传递给应用程序,直到字节顺序正确。少量无序数据包通常不会对事物造成太大影响,但是当它们变得太高时,它们将影响应用程序性能。
  • TCP重传 - 当网络路径的一部分过载或出现性能问题时,它可能会丢弃数据包。TCP通过使用ACK来确认已接收到数据,从而确保数据的传送。如果发送方没有从接收方获得及时的ACK,它将重新发送具有未确认的TCP段的数据包。当TCP重新传输超过非常低的单个数字百分比级别时,应用程序性能开始下降。

NPM解决方案传统上使用设备部署模型。该设备具有一个或多个接口的PCAP探针,连接到路由器或交换机跨接端口或中间数据包代理设备(例如Gigamon或Ixia提供的设备)。设备将通过span端口传输的所有数据包记录到内存中,然后记录到长期存储中。在虚拟化数据中心中,可以使用虚拟探测器,但它们也依赖于一种或另一种形式的网络链路。

从硬件和软件许可的角度来看,物理和虚拟设备的成本很高。因此,在大多数情况下,将PCAP探针部署到网络中的几个选定点仅在财务允许的情况下是可行的。此外,设备部署模型是基于拥有相对单一应用程序实例的集中式数据中心的假设下而开发的。随着云和分布式应用程序模型的激增,数据包捕获的设备模型不太可行,因为在许多云托管环境中,甚至无法部署虚拟设备。

用于网络性能监控的高度可扩展的SaaS模型将监控功能与存储和分析功能分开。通过部署轻量级监视软件代理来完成监视,这些代理可以导出在服务器和开源代理服务器(如HAProxy和NGNIX)上收集的基于PCAP的统计信息。导出的统计信息将发送到SaaS存储库,该存储库可以水平扩展以存储未汇总的数据,并为警报,诊断和其他用例提供基于大数据的分析。虽然基于主机的性能指标导出不能提供原始PCAP的完整粒度,但它提供了一种高度可扩展且经济高效的方法,可以无处不在地收集,保留和分析关键性能数据,从而补充PCAP。

你可能感兴趣的:(运维,分布式系统监控)