这是有关监视数据可视化的系列文章中的第二篇。这篇文章着重于摘要图。

在本系列的第一部分中,我们讨论了时间序列图-显示基础结构指标随时间变化的可视化效果。在本文中,我们将介绍摘要图,这些摘要图是将特定时间段展平以提供基础架构摘要窗口的可视化效果:

  • 单值汇总
  • 排行榜
  • 变更图表
  • 主机地图
  • 发行版

对于每种图形类型,我们将说明其工作方式和使用时间。但是首先,我们将快速讨论理解基础结构摘要图所必需的两个概念:跨时间聚合(您可以将其视为“时间变平”或“快照”)和跨空间聚合。

跨时间汇总

为了提供指标的摘要视图,可视化必须通过将时间维度压缩到视线范围之外,将时间序列展平为单个值。这种跨时间的聚合可能意味着仅显示度量查询返回的最新值,或者更复杂的聚合以在移动时间窗口内返回计算值。

例如,您可能不希望显示度量标准查询的最新报告值,而是希望显示每个主机在过去60分钟内报告的最大值,以解决有问题的峰值:

[指标图101:摘要图_第1张图片

跨空间聚合

并非所有指标查询都有意义,可以按主机,容器或其他基础结构单元划分。因此,您通常需要跨空间进行一些聚合,以创建可合理反映您的基础结构的度量可视化。这种聚合可以采用多种形式:通过消息队列,数据库表,应用程序或主机本身的某些属性(操作系统,可用性区域,硬件配置文件等)来聚合度量。

跨空间的聚合使您可以对基础架构进行切片和分割,以准确地隔离可观察关键系统的指标。

与上面的示例中列出的主机级别的Redis峰值延迟相比,查看基于Redis构建的每个内部服务的峰值延迟可能更有用。或者,您只能显示基础结构中任何主机报告的最大值:

![Redis延迟图]跨空间聚合:按服务名称对主机进行分组(顶部)或将主机列表压缩为单个值(底部)

时间序列图中的跨空间聚合也很有用。例如,很难理解Web请求的主机级图表,但是当按可用性区域汇总指标时,可以轻松解释相同的数据:

![Redis延迟图]从未聚合的(折线图,顶部)到跨空间的聚合(堆叠的面积图,底部)

标记指标的主要原因是启用跨空间聚合。

单值汇总

单值摘要使用条件格式(例如绿色/黄色/红色背景)显示给定度量查询的当前值,以传达该值是否在预期范围内。单值摘要显示的值不必表示瞬时测量。窗口小部件可以显示报告的最新值,或者显示在整个时间窗口内根据所有查询值计算得出的汇总值。这些可视化为您的基础架构提供了一个狭窄但明确的窗口。

[指标图101:摘要图_第2张图片

何时使用单值摘要

什么 为什么
给定系统的工作指标 使关键指标立即可见 每秒Web服务器请求指标图101:摘要图_第3张图片
关键资源指标 概览资源状况和健康状况 负载均衡器背后的健康主机指标图101:摘要图_第4张图片
错误指标 快速引起对潜在问题的关注 致命数据库异常指标图101:摘要图_第5张图片
与以前的值相比,计算的度量标准更改 清晰传达关键趋势 使用中的主机与一周前相比指标图101:摘要图_第6张图片

排行榜Toplists

排行榜是有序列表,可让您按主机,群集或基础结构的任何其他网段的指标值对其进行排名。因为它们很容易解释,所以顶层列表在高级状态面板中特别有用。

与单值摘要相比,顶列表在空间上具有附加的聚合层,因为按组划分了指标查询的值。每个组可以是单个主机或相关主机的集合。

[指标图101:摘要图_第7张图片

何时使用名单

什么 为什么
来自不同主机或组的工作或资源指标 一目了然地发现异常值,表现不佳或资源过度消费的人 每个应用服务器处理的积分指标图101:摘要图_第8张图片
自定义指标作为值列表返回 以易于阅读的格式传达KPI(例如,用于壁挂式显示器上的状态板) 正在使用的Datadog代理版本指标图101:摘要图_第9张图片

变更图表Change graphs

顶列表为您提供了最近度量标准值的摘要,而变化图则将度量标准的当前值与其过去某个时间点的值进行比较。

变更图与其他可视化之间的主要区别在于,变更图采用两个不同的时间范围作为参数:一个用于评估窗口的大小,另一个用于设置回溯窗口。

[指标图101:摘要图_第10张图片

何时使用变更图

什么 为什么
每天,每周或每月上升和下降的循环指标 将指标趋势与定期基准分开 数据库写吞吐量,与上周同期相比[指标图101:摘要图_第11张图片
高级基础架构指标 快速识别大规模趋势 主机总数,与昨天同期相比[指标图101:摘要图_第12张图片

主机地图Host maps

主机地图是一种独特的方式,使您可以一目了然地观察整个基础架构或其任何部分。但是,如果对基础结构进行切片和切块(按数据中心,按服务名称,按实例类型等),您将看到所选组中的每个主机都是六边形,并按这些主机报告的任何度量标准进行了颜色编码和大小调整。

这种特定的可视化类型是Datadog独有的。这样,它是专门为基础结构监视而设计的,与本文其他地方描述的通用可视化相反。

[指标图101:摘要图_第13张图片

何时使用主机地图

什么 为什么
资源利用率指标 一目了然地发现过载的组件 每个应用程序主机的负载(按群集分组)[指标图101:摘要图_第14张图片
识别资源分配不当(例如,任何实例是否过大或过小) 每个EC2实例类型的CPU使用率[指标图101:摘要图_第15张图片
错误或其他工作指标 快速识别降级的主机 每个服务器的HAProxy 5xx错误[指标图101:摘要图_第16张图片
相关\指标**** 在单个图中查看相关性 应用服务器的吞吐量与使用的内存[指标图101:摘要图_第17张图片

发行版

分布图显示了跨基础架构部分的指标值的直方图。图表中的每个条形图代表一个合并值的范围,其高度对应于该范围内报告值的实体数。

分布图与热图密切相关。两者之间的主要区别在于,热图显示了随时间的变化,而分布是时间窗口的摘要。像热图一样,分布可以方便地可视化报告特定度量的大量实体,因此它们经常用于在单个主机或容器级别上绘制度量图形。

[指标图101:摘要图_第18张图片

何时使用发行版

什么 为什么
大量实体报告的单一指标 一目了然地传达总体健康状况 每个主机的网络延迟[指标图101:摘要图_第19张图片
查看小组成员之间的差异 每个主机的正常运行时间[指标图101:摘要图_第20张图片