简介

Prometheus 是一个 Metrics 监控系统，与 Kubernetes 同属 CNCF（Cloud Native Computing Foundation），它已经成为炙手可热的 Kubernetes 生态圈中的核心监控系统，越来越多的项目（如Kubernetes 和 Etcd 等）都提供了对 Prometheus 的原生支持，从侧面体现了社区对它的认可。可以说，Prometheus是一个云原生监控系统，是当前微服务和容器盛行时代下的监控利器。

Prometheus（简称 Prom）是新一代的监控系统，配置简单却灵活，对容器、微服务等支持良好。本文主要介绍一下 Prometheus 的基础概念。

初识

Prometheus是什么？

性能不错的时间序列数据库(DB-Engine排行第四)
最热门的指标监控基础组件

Prometheus解决什么问题？

指标监控的指标采集、存储、查询、聚合和告警;

Prometheus有什么优势？

强大的生态体系，大部分常见软件都提供有Prometheus客户端
成熟的项目，是第二个从CNCF毕业的开源项目
标准的数据格式，标准化项目OpenMetrics是以Prometheus数据格式作为蓝本

主要特性

强大的多维度数据模型：
- 时间序列数据通过 metric 名和键值对来区分。
- 所有的 metrics 都可以设置任意的多维标签。
- 数据模型更随意，不需要刻意设置为以点分隔的字符串。
- 可以对数据模型进行聚合，切割和切片操作。
- 支持双精度浮点类型，标签可以设为全 unicode。
灵活而强大的查询语句（PromQL）：在同一个查询语句，可以对多个 metrics 进行乘法、加法、连接、取分数位等操作。
易于管理： Prometheus server 是一个单独的二进制文件，可直接在本地工作，不依赖于分布式存储。
高效：平均每个采样点仅占 3.5 bytes，且一个 Prometheus server 可以处理数百万的 metrics。
使用 pull 模式采集时间序列数据，这样不仅有利于本机测试而且可以避免有问题的服务器推送坏的 metrics。
可以采用 push gateway 的方式把时间序列数据推送至 Prometheus server 端。
可以通过服务发现或者静态配置去获取监控的 targets。
有多种可视化图形界面。
易于伸缩。

Prometheus 核心概念

下面将对 Prometheus 中的数据模型，metric 类型以及 instance 和 job 等概念进行介绍，以便读者在 Prometheus 的配置和使用中可以有一个更好的理解。

数据模型

Prometheus 从根本上存储的所有数据都是时间序列数据（Time Serie Data，简称时序数据）。时序数据是具有时间戳的数据流，该数据流属于某个度量指标（Metric）和该度量指标下的多个标签（Label）。除了提供存储功能，Prometheus 还可以利用查询表达式来执行非常灵活和复杂的查询。

Prometheus 中存储的数据为时间序列，是由 metric 的名字和一系列的标签（键值对）唯一标识的，不同的标签则代表不同的时间序列。

metric 名字：该名字应该具有语义，一般用于表示 metric 的功能，例如：http_requests_total, 表示 http 请求的总数。其中，metric 名字由 ASCII 字符，数字，下划线，以及冒号组成，且必须满足正则表达式 [a-zA-Z_:][a-zA-Z0-9_:]*。
标签：使同一个时间序列有了不同维度的识别。例如 http_requests_total{method="Get"} 表示所有 http 请求中的 Get 请求。当 method="post" 时，则为新的一个 metric。标签中的键由 ASCII 字符，数字，以及下划线组成，且必须满足正则表达式 [a-zA-Z_:][a-zA-Z0-9_:]*。
样本：实际的时间序列，每个序列包括一个 float64 的值和一个毫秒级的时间戳。

格式：

{=, …}

，例如：

http_requests_total{method="POST",endpoint="/api/tracks"}

四种Metric类型

Prometheus 客户端库主要提供四种主要的 metric 类型：

计数器（Counter）

计数器是一种累计型的metric度量指标，它是一个只能递增的数值。计数器主要用于统计类似于服务请求数、任务完成数和错误出现次数这样的数据。

例如，查询 http_requests_total{method="get", job="Prometheus", handler="query"}返回 8，10 秒后，再次查询，则返回 14。

计量器（Gauge）

计量器表示一个既可以增加, 又可以减少的度量指标值。计量器主要用于测量类似于温度、内存使用量这样的瞬时数据。

例如：go_goroutines{instance="172.17.0.2", job="Prometheus"}返回值 147，10 秒后返回 124。

直方图（Histogram）

直方图对观察结果（通常是请求持续时间或者响应大小这样的数据）进行采样，并在可配置的桶中对其进行统计。有以下几种方式来产生直方图（假设度量指标为）：

按桶计数，相当于 _bucket{le=""}
采样值总和，相当于 _sum
采样值总数，相当于 _count ，也等同于把所有采样值放到一个桶里来计数 _bucket{le="+Inf"}

汇总（Summary）

类似于直方图，汇总也对观察结果进行采样。除了可以统计采样值总和和总数，它还能够按分位数统计。有以下几种方式来产生汇总（假设度量指标为）：

按分位数，也就是采样值小于该分位数的个数占总数的比例小于 φ，相当于 {quantile="<φ>"}
采样值总和，相当于 _sum
采样值总数，相当于 _count

实例（Instance）和任务（Job）

在 Prometheus 里，可以从中抓取采样值的端点称为实例，为了性能扩展而复制出来的多个这样的实例形成了一个任务。

例如下面的 api-server 任务有四个相同的实例：

job: api-server
instance 1: 1.2.3.4:5670
instance 2: 1.2.3.4:5671
instance 3: 5.6.7.8:5670
instance 4: 5.6.7.8:5671

Prometheus 抓取完采样值后，会自动给采样值添加下面的标签和值：

job: 抓取所属任务。
instance: 抓取来源实例

另外每次抓取时，Prometheus 还会自动在以下时序里插入采样值：

#采样值为 1 表示实例健康，否则为不健康
up{job="[job-name]", instance="instance-id"} 

#采样值为本次抓取消耗时间
scrape_duration_seconds{job="[job-name]", instance="[instance-id]"} 

# 采样值为重新打标签后的采样值个数
scrape_samples_post_metric_relabeling{job="", instance=""}

# 采样值为本次抓取到的采样值个数
scrape_samples_scraped{job="", instance=""}

参考资料

普罗米修斯学习笔记
普罗米修斯中文入门指南
Prometheus 入门与实践

云原生技术系列-监控系统Prometheus之列一：基本概念与数据模型

简介

初识