Prometheus+Grafana(详细讲解)

Prometheus(普罗米修斯)监控系统

1、Prometheus概述

1.1 任务背景

某公司由于业务快速发展,公司要求对现有机器进行业务监控,责成运维部门来实施这个任务。任务要求如下:

  • 部署监控服务器,实现7x24实时监控

  • 针对公司的业务及研发部门设计监控系统,对监控项和触发器拿出合理意见

  • 做好问题预警机制,对可能出现的问题要及时告警并形成严格的处理机制

  • 做好监控告警系统,要求可以实现告警分级

    • 一级报警 电话通知
    • 二级报警 微信通知
    • 三级报警 邮件通知
  • 处理好公司服务器异地集中监控问题

为什么要监控?

实时收集数据,通过报警及时发现问题,及时处理。数据为优化也可以提供依据。

监控四要素:

  • 监控对象 [主机状态 服务 资源 页面,url]
  • 用什么监控
  • 什么时间监控 [7x24 5x8]
  • 报警给谁

监控技术选型:

  • mrtg (MRTG - Tobi Oetiker’s MRTG - The Multi Router Traffic Grapher)通过snmp协议得到设备的流量信息,并以包含PNG格式的图形的HTML文档方式显示给用户。
  • cacti (仙人掌) 用php语言实现的一个软件,它的主要功能是用snmp服务获取数据,然后用rrdtool储存和更新数据。官网地址:Cactus | Description, Distribution, Family, & Facts | Britannica
  • ntop 官网地址: https://www.ntop.org/ 。
  • nagios 能够跨平台,插件多,报警功能强大。官网地址: https://www.nagios.org/
  • centreon 底层使用的就是nagios。是一个nagios整合版软件。官网地址:https://www.centreon.com/
  • ganglia 设计用于测量数以千计的节点,资源消耗非常小。官网地址:http://ganglia.info/
  • open-falcon 小米发布的运维监控软件,高效率,高可用。时间较短,用户基数小。官网地址: http://open-falcon.org/
  • zabbix 跨平台,画图,多条件告警,多种API接口。使用基数特别大。官网地址: https://www.zabbix.com/
  • prometheus 基于时间序列的数值数据的容器监控解决方案。官网地址: https://prometheus.io/

综合分析:Prometheus比较适合公司的监控需求

1.2 Prometheus特点

Prometheus 受启发于 Google 的 Brogmon 监控系统(相似的 Kubernetes 是从 Google的 Brog 系统演变而来),从 2012 年开始由前 Google 工程师在 Soundcloud 以开源软件的形式进行研发,并且于 2015 年早期对外发布早期版本。2016 年 5 月继 Kubernetes 之后成为第二个正式加入 CNCF 基金会的项目,同年 6 月正式发布 1.0 版本。2017 年底发布了基于全新存储层的 2.0 版本,能更好地与容器平台、云平台配合。

Prometheus 作为新一代的云原生监控系统,目前已经有超过 650+位贡献者参与到Prometheus 的研发工作上,并且超过 120+项的第三方集成。

Prometheus 是一个开源的完整监控解决方案,其对传统监控系统的测试和告警模型进行了彻底的颠覆,形成了基于中央化的规则计算、统一分析和告警的新模型。 相比于传统监控系统,Prometheus 具有以下优点:

1 易于管理

Prometheus优秀的设计使得其本身非常易于管理,不会因为Prometheus增加管理成本。

  • Prometheus 核心部分只有一个单独的二进制文件,不存在任何的第三方依赖(数据库,缓存等等)。唯一需要的就是本地磁盘,因此不会有潜在级联故障的风险。
  • Prometheus 基于 Pull 模型的架构方式,可以在任何地方(本地电脑,开发环境,测试环境)搭建我们的监控系统。也可以通过中间网关支持push模型
  • 对于一些复杂的情况,还可以使用 Prometheus 服务发现(Service Discovery)的能力动态管理监控目标。
2 可监控服务的内部运行状态

Pometheus 鼓励用户监控服务的内部状态,基于 Prometheus 丰富的 Client 库,用户可以轻松的在应用程序中添加对 Prometheus 的支持,从而让用户可以获取服务和应用内部真正的运行状态。

Prometheus+Grafana(详细讲解)_第1张图片

3 强大的数据模型

所有采集的监控数据均以指标(metric)的形式保存在内置的时间序列数据库当中(TSDB)。所有的样本除了基本的指标名称以外,还包含一组用于描述该样本特征的标签。

如下所示:

http_request_status{code=‘200’,content_path=‘/api/path’,environment=‘produment’} =>[value1@timestamp1,value2@timestamp2…]
http_request_status{code=‘200’,content_path=‘/api/path2’,environment=‘produment’} =>[value1@timestamp1,value2@timestamp2…]

每一条时间序列由指标名称(Metrics Name)以及一组标签(Labels)唯一标识。每条时间序列按照时间的先后顺序存储一系列的样本值。

  • http_request_status:指标名称(Metrics Name)
  • {code=‘200’,content_path=‘/api/path’,environment=‘produment’}:表示维度的标签,基于这些 Labels 我们可以方便地对监控数据进行聚合 ,过滤,裁剪。
  • [value1@timestamp1,value2@timestamp2…]:按照时间的先后顺序 存储的样本值。
4 强大的查询语言 PromQL

Prometheus 内置了一个强大的数据查询语言 PromQL。 通过 PromQL 可以实现对监控数据的查询、聚合。同时 PromQL 也被应用于数据可视化(如 Grafana)以及告警当中。

通过 PromQL 可以轻松回答类似于以下问题:

  • 在过去一段时间中 95%应用延迟时间的分布范围?
  • 预测在 4 小时后,磁盘空间占用大致会是什么情况?
  • CPU 占用率前 5 位的服务有哪些?(过滤)
5 高效

对于监控系统而言,大量的监控任务必然导致有大量的数据产生。而 Prometheus 可以高效地处理这些数据,对于单一 Prometheus Server 实例而言它可以处理:

  • 数以百万的监控指标
  • 每秒处理数十万的数据点
6 可扩展

可以在每个数据中心、每个团队运行独立的 Prometheus Sevrer。Prometheus 对于联邦集群的支持,可以让多个 Prometheus 实例产生一个逻辑集群,当单实例 PrometheusServer 处理的任务量过大时,通过使用功能分区(sharding)+联邦集群(federation)可以对其进行扩展。

7 易于集成

使用 Prometheus 可以快速搭建监控服务,并且可以非常方便地在应用程序中进行集成。目前支持:Java,JMX,Python,Go,Ruby,.Net,Node.js 等等语言的客户端 SDK,基于这些 SDK 可以快速让应用程序纳入到 Prometheus 的监控当中,或者开发自己的监控数据收集程序。

同时这些客户端收集的监控数据,不仅仅支持 Prometheus,还能支持 Graphite 这些其他的监控工具。同时 Prometheus 还支持与其他的监控系统进行集成:Graphite, Statsd, Collected,Scollector, muini, Nagios 等。 Prometheus 社区还提供了大量第三方实现的监控数据采集支持:JMX,CloudWatch,EC2,MySQL,PostgresSQL,Haskell,Bash,SNMP,Consul,Haproxy,Mesos,Bind,CouchDB,Django,Memcached,RabbitMQ,Redis,RethinkDB,Rsyslog 等等。

8 可视化

Prometheus提供了强大的可视化能力,不能自身提供了独立的可视化解决方案,且可以和很多流行的可视化工具进行整合。

  • Prometheus Server 中自带的 Prometheus UI,可以方便地直接对数据进行查询,并且支持直接以图形化的形式展示数据。同时 Prometheus 还提供了一个独立的基于Ruby On Rails 的 Dashboard 解决方案 Promdash。
  • 最新的 Grafana 可视化工具也已经提供了完整的 Prometheus 支持,基于 Grafana 可以创建更加精美的监控图标。
  • 基于 Prometheus 提供的 API 还可以实现自己的监控可视化 UI。
9 开放性

通常来说当我们需要监控一个应用程序时,一般需要该应用程序提供对相应监控系统协议的支持,因此应用程序会与所选择的监控系统进行绑定。为了减少这种绑定所带来的限制,对于决策者而言要么你就直接在应用中集成该监控系统的支持,要么就在外部创建单独的服务来适配不同的监控系统。

而对于 Prometheus 来说,使用 Prometheus 的 client library 的输出格式不止支持Prometheus 的格式化数据,也可以输出支持其它监控系统的格式化数据,比如 Graphite。因此你甚至可以在不使用 Prometheus 的情况下,采用 Prometheus 的 client library 来让你的应用程序支持监控数据采集。

2、Prometheus的使用

2.1 Prometheus架构和生态圈组件

Prometheus+Grafana(详细讲解)_第2张图片

架构解析:

  1. 存储计算层

    • Prometheus Server,里面包含了存储引擎和计算引擎。
    • Retrieval 组件为取数组件,它会主动从 Pushgateway 或者 Exporter 拉取指标数据。
    • Service discovery,可以动态发现要监控的目标。
    • TSDB(Time Series Database时间序列数据库),数据核心存储与查询。
    • HTTP server,对外提供 HTTP 服务。
  2. 采集层
    采集层分为两类,一类是生命周期较短的作业,还有一类是生命周期较长的作业。

    • 短作业:直接通过 API,在退出时间指标推送给 Pushgateway。
    • 长作业:Retrieval 组件直接从 Job 或者 Exporter 拉取数据。Prometheus提供了各种常用的exporter,方便我们使用Prometheus对服务进行监控。
  3. 应用层
    应用层主要分为两种,一种是 AlertManager,另一种是数据可视化。

    • AlertManager

      对接 Pagerduty,是一套付费的监控报警系统。可实现短信报警、5 分钟无人 ack 打电话通知、仍然无人 ack,通知值班人员 Manager…
      Email,发送邮件… …

    • 数据可视化

    Prometheus build-in WebUI
    Grafana
    其他基于 API 开发的客户端

2.2 Prometheus实验环境规划

主机 运行服务 监控范围
prometheus10 prometheus server
mysql11 mysql + node_export+ mysql_export 数据库+主机
application12 java应用(springboot应用)+node_export java应用+主机
  1. 克隆机器,修改为静态ip(要求能上外网)

    vi /etc/sysconfig/network-scripts/ifcfg-ens33
    
    #根据自己的VMWare虚拟机网段配置,修改如下几个参数
    IPADDR="192.168.11.10"  # 根据自己的网段,将11修改为自己的网段号
    PREFIX="24" #不用改
    GATEWAY="192.168.11.2" # 根据自己的网段,将11修改为自己的网段号
    DNS1="8.8.8.8"			# 不用修改
    DNS1="114.114.114.114"  # 不用修改
    
  2. 修改主机名

    # hostnamectl set-hostname 新的主机名
    # 示例如下:
    hostnamectl set-hostname prometheus10
    
  3. 关闭防火墙,selinux

     # 停止防火请,并禁止开启自启动
    systemctl stop firewalld 
    systemctl disable firewalld
    # 关闭selinux,修改后需重启虚拟机
    vi /etc/selinux/config
    #修改SELINUX=enforcing
    SELINUX=disabled
    
  4. 配置ip和主机名映射

    vi /etc/hosts
    #增加如下内容
    192.168.11.10 prometheus10
    192.168.11.11 mysql11
    

说明:

  • 每台机器都要修改,注意每个机器的IPADDR最后一段一定要不同。
  • 为了更好的操作体验,最好在windows机器也配置ip的主机名映射
    • C盘/windows/system32/drivers/hosts

2.3 安装Prometheus Server

Prometheus 基于 Golang 编写,编译后的软件包,不依赖于任何的第三方依赖。只需要下载对应平台的二进制包,解压并且添加基本的配置即可正常启动 Prometheus Server。

  1. 上传安装包
    链接:https://pan.baidu.com/s/181ejEqC7FDlQmC3w8LuUlg
    提取码:m3yg

    上传 prometheus-2.29.1.linux-amd64.tar.gz 到虚拟机的/opt/software 目录

    [root@prometheus10 opt]# ls /opt/software/
    prometheus-2.29.1.linux-amd64.tar.gz
    
  2. 解压到/opt/module 目录下

    #新建module目录
    [root@prometheus10 opt]# mkdir /opt/module 
    #解压缩
    [root@prometheus10 opt]# tar xzvf /opt/software/prometheus-2.29.1.linux-amd64.tar.gz -C /opt/module/
    #prometheus文件夹改名
    [root@prometheus10 opt]# mv /opt/module/prometheus-2.29.1.linux-amd64/ /opt/module/prometheus-2.29.1
    
  3. 阅读配置文件

    prometheus的配置内容在 prometheus.yml中,默认配置如下:

     # my global config 全局配置块: 控制 Prometheus 服务器的全局配置
    global:
      scrape_interval: 15s # 配置拉取数据的时间间隔(这里设置为15s),如果不设置默认为 1 分钟。
      evaluation_interval: 15s # 规则验证(生成 alert)的时间间隔(这里设置为15s),如果不设置默认为 1 分钟。.
       # scrape_timeout is set to the global default (10s).
     
     # Alertmanager configuration  告警配置
     alerting:
       alertmanagers:
         - static_configs:
             - targets:
               # - alertmanager:9093 
     
     # 规则配置文件
     # Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
     rule_files:
       # - "first_rules.yml"
       # - "second_rules.yml"
     
     # 配置采集目标相关, prometheus 监视的目标
     scrape_configs:
       # Prometheus自身的运行信息可以通过 HTTP 访问,所以 Prometheus 可以监控自己的运行数据
       # job_name:监控作业的名称
       - job_name: "prometheus"
     
         # metrics_path defaults to '/metrics'
         # scheme defaults to 'http'.
         # static_configs: 表示静态目标配置,就是固定从某个 target 拉取数据
         static_configs:
           - targets: ["localhost:9090"]
    

    Prometheus 是可以在运行时自动加载配置的。启动时需要添加:--web.enable-lifecycle

  4. 启动prometheus server

    # 先进入到Prometheus安装目录
    [root@prometheus10 ~]# cd /opt/module/prometheus-2.29.1/
    # 启动prometheus
    [root@prometheus10 prometheus-2.29.1]# ./prometheus
    
  5. 访问测试Prometheus

    http://192.168.11.10:9090 , Prometheus默认占用9090端口

    Prometheus+Grafana(详细讲解)_第3张图片

2.4 监控Linux主机

在 Prometheus 的架构设计中,Prometheus Server 主要负责数据的收集,存储并且对外提供数据查询支持,而实际的监控样本数据的收集则是由 Exporter 完成。因此为了能够监控到某些东西,如主机的 CPU 使用率,我们需要使用到 Exporter。Prometheus 周期性的从 Exporter 暴露的 HTTP 服务地址(通常是/metrics)拉取监控样本数据。

Exporter 可以是一个相对开放的概念,其可以是一个独立运行的程序独立于监控目标以外,也可以是直接内置在监控目标中。只要能够向 Prometheus 提供标准格式的监控样本数据即可。

为了能够采集到主机的运行指标如 CPU, 内存,磁盘等信息。我们可以使用 Node Exporter。Node Exporter 同样采用 Golang 编写,并且不存在任何的第三方依赖,只需要下载,解压即可运行。可以从 https://prometheus.io/download/ 获取最新的 node_exporter 版本的二进制包。

  1. 上传安装包

链接:https://pan.baidu.com/s/1PGfEUFSvv4hfLTn64suj2A
提取码:oozq
上传 node_exporter-1.2.2.linux-amd64.tar.gz 到虚拟机的/opt/software 目录

```powershell
[root@mysql11 ~]# ls /opt/software
node_exporter-1.2.2.linux-amd64.tar.gz
```
  1. 解压安装包到/opt/module 目录下

    #新建module目录
    [root@mysql11 ~]# mkdir /opt/module 
    #解压缩
    [root@mysql11 ~]# tar xzvf /opt/software/node_exporter-1.2.2.linux-amd64.tar.gz -C /opt/module/
    #node_exporter文件夹改名
    [root@mysql11 ~]# mv /opt/module/node_exporter-1.2.2.linux-amd64/ /opt/module/node_exporter-1.2.2
    
  2. 启动export,并通过metrics端点查看当前node export获取的监控信息

    # 执行./node_exporter
    #先进入node_exporter的目录
    [root@mysql11 ~]# cd /opt/module/node_exporter-1.2.2/
    # 再执行node_exporter
    [root@mysql11 node_exporter-1.2.2]# ./node_exporter
    

    浏览器输入:http://mysql11:9100/metrics,(如果没有在windows机器配置ip映射,需要将mysql11改为具体的ip),可以看到当前 node exporter 获取到的当前主机的所有监控数据。

    Prometheus+Grafana(详细讲解)_第4张图片

  3. 回到Prometheus服务器,修改Prometheus配置文件,增加对Linux主机的监控job

    # 在 scrape_configs 配置项下添加配置:
    
    scrape_configs:
      - job_name: "prometheus"
        static_configs:
          - targets: ["localhost:9090"]
      # 添加Node Exporter监控配置
      - job_name: "node_exporter"
        static_configs:
          - targets: ["mysql11:9100"]
    
    如果开启了热加载,此时可以访问热加载接口以完成配置文件的加载。`curl -X POST http://localhost:9090/-/reload`
    
  4. 重启Prometheus,通过页面查看是否成功

    http://192.168.11.10:9090 , Prometheus默认占用9090端口

Prometheus+Grafana(详细讲解)_第5张图片

2.5 监控MySQL

为了能够采集到MySQL的运行指标,我们可以使用 MySQL Exporter。MySQL Exporter 是社区专门为采集 MySQL/MariaDB 数据库监控指标而设计开发,通过 Exporter 上报核心的数据库指标,用于异常报警和监控大盘展示。

  1. 数据库授权

    因为 MySQL Exporter 是通过查询数据库中状态数据来对其进行监控,所以需要为对应的数据库实例进行授权。我们新建一个账户名为exporter,密码为 123456的账户,并为其授予相应的权限。

    CREATE USER 'exporter'@'localhost' IDENTIFIED BY '123456' WITH MAX_USER_CONNECTIONS 3;
    GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TO 'exporter'@'localhost';
    flush privileges;
    

    注意:授权ip为localhost,是因为exporter账密由mysql_exporter使用用来检索数据库运行指标,而mysql expoerter和mysql在同一台机器上。所以这个localhost是指的mysql_exporter的IP。

  2. 上传安装包

链接:https://pan.baidu.com/s/1gTOOCRAjgxMfOIhzOZ5_ZA
提取码:jwuu
上传 node_exporter-1.2.2.linux-amd64.tar.gz 到虚拟机的/opt/software 目录

```powershell
[root@mysql11 ~]# ls /opt/software
mysqld_exporter-0.13.0.linux-amd64.tar.gz
```
  1. 解压安装包到/opt/module 目录下

    #新建module目录
    [root@mysql11 ~]# mkdir /opt/module 
    #解压缩
    [root@mysql11 ~]# [root@mysql11 ~]# tar xzvf /opt/software/mysqld_exporter-0.13.0.linux-amd64.tar.gz -C /opt/module/
    #mysql_exporter文件夹改名
    [root@mysql11 ~]#  mv /opt/module/mysqld_exporter-0.13.0.linux-amd64/ /opt/module/mysqld_exporter-0.13.0
    
  2. 在mysqld_exporter文件夹中,新建一个my.cnf配置

    执行 vi /opt/module/node_exporter-1.2.2/my.cnf ,新建my.cnf文件,内容配置如下:

    [client]
    user=exporter
    password=123456
    
  3. 启动mysql_exporter,并访问9104端口

    #先进入mysql_exporter的目录
    [root@mysql11 ~]# cd /opt/module/mysqld_exporter-0.13.0/
    [root@mysql11 mysqld_exporter-0.13.0]#
    # 再执行mysql_exporter
    [root@mysql11 mysqld_exporter-0.13.0]# ./mysqld_exporter --config.my-cnf=my.cnf
    

    浏览器输入:http://mysql11:9104/metrics,(如果没有在windows机器配置ip映射,需要将mysql11改为具体的ip),可以看到当前 mysql exporter 获取到mysql的所有监控数据。

    Prometheus+Grafana(详细讲解)_第6张图片

  4. 回到Prometheus服务器,修改Prometheus配置文件,增加对MySQL的监控job

    # 在 scrape_configs 配置项下添加配置:
    
    scrape_configs:
      - job_name: "prometheus"
        static_configs:
          - targets: ["localhost:9090"]
      - job_name: "node_exporter"
        static_configs:
          - targets: ["mysql11:9100"]
      - job_name: "mysql_exporter"
        static_configs:
          - targets: ["mysql11:9104"]
    
  5. 重启Prometheus,通过页面查看是否成功

    http://192.168.11.10:9090 , Prometheus默认占用9090端口

    Prometheus+Grafana(详细讲解)_第7张图片

2.6 监控java应用

在使用 Spring Boot 作为开发框架时,需要监控应用的状态,例如 JVM/Spring MVC 等。 而为了使监控深入到应用的内部,就需要应用自身暴露作为Exporter暴露监控指标,这就和应用的开发语言和技术框架紧密相关了。Prometheus 监控SpringBoot服务基于 Spring Actuator 机制采集 JVM 等数据。

  1. 修改应用的依赖和配置

    
    <dependency>
      <groupId>org.springframework.bootgroupId>
      <artifactId>spring-boot-starter-actuatorartifactId>
    dependency>
    <dependency>
      <groupId>io.micrometergroupId>
      <artifactId>micrometer-registry-prometheusartifactId>
    dependency>
    

注意:需要配置java环境,安装jdk,可以参考博主之前的文章
Tomcat安装配置
jdk下载链接:https://pan.baidu.com/s/1UC6Kqw-e52Ct66Ldl3ZoDw
提取码:9cof

  1. 修改springboot项目配置文件

    management:
      server:
        port: 8091
      endpoint:
        prometheus:
          enabled: true
      endpoints:
        web:
          exposure:
            include: health,info,prometheus
      metrics:
        tags:
          application: spring-boot-mvc-demo
    
  2. 打包,并运行jar包,并访问配置的8091端口
    链接:https://pan.baidu.com/s/1m3-8enM9BBQ-yhBXSAanAA
    提取码:jhhu

     java -jar springboot-prometheus.jar
    
    此时访问 http://ip:8091/actuator/prometheus ,以看到当前java应用的所有监控数据。
    

    Prometheus+Grafana(详细讲解)_第8张图片

  3. 回到Prometheus服务器,修改Prometheus配置文件,增加对Java应用的监控job

    # 在 scrape_configs 配置项下添加配置:
    
    scrape_configs:
      - job_name: "prometheus"
        static_configs:
          - targets: ["localhost:9090"]
      - job_name: "node_exporter"
        static_configs:
          - targets: ["mysql11:9100"]
      - job_name: "mysql_exporter"
        static_configs:
          - targets: ["mysql11:9104"]
      # 添加监控java应用的job
      - job_name: "springboot_exporter"
        metrics_path: '/actuator/prometheus'
        static_configs:
          - targets: ["mysql11:8091"]
    
  4. 重启Prometheus,通过页面查看是否成功

    http://192.168.11.10:9090 , Prometheus默认占用9090端口

Prometheus+Grafana(详细讲解)_第9张图片

3 PromQL 介绍

Prometheus 通过指标名称(metrics name)以及对应的一组标签(labelset)唯一定义一条时间序列。指标名称反映了监控样本的基本标识,而 label 则在这个基本特征上为采集到的数据提供了多种特征维度。用户可以基于这些特征维度过滤,聚合,统计从而产生新的计算后的一条时间序列。PromQL 是 Prometheus 内置的数据查询语言,其提供对时间序列数据丰富的查询,聚合以及逻辑运算能力的支持。并且被广泛应用在 Prometheus的日常应用当中,包括对数据查询、可视化、告警处理当中。可以这么说,PromQL 是Prometheus 所有应用场景的基础,理解和掌握 PromQL 是 Prometheus 入门的第一课。

3.1 基本用法

1 查询时间序列

当 Prometheus 通过 Exporter 采集到相应的监控指标样本数据后,我们就可以通过PromQL 对监控样本数据进行查询。当我们直接使用监控指标名称查询时,可以查询该指标下的所有时间序列。如

prometheus_http_requests_total

等同于

prometheus_http_requests_total{}

该表达式会返回指标名称为 prometheus_http_requests_total 的所有时间序列

prometheus_http_requests_total{code="200",handler="alerts",instance="localhost:9090",job="prometheus",method="get"}=(20889@1518096812.326)
prometheus_http_requests_total{code="200",handler="graph",instance="localhost:9090",job="prometheus",method="get"}= (21287@1518096812.326)

PromQL 还支持用户根据时间序列的标签匹配模式来对时间序列进行过滤,目前主要支持两种匹配模式:完全匹配和正则匹配。

  • PromQL 支持使用 = 和 != 两种完全匹配模式:

    • 通过使用 label=value 可以选择那些标签满足表达式定义的时间序列;

      例如,如果我们只需要查询所有 prometheus_http_requests_total 时间序列中满足标
      签 instance 为 localhost:9090 的时间 序列,则可以使用如下表达式

      prometheus_http_requests_total{instance="localhost:9090"}
      
    • 反之使用 label!=value 则可以根据标签匹配排除时间序列;

      反之使用 instance!=“localhost:9090” 则可以排除这些时间序列

      prometheus_http_requests_total{instance!="localhost:9090"}
      
  • PromQL还可以支持使用正则表达式作为匹配条件,多个表达式之间使用 | 进行分离:

    • 使用 label=~regx 表示选择那些标签符合正则表达式定义的时间序列;

      例如,如果想查询多个环节下的时间序列序列可以使用如下表达式:

      mysql_global_status_buffer_pool_pages{state=~"data|free"}
      
    • 反之使用 label!~regx 进行排除;

      排除用法

      mysql_global_status_buffer_pool_pages{state!~"data|free"}
      
2 范围查询

直接通过类似于 PromQL 表达式 httprequeststotal 查询时间序列时,返回值中只会包含该时间序列中的最新的一个样本值,这样的返回结果我们称之为瞬时向量。而相应的这样的表达式称之为瞬时向量表达式
而如果我们想过去一段时间范围内的样本数据时,我们则需要使用区间向量表达式区间向量表达式瞬时向量表达式之间的差异在于在区间向量表达式中我们需要定义时间选择的范围,时间范围通过时间范围选择器 [] 进行定义。 例如,通过以下表达式可以选择最近 5 分钟内的所有样本数据:

mysql_global_status_buffer_pool_pages{state=~"data|free"}[5m]

该表达式将会返回查询到的时间序列中最近 5 分钟的所有样本数据:

mysql_global_status_buffer_pool_pages{instance="mysql201:9104", job="mysql_exporter", state="data"}
317 @1704184450.732
317 @1704184465.732
317 @1704184480.732
317 @1704184495.732
317 @1704184510.732
317 @1704184525.732
317 @1704184540.732
317 @1704184555.732
317 @1704184570.732
317 @1704184585.732
317 @1704184600.732
317 @1704184615.732
317 @1704184630.736
317 @1704184645.732
317 @1704184660.732
317 @1704184675.732
317 @1704184690.732
317 @1704184705.732
317 @1704184720.732
317 @1704184735.732
mysql_global_status_buffer_pool_pages{instance="mysql201:9104", job="mysql_exporter", state="free"}
7874 @1704184450.732
7874 @1704184465.732
7874 @1704184480.732
7874 @1704184495.732
7874 @1704184510.732
7874 @1704184525.732
7874 @1704184540.732
7874 @1704184555.732
7874 @1704184570.732
7874 @1704184585.732
7874 @1704184600.732
7874 @1704184615.732
7874 @1704184630.736
7874 @1704184645.732
7874 @1704184660.732
7874 @1704184675.732
7874 @1704184690.732
7874 @1704184705.732
7874 @1704184720.732
7874 @1704184735.732

通过区间向量表达式查询到的结果我们称为区间向量。 除了使用 m 表示分钟以外,PromQL 的时间范围选择器支持其它时间单位:

  • s - 秒
  • m - 分钟
  • h - 小时
  • d - 天
  • w - 周
  • y - 年
3 时间位移操作

在瞬时向量表达式或者区间向量表达式中,都是以当前时间为基准:

mysql_global_status_buffer_pool_pages{state=~"data|free"} # 瞬时向量表达式,选择当前最新的数据 
mysql_global_status_buffer_pool_pages{state=~"data|free"}[5m] # 区间向量表达式,选择以当前时间为基准,5 分钟内的数据

而如果我们想查询,5 分钟前的瞬时样本数据,或昨天一天的区间内的样本数据呢? 这个时候我们就可以使用位移操作,位移操作的关键字为 offset。 可以使用 offset 时间位移操作:

mysql_global_status_buffer_pool_pages{state=~"data|free"} offset 5m
mysql_global_status_buffer_pool_pages{state=~"data|free"}[5m] offset 5m
4 使用聚合操作

一般来说,如果描述样本特征的标签(label)在并非唯一的情况下,通过 PromQL 查询数据,会返回多条满足这些特征维度的时间序列。而 PromQL 提供的聚合操作可以用来对这些时间序列进行处理,形成一条新的时间序列:

#查询系统所有 http 请求的总量
sum(prometheus_http_requests_total)
# 按照 mode 计算主机 CPU 的平均使用时间
avg(node_cpu_seconds_total) by (mode)
# 按照主机查询各个主机的 CPU 使用率
sum(sum(rate(node_cpu_seconds_total{mode!='idle'}[5m]))  /  sum(rate(node_cpu_seconds_total [5m]))) by (instance)
5 标量和字符串

除了使用瞬时向量表达式和区间向量表达式以外,PromQL 还直接支持用户使用标量(Scalar)和字符串(String)。

  • 标量(Scalar):一个浮点型的数字值标量只有一个数字,没有时序。 例如:10

    需要注意的是,当使用表达式 count(prometheus_http_requests_total),返回的数据类型,依然是瞬时向量。用户可以通过内置函数 scalar()将单个瞬时向量转换为标量。

  • 字符串(String):一个简单的字符串值

    直接使用字符串,作为 PromQL 表达式,则会直接返回字符串。

    "this is a string"
    'these are unescaped: \n \\ \t'
    'these are not unescaped: \n ' " \t`
    
6 合法的 PromQL 表达式

所有的 PromQL 表达式都必须至少包含一个指标名称(例如 http_request_total),或者一个不会匹配到空字符串的标签过滤器(例如{code=”200”})。因此以下两种方式,均为合法的表达式:

prometheus_http_requests_total # 合法
prometheus_http_requests_total{} # 合法
{method="get"} # 合法

而如下表达式,则不合法:

{job=~".*"} # 不合法

同时,除了使用 {label=value} 的形式以外,我们还可以使用内置的 _ _name_ _ 标签
来指定监控指标名称:

{__name__=~"prometheus_http_requests_total"} # 合法
{__name__=~"node_disk_bytes_read|node_disk_bytes_written"} # 合法

3.2 PromQL操作符

使用 PromQL 除了能够方便的按照查询和过滤时间序列以外,PromQL 还支持丰富的操作符,用户可以使用这些操作符对进一步的对事件序列进行二次加工。这些操作符包括:数学运算符,逻辑运算符,布尔运算符等等。

1 数学运算

PromQL 支持的所有数学运算符如下所示:

    + (加法)
    - (减法)
    * (乘法)

	/ (除法)
	% (求余)
 	^ (幂运算)
2 布尔运算

Prometheus 支持以下布尔运算符如下:

  == (相等)
  != (不相等)
  >(大于)
  < (小于)
  >= (大于等于)
  <= (小于等于)

使用 bool 修饰符改变布尔运算符的行为
布尔运算符的默认行为是对时序数据进行过滤。而在其它的情况下我们可能需要的是真正的布尔结果。例如,只需要 知道当前模块的 HTTP 请求量是否>=1000,如果大于等于1000 则返回 1(true)否则返回 0(false)。这时可以使 用 bool 修饰符改变布尔运算的默认行为。 例如:

prometheus_http_requests_total > bool 1000

使用 bool 修改符后,布尔运算不会对时间序列进行过滤,而是直接依次瞬时向量中的各个样本数据与标量的比较结果 0 或者 1。从而形成一条新的时间序列。

prometheus_http_requests_total{code="200",handler="query",instance="localhost:9090",job="prometheus",method="get"} 1
prometheus_http_requests_total{code="200",handler="query_range",instance="localhost:9090",job="prometheus",method="get"} 0

同时需要注意的是,如果是在两个标量之间使用布尔运算,则必须使用 bool 修饰符

2 == bool 2 # 结果为 1
3 集合运算符

使用瞬时向量表达式能够获取到一个包含多个时间序列的集合,我们称为瞬时向量。 通过集合运算,可以在两个瞬时向量与瞬时向量之间进行相应的集合操作。目前,Prometheus 支持以下集合运算符:

  • and (并且)
  • or (或者)
  • unless (排除)

vector1 and vector2 会产生一个由 vector1 的元素组成的新的向量。该向量包含vector1 中完全匹配 vector2 中的元素组成。

# 求取 访问总数>5 且最近5分钟增长速率>0.0001
prometheus_http_requests_total > 5  and rate(prometheus_http_requests_total{}[5m]) > 0.0001

vector1 or vector2 会产生一个新的向量,该向量包含 vector1 中所有的样本数据,以及 vector2 中没有与 vector1 匹配到的样本数据。

# 求取 请求总数<10 或者 >20 的向量
prometheus_http_requests_total <10 or prometheus_http_requests_total > 20

vector1 unless vector2 会产生一个新的向量,新向量中的元素由 vector1 中没有与vector2 匹配的元素组成。

prometheus_http_requests_total > 5  unless rate(prometheus_http_requests_total{}[5m]) > 0.0001
4 聚合操作

Prometheus 还提供了下列内置的聚合操作符,这些操作符作用域瞬时向量。可以将瞬时表达式返回的样本数据进行 聚合,形成一个新的时间序列。

  • sum (求和)
  • min (最小值)
  • max (最大值)
  • avg (平均值)
  • stddev (标准差)
  • stdvar (标准差异)
  • count (计数)
  • count_values (对 value 进行计数)
  • bottomk (后 n 条时序)
  • topk (前 n 条时序)
  • quantile (分布统计)

使用聚合操作的语法如下:

([parameter,] ) [without|by (

其中只有 count_values , quantile , topk , bottomk 支持参数(parameter)。

without 用于从计算结果中移除列举的标签,而保留其它标签。by 则正好相反,结果向量中只保留列出的标签,其余标签则移除。通过 without 和 by 可以按照样本的问题对数据进行聚合。
例如:

sum(prometheus_http_requests_total) without (instance)

等价于

sum(prometheus_http_requests_total) by (code,handler,job)

如果只需要计算整个应用的 HTTP 请求总量,可以直接使用表达式:

sum(prometheus_http_requests_total)

count_values 用于时间序列中每一个样本值出现的次数。count_values 会为每一个唯一的样本值输出一个时间序列,并且每一个时间序列包含一个额外的标签。 例如:

count_values("count",prometheus_http_requests_total) by (code,handler,instance,job)

topk 和 bottomk 则用于对样本值进行排序,返回当前样本值前 n 位,或者后 n 位的时间序列。获取 HTTP 请求数前 5 位的时序样本数据,可以使用表达式:

topk(5, prometheus_http_requests_total)

quantile 用于计算当前样本数据值的分布情况 quantile(φ, express)其中 0 ≤ φ ≤ 1。例如,当 φ 为 0.5 时,即表示找到当前样本数据中的中位数:

quantile(0.5, prometheus_http_requests_total)

4、Grafana的简单使用

4.1 Grafana的安装

grafana 是一款采用 Go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。下载地址:https://grafana.com/grafana/download

  1. 上传安装包
    链接:https://pan.baidu.com/s/1hThWApv7IYBXO3dZDVCmZQ
    提取码:0l81

    上传 grafana-enterprise-8.1.2.linux-amd64.tar.gz 到虚拟机的/opt/software 目录

    [root@prometheus10 ~]# ls /opt/software/
    grafana-enterprise-8.1.2.linux-amd64.tar.gz
    
  2. 解压安装包到/opt/module 目录下

    #新建module目录
    [root@prometheus10 ~]# mkdir /opt/module 
    #解压缩
    [root@prometheus10 ~]# tar xzvf /opt/software/grafana-enterprise-8.1.2.linux-amd64.tar.gz -C /opt/module
    
  3. 启动grafana

    # 先进入到grafana安装目录
    [root@prometheus10 ~]# cd /opt/module/grafana-8.1.2/
    # 启动grafana
    [root@prometheus10 grafana-8.1.2]# ./bin/grafana-server web > ./grafana.log 2>&1 &
    
  4. 访问web管理界面

    打开地址: http://ip:3000 ,默认用户名和密码都是admin

    Prometheus+Grafana(详细讲解)_第10张图片

4.2 Grafana集成Prometheus

Grafana配置Prometheus连接信息

  1. 点击配置,选择DataSource

    Prometheus+Grafana(详细讲解)_第11张图片

  2. 点击Add datasource

    Prometheus+Grafana(详细讲解)_第12张图片

  3. 配置Prometheus Server的地址

    Prometheus+Grafana(详细讲解)_第13张图片

  4. 点击下方的Save & Test,出现绿色的Data source is working 即说明Prometheus正常联通

    Prometheus+Grafana(详细讲解)_第14张图片

  5. 点击Back返回,即可看到新添加的Prometheus

    Prometheus+Grafana(详细讲解)_第15张图片

手动创建仪表盘Dashboard

  1. 手动新建仪表盘

Prometheus+Grafana(详细讲解)_第16张图片

  1. 在面板中配置监控项

Prometheus+Grafana(详细讲解)_第17张图片

导入仪表盘

手动一个个添加 Dashboard 比较繁琐,Grafana 社区鼓励用户分享 Dashboard,通过https://grafana.com/dashboards网站,可以找到大量可直接使用的Dashboard模板。
Grafana 中所有的 Dashboard 通过 JSON 进行共享,下载并且导入这些 JSON 文件,就可以直接使用这些已经定义好的 Dashboard:
Prometheus+Grafana(详细讲解)_第18张图片

选择自己喜欢的模板,选中跳转转页面后,点击Download JSON

Prometheus+Grafana(详细讲解)_第19张图片

导入模板JSON

Prometheus+Grafana(详细讲解)_第20张图片

导入完毕,即可查看到添加的仪表盘

Prometheus+Grafana(详细讲解)_第21张图片

你可能感兴趣的:(Prometheus,prometheus,grafana)