监控系列讲座(十三)Prometheus复杂查询

学习目标

了解比较复杂的PromSQL查询

1. 简介

我们今天主要就是要通过一个非常复杂的例子来帮大家了解我们日常生产系统中的查询是怎样组成的。我们的例子来自于我曾经做过的一个报警指标,里面的都是一些表达式。我们挑选CPU作为我们今天的例子。

round((1 - avg(rate(node_cpu_seconds_total{mode="idle"}[15m])) by (instance)) * 100) > 80

这个指标里面涉及了我们几乎所有的知识点,他的主要目标是通过监控CPU空闲率来计算出现在CPU的繁忙程度,如果超过80%就需要报警了。

2. 查询

2.1. 查询普通的指标

如果我们只需要查询某一个指标的值,我们只需要把这个值放入查询框,此例中是node_cpu_seconds_total

image-20200725222816264.png
file

2.2. 选择(带标签的)查询

如果我们想选出某个标签等于特定值的结果,比如:mode=“idle”,就需要使用node_cpu_seconds_total{mode="idle"}

image-20200725222844802.png
file

2.3. 指定时间段

在指标的后面使用[15m]这种带时间参数的,就可以选出在15m之内的数值node_cpu_seconds_total{mode="idle"}[15m]

image-20200725222943122.png
file

感觉输出有点不太对劲啊,这是因为,如果要求一段时间内的值,这是需要使用一些修饰的,也就是rate和irate

2.4. rate和irate

rate结果如下

image-20200725223103669.png
file

irate结果如下

image-20200725223125141.png
file

irate和rate都会用于计算某个指标在一定时间间隔内的变化速率。但是它们的计算方法有所不同:irate取的是在指定时间范围内的最近两个数据点来算速率,而rate会取指定时间范围内所有数据点,算出一组速率,然后取平均值作为结果。

所以官网文档说:irate适合快速变化的计数器(counter),而rate适合缓慢变化的计数器(counter)。

根据以上算法我们也可以理解,对于快速变化的计数器,如果使用rate,因为使用了平均值,很容易把峰值削平。除非我们把时间间隔设置得足够小,就能够减弱这种效应。

2.5. 求平均值的函数

使用avg()函数可以求函数值,当然,我们还可以有其他的比如min(),max(),sum()等

image-20200725223308328.png

感觉结果又不太正确了,这是因为这边结果需要加上by,这和sql中的group by的道理是一样的,avg函数需要按照某一个by的字段进行求平均数

image-20200725223428061.png
file

2.6. 求出我们要的值

系统的使用是由很多部分组成的,但是空闲的部分缺只有一个,所以我们想得到系统使用率就用1减去空闲的百分比就是我们的系统使用率了,而不用再把每个使用CPU的指标相加。

image-20200725223746626.png
file

2.7. 优化

我们发现其实我们得出的结果往往是带小数的,比如0.8032,但是在实际的使用中,如果我们把指标定为0.8就报警,如果CPU有一些抖动就会影响报警了,所以我们使用100去乘以结果,得到80.32,然后使用round()函数去四舍五入得到整数,再去和80比较,就会得到一个整数去和80比较,看上去就比较清晰。

image-20200725223838650.png
file

为了方便大家学习,请大家加我的微信,我会把大家加到微信群(微信群的二维码会经常变)和qq群821119334,问题答案云原生技术课堂,有问题可以一起讨论

  • 个人微信
    640.jpeg

  • 腾讯课堂
    640-20200506145837072.jpeg

  • 微信公众号
    640-20200506145842007.jpeg

  • 专题讲座

2020 CKA考试视频 真题讲解 https://www.bilibili.com/video/BV167411K7hp

2020 CKA考试指南 https://www.bilibili.com/video/BV1sa4y1479B/

2020年 5月CKA考试真题 https://mp.weixin.qq.com/s/W9V4cpYeBhodol6AYtbxIA

你可能感兴趣的:(监控系列讲座(十三)Prometheus复杂查询)