Prometheus+Grafana+onealert---实现报警

目录

引言

一、Grafana+onealert报警

 1.1、在Grafana中配置Webhook URL

 1.2、测试cpu负载告警

1.3、测试报警


引言

Prometheus+grafana监控--初探_IT.cat的博客-CSDN博客

Prometheus和grafana如何搭建前面一篇博客也已经写过了,这里主要实现,当内存、cpu等其他资源在冲高情况下,实现报警。

一、Grafana+onealert报警

Prometheus 报警需要使用 alertmanager 这个组件,而且报警规则需要手动编写(对运维来说不友好)。所以我这里选用 grafana+onealert 报警。注意:实现报警前把所有机器时间同步再检查一遍。

登陆http://www.onealert.com/→注册帐户→登入后台管理

Prometheus+Grafana+onealert---实现报警_第1张图片

Prometheus+Grafana+onealert---实现报警_第2张图片

 获取appkey

Prometheus+Grafana+onealert---实现报警_第3张图片

 1.1、在Grafana中配置Webhook URL

1、在Grafana中创建Notification channel,选择类型为Webhook;
2、推荐选中Send on all alerts和Include image,Cloud Alert体验更佳;
3、将第一步中生成的Webhook URL填入Webhook settings Url;
URL格式:
http://api.aiops.com/alert/api/event/prometheus/bd8cc0af7b2644f1834a8d0b9d9e5ced
 
4、Http Method选择POST;
5、Send Test&Save;

Prometheus+Grafana+onealert---实现报警_第4张图片

Prometheus+Grafana+onealert---实现报警_第5张图片

Prometheus+Grafana+onealert---实现报警_第6张图片

Prometheus+Grafana+onealert---实现报警_第7张图片

Prometheus+Grafana+onealert---实现报警_第8张图片

 1.2、测试cpu负载告警

现在可以去设置一个报警来测试了(这里以我们前面加的 cpu 负载监控来做测试)

Prometheus+Grafana+onealert---实现报警_第9张图片

#查看cpu占用率
(1- ((sum(increase(node_cpu_seconds_total{mode="idle"}[1m])) by(instance)) / (sum(increase(node_cpu_seconds_total[1m])) by(instance))))*100

Prometheus+Grafana+onealert---实现报警_第10张图片

Prometheus+Grafana+onealert---实现报警_第11张图片

 Prometheus+Grafana+onealert---实现报警_第12张图片

Prometheus+Grafana+onealert---实现报警_第13张图片

Prometheus+Grafana+onealert---实现报警_第14张图片

Prometheus+Grafana+onealert---实现报警_第15张图片

1.3、测试报警

在被监控端下载一个stress测试工具

yum install -y epel*
yum install -y stress

开始测试

设置压6核cpu,此时cpu就会被冲高

发来的报警如下图

Prometheus+Grafana+onealert---实现报警_第16张图片

 睿象云也会爆出此问题Prometheus+Grafana+onealert---实现报警_第17张图片

 我们解决问题后,只需要点关闭就行,就会当作问题被解决了

Prometheus+Grafana+onealert---实现报警_第18张图片

你可能感兴趣的:(Prometheus,prometheus,grafana,linux,docker,容器)