搭建监控体系

第一步:安装promethues

1.prometheus 的下载地址

https://prometheus.io/download/#prometheus

2.下载,上传到服务器

3解压tar -zxvf ./prometheus-2.28.0.linux-amd64.tar.gz

4.启动pormetheus

/prometheus --config.file=prometheus.yml

5..http://ip:9090 查看图形界面


## 第二部,安装图形界面

1.下载地址:

https://grafana.com/grafana/download/7.4.5?platform=linux

下载下来手动导入。

2.第二种在线安装比较慢:

mkdir grafana

wget https://dl.grafana.com/oss/release/grafana-7.4.5-1.x86_64.rpm

sudo yum install grafana-7.4.5-1.x86_64.rpm

安装完成之后使用启动命令:

systemctl start grafana-server

systemctl status grafana-server

systemctl stop grafana-server

访问界面在浏览器中访问grafana:http://ip:3000(默认账号密码为admin)



第三部 安装node-export

1.下载地址

https://github.com/prometheus/node_exporter/releases/download/v0.18.1/node_exporter-0.18.1.linux-amd64.tar.gz

2.上传到服务器

3. tar -zxvf  解压文件

[root@iz2ze4cwp14hjrk1xbz06kz software]# cd ./node_exporter-1.1.2.linux-amd64

[root@iz2ze4cwp14hjrk1xbz06kz node_exporter-1.1.2.linux-amd64]# ls

LICENSE  node_exporter  nohup.out  NOTICE

执行启动方法

[root@iz2ze4cwp14hjrk1xbz06kz node_exporter-1.1.2.linux-amd64]#nohup  ./node_exporter &

4.进入 prometheus.yml 添加如下代码,以便于,可以监听到node_export


prometheus.yml



5.proetheus的监控到node_export


监控到node_export

第四步:搭建 aletrmanager

1.下载地址

下载安装Alertmanager:

https://github.com/prometheus/alertmanager/releases

wget https://github.com/prometheus/alertmanager/releases/download/v0.19.0/alertmanager-0.19.0.linux-amd64.tar.gz

[root@iz2ze4cwp14hjrk1xbz06kz software]# tar -zxvf ./alertmanager-0.19.0.linux-amd64

[root@iz2ze4cwp14hjrk1xbz06kz alertmanager-0.19.0.linux-amd64]# ls

alertmanager  alertmanager.yml  amtool  data  LICENSE  nohup.out  NOTICE

//启动

[root@iz2ze4cwp14hjrk1xbz06kz alertmanager-0.19.0.linux-amd64]# nohup ./alertmanager --config.file=alertmanager.yml &




aletrmanager的界面。

alertmanager的告警的设置:


Alertmanager是一个独立的告警模块,接收Prometheus等客户端发来的警报,之后通过分组、删除重复等处理,并将它们通过路由发送给正确的接收器。

Prometheus的警报分为两个部分。Prometheus服务器中的警报规则将警报发送到Alertmanager。该Alertmanager 然后管理这些警报,包括沉默,抑制,聚集和通过的方法,如电子邮件发出通知,对呼叫通知系统,以及即时通讯平台。

设置警报和通知的主要步骤:

1) 设置并配置Alertmanager;

2) 配置Prometheus对Alertmanager访问;

3) 在普罗米修斯创建警报规则;



Alert的三种状态:

1) pending:警报被激活,但是低于配置的持续时间。这里的持续时间即rule里的FOR字段设置的时间。改状态下不发送报警。

2) firing:警报已被激活,而且超出设置的持续时间。该状态下发送报警。

3) inactive:既不是pending也不是firing的时候状态变为inactive

prometheus触发一条告警的过程:

流程触发图



rule规则校验:

https://prometheus.io/docs/prometheus/latest/configuration/unit_testing_rules/


rule例子:https://www.cnblogs.com/galsnag/articles/13202110.html


rules的自己的例子

链接: https://pan.baidu.com/s/1zZ0ttBAC0M57VDAvYPFCDw 提取码: stq2


配置rule文件

rule.xml



界面显示已激活



promethuems.yml中告警模块中的配置

重新启动一下服务就可以了


过段时间,补上邮箱提醒功能,以及influexdb与jemter的整合

至此,所有的配置都已经完善了

你可能感兴趣的:(搭建监控体系)