twingao

Prometheus+Altermanger+Grafana+node-exporter安装和使用

简述

Prometheus是一个开源的系统监控和警报工具，该项目拥有非常活跃的开发人员和用户社区。它现在是一个独立的开源项目，独立于任何公司进行维护。Prometheus于2016年加入CNCF（云原生计算基金会），成为继 Kubernetes之后的第二个托管项目。2018年8月9日，CNCF宣布开放源代码监控工具 Prometheus已从孵化状态进入毕业状态。

Prometheus的主要特性：

一个多维数据模型，包含由metric和key/value标识的时间序列数据
PromQL是一种灵活的查询语言
不依赖分布式存储，单个服务器节点是自治的
基于HTTP协议通过pull形式进行收集时间序列数据
push形式的时间序列数据是通过一个中间网关来支持的
targets可以通过服务发现或静态配置发现的
多种模式的图形和仪表盘支持

下图描述了Prometheus的架构和生态系统。

Prometheus Server：用于收集和存储时间序列数据。
Client Library：客户端库，为需要监控的服务生成相应的metrics并暴露给Prometheus Server。当Prometheus Server来pull时，直接返回实时状态的metrics。
Push Gateway：主要用于短期的jobs。由于这类jobs存在时间较短，可能在Prometheus来pull之前就消失了。为此，这类jobs可以直接向Prometheus Server端推送它们的metrics。这种方式主要用于服务层面的metrics，对于机器层面的metrices，需要使用node exporter。
Exporters：用于暴露已有的第三方服务的metrics给Prometheus。
Alertmanager：从Prometheus Server端接收到Alerts后，会进行去除重复数据，分组，并路由到不同的告警接收方式，发出报警。常见的接收方式有：电子邮件，pagerduty，OpsGenie, webhook等。
Web UI：Prometheus内置一个简单的Web控制台，可以查询指标，查看配置信息或者Service Discovery等，实际工作中，查看指标或者创建仪表盘通常使用Grafana，Prometheus作为Grafana的数据源。
安装环境

IP	主机名	安装软件
192.168.1.69	prometheus-node1	prometheus, node-exporter, grafana
192.168.1.70	prometheus-node2	node-exporter, alertmanager

安装Prometheus

下载https://github.com/prometheus/prometheus/releases/download/v2.16.0/prometheus-2.16.0.linux-amd64.tar.gz。然后上传prometheus-2.16.0.linux-amd64.tar.gz到prometheus-node1节点并安装prometheus。

tar xzvf prometheus-2.16.0.linux-amd64.tar.gz
mkdir /usr/local/prometheus
mv prometheus-2.16.0.linux-amd64 /usr/local/prometheus/prometheus
cd /usr/local/prometheus/prometheus

查看版本号。

./prometheus --version
prometheus, version 2.16.0 (branch: HEAD, revision: b90be6f32a33c03163d700e1452b54454ddce0ec)
  build user:       root@7ea0ae865f12
  build date:       20200213-23:50:02
  go version:       go1.13.8

启动prometheus进程。

./prometheus
level=info ts=2020-03-23T15:23:27.799Z caller=main.go:295 msg="no time or size retention was set so using the default time retention" duration=15d
level=info ts=2020-03-23T15:23:27.799Z caller=main.go:331 msg="Starting Prometheus" version="(version=2.16.0, branch=HEAD, revision=b90be6f32a33c03163d700e1452b54454ddce0ec)"
level=info ts=2020-03-23T15:23:27.799Z caller=main.go:332 build_context="(go=go1.13.8, user=root@7ea0ae865f12, date=20200213-23:50:02)"
level=info ts=2020-03-23T15:23:27.799Z caller=main.go:333 host_details="(Linux 3.10.0-1062.18.1.el7.x86_64 #1 SMP Tue Mar 17 23:49:17 UTC 2020 x86_64 prometheus (none))"
level=info ts=2020-03-23T15:23:27.799Z caller=main.go:334 fd_limits="(soft=1024, hard=4096)"
level=info ts=2020-03-23T15:23:27.800Z caller=main.go:335 vm_limits="(soft=unlimited, hard=unlimited)"
level=info ts=2020-03-23T15:23:27.809Z caller=main.go:661 msg="Starting TSDB ..."
level=info ts=2020-03-23T15:23:27.811Z caller=web.go:508 component=web msg="Start listening for connections" address=0.0.0.0:9090
level=info ts=2020-03-23T15:23:27.817Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1584947587486 maxt=1584950400000 ulid=01E43E3D9ECWQY6T5HZ04R15PX
level=info ts=2020-03-23T15:23:27.818Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1584950400000 maxt=1584957600000 ulid=01E43GSF6T3PQRD2BN4XFHN52Y
level=info ts=2020-03-23T15:23:27.819Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1584957600000 maxt=1584964800000 ulid=01E43QN6EDJH3J5CP4F00MY8DN
level=info ts=2020-03-23T15:23:27.852Z caller=head.go:577 component=tsdb msg="replaying WAL, this may take awhile"
level=info ts=2020-03-23T15:23:27.966Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=0 maxSegment=7
level=info ts=2020-03-23T15:23:27.987Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=1 maxSegment=7
level=info ts=2020-03-23T15:23:28.100Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=2 maxSegment=7
level=info ts=2020-03-23T15:23:28.192Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=3 maxSegment=7
level=info ts=2020-03-23T15:23:28.193Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=4 maxSegment=7
level=info ts=2020-03-23T15:23:28.195Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=5 maxSegment=7
level=info ts=2020-03-23T15:23:28.195Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=6 maxSegment=7
level=info ts=2020-03-23T15:23:28.195Z caller=head.go:625 component=tsdb msg="WAL segment loaded" segment=7 maxSegment=7
level=info ts=2020-03-23T15:23:28.198Z caller=main.go:676 fs_type=XFS_SUPER_MAGIC
level=info ts=2020-03-23T15:23:28.198Z caller=main.go:677 msg="TSDB started"
level=info ts=2020-03-23T15:23:28.198Z caller=main.go:747 msg="Loading configuration file" filename=prometheus.yml
level=info ts=2020-03-23T15:23:28.204Z caller=main.go:775 msg="Completed loading of configuration file" filename=prometheus.yml
level=info ts=2020-03-23T15:23:28.205Z caller=main.go:630 msg="Server is ready to receive web requests."

访问prometheus，http://192.168.1.69:9090/。

也可以访问prometheus自监控指标，http://192.168.1.69:9090/metrics。

停止进程可以使用ctl+c。

^Clevel=warn ts=2020-03-23T15:23:30.646Z caller=main.go:507 msg="Received SIGTERM, exiting gracefully..."
level=info ts=2020-03-23T15:23:30.646Z caller=main.go:530 msg="Stopping scrape discovery manager..."
level=info ts=2020-03-23T15:23:30.646Z caller=main.go:544 msg="Stopping notify discovery manager..."
level=info ts=2020-03-23T15:23:30.646Z caller=main.go:566 msg="Stopping scrape manager..."
level=info ts=2020-03-23T15:23:30.647Z caller=manager.go:845 component="rule manager" msg="Stopping rule manager..."
level=info ts=2020-03-23T15:23:30.647Z caller=manager.go:851 component="rule manager" msg="Rule manager stopped"
level=info ts=2020-03-23T15:23:30.647Z caller=main.go:526 msg="Scrape discovery manager stopped"
level=info ts=2020-03-23T15:23:30.647Z caller=main.go:540 msg="Notify discovery manager stopped"
level=info ts=2020-03-23T15:23:30.647Z caller=main.go:560 msg="Scrape manager stopped"
level=info ts=2020-03-23T15:23:30.648Z caller=notifier.go:598 component=notifier msg="Stopping notification manager..."
level=info ts=2020-03-23T15:23:30.648Z caller=main.go:731 msg="Notifier manager stopped"
level=info ts=2020-03-23T15:23:30.649Z caller=main.go:743 msg="See you next time!"

设置自启动服务。

vi /etc/systemd/system/prometheus.service
[Unit]
Description=prometheus
After=network.target

[Service]
Type=simple
User=root
ExecStart=/usr/local/prometheus/prometheus/prometheus --config.file=/usr/local/prometheus/prometheus/prometheus.yml
Restart=on-failure

[Install]
WantedBy=multi-user.target

systemctl start prometheus
systemctl enable prometheus

安装node_exporter

下载https://github.com/prometheus/node_exporter/releases/download/v0.18.1/node_exporter-0.18.1.linux-amd64.tar.gz。然后上传node_exporter-0.18.1.linux-amd64.tar.gz并安装node_exporter。注意在prometheus-node1和prometheus-node2节点都安装。

tar zxvf node_exporter-0.18.1.linux-amd64.tar.gz
mkdir /usr/local/prometheus
mv node_exporter-0.18.1.linux-amd64 /usr/local/prometheus/node_exporter

查看node-exporter版本号。

/usr/local/prometheus/node_exporter/node_exporter --version
node_exporter, version 0.18.1 (branch: HEAD, revision: 3db77732e925c08f675d7404a8c46466b2ece83e)
  build user:       root@b50852a1acba
  build date:       20190604-16:41:18
  go version:       go1.12.5

设置自启动服务。

vi /etc/systemd/system/node_exporter.service
[Unit]
Description=node_export
Documentation=https://github.com/prometheus/node_exporter
After=network.target
 
[Service]
Type=simple
User=root
ExecStart=/usr/local/prometheus/node_exporter/node_exporter
Restart=on-failure

[Install]
WantedBy=multi-user.target

systemctl start node_exporter.service
systemctl status node_exporter.service
systemctl enable node_exporter.service

访问http://192.168.1.69:9100/metrics可以获取监控指标。

配置Prometheus，添加监控目标

scrape_configs块控制Prometheus监控的资源。由于Prometheus还将自己的数据公开为HTTP端点，因此它可以抓取并监控自身的健康状况。在默认配置中，有一个名为prometheus的作业，它会抓取Prometheus服务器公开的时间序列数据。该作业包含一个静态配置的目标，即端口9090上的localhost（此处改为本机地址192.168.1.69），监控数据从http://192.168.1.69:9090/metrics抓取。

在prometheus-node1和prometheus-node2节点上都安装了node-exporter，所以相应都配置了job。

vi /usr/local/prometheus/prometheus/prometheus.yml
# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  - job_name: 'prometheus'
    static_configs:
    - targets: ['192.168.1.69:9090']
      labels:
        instance: prometheus

  - job_name: 'node1'
    static_configs:
    - targets: ['192.168.1.69:9100']
      labels:
        instance: node1

  - job_name: 'node2'
    static_configs:
    - targets: ['192.168.1.70:9100']
      labels:
        instance: node2

访问Prometheus查看定义的目标主机http://192.168.1.69:9090/targets。

安装Alertmanager

下载https://github.com/prometheus/alertmanager/releases/download/v0.20.0/alertmanager-0.20.0.linux-amd64.tar.gz。然后上传alertmanager-0.20.0.linux-amd64.tar.gz到prometheus-node2，并安装Alertmanager。

tar zxvf alertmanager-0.20.0.linux-amd64.tar.gz
mv alertmanager-0.20.0.linux-amd64 /usr/local/prometheus/alertmanager

查看alertmanager版本号。

/usr/local/prometheus/alertmanager/alertmanager --version
alertmanager, version 0.20.0 (branch: HEAD, revision: f74be0400a6243d10bb53812d6fa408ad71ff32d)
  build user:       root@00c3106655f8
  build date:       20191211-14:13:14
  go version:       go1.13.5

设置自启动服务。

vi /etc/systemd/system/alertmanager.service
[Unit]
Description=Alertmanager
After=network.target

[Service]
Type=simple
User=root
ExecStart=/usr/local/prometheus/alertmanager/alertmanager --config.file=/usr/local/prometheus/alertmanager/alertmanager.yml
Restart=on-failure

[Install]
WantedBy=multi-user.target

systemctl start alertmanager.service
systemctl status alertmanager.service
systemctl enable alertmanager.service

访问Alertmanager，http://192.168.1.70:9093/。

修改prometheus.yml将alertmanagers加入监控目标。

vi /usr/local/prometheus/prometheus/prometheus.yml
# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets: ["192.168.1.70:9093"]

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  - job_name: 'prometheus'
    static_configs:
    - targets: ['192.168.1.69:9090','192.168.1.69:9100']
  - job_name: 'node1'
    static_configs:
    - targets: ['192.168.1.70:9100']

systemctl stop prometheus
systemctl start prometheus

可以查看http://192.168.1.69:9090/config看配置是否生效。

配置邮件告警

配置告警规则文件。

vi /usr/local/prometheus/prometheus/prometheus.yml
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.

alerting:
  alertmanagers:
  - static_configs:
    - targets: ["192.168.1.70:9093"]

rule_files:
  - /usr/local/prometheus/prometheus/rules/*.rules

scrape_configs:
  - job_name: 'prometheus'
    static_configs:
    - targets: ['192.168.1.69:9090']
      labels:
        instance: prometheus

  - job_name: 'node1'
    static_configs:
    - targets: ['192.168.1.69:9100']
      labels:
        instance: node1

  - job_name: 'node2'
    static_configs:
    - targets: ['192.168.1.70:9100']
      labels:
        instance: node2

配置告警规则，"up == 0"表示服务down。

vi /usr/local/prometheus/prometheus/rules/service_down.rules
groups:
- name: ServiceStatus
  rules:
  - alert: ServiceStatusAlert
    expr: up == 0
    for: 1m
    labels:
      project: APP
    annotations:
      summary: "Instance {
    { $labels.instance }} down"
      description: "{
    { $labels.instance }} of job {
    { $labels.job }} has been down for more than 1 minutes."

配置Alertmanager。

vi /usr/local/prometheus/alertmanager/alertmanager.yml
global:
  resolve_timeout: 5m
  smtp_smarthost: 'smtp.sina.cn:25'
  smtp_from: '[email protected]'
  smtp_auth_username: '[email protected]'
  smtp_auth_password: 'yyyyyyy'

templates:
  - 'template/*.tmpl'

route:
  group_by: ['alertname']
  group_wait: 10s
  group_interval: 60s
  repeat_interval: 1h
  receiver: 'email'

receivers:
  - name: 'email'
    email_configs:
    - to: '[email protected]'

重启Prometheus和Alertmanager服务。

systemctl stop prometheus
systemctl start prometheus

systemctl stop alertmanager
systemctl start alertmanager

查询服务的启停状态，可以看出三个监控的服务都是启动状态（up == 1表示正常，up == 0表示down）。

在Prometheus中查看alert配置，可以看出ServiceStatusAlert没有激活。

然后停止prometheus-node2节点的node_exporter服务。

systemctl stop node_exporter

再次查询服务的启停状态，可以看出{instance=“node2”,job=“node2”}服务down了。

node_exporter服务停止后，Prometheus每隔评估周期evaluation_interval（15s）抓取一次，发现告警表达式up == 0为true之后，Prometheus会先将ServiceStatusAlert变成pengding状态。

然后执行for子句，在下一个评估周期中，如果告警表达式仍然为true，则检查for的持续时间（1m）。如果没有超过持续时间，则等待下一个评估周期；如果超过了持续时间，则告警转换为Firing，生成通知并将其推送到Alertmanager。

如果下一个评估周期告警表达式不再为true，则Prometheus会将ServiceStatusAlert的状态从Pending更改回Inactive。

Pending到Firing的转换可以确保告警更有效，且不会来回浮动。没有for子句的告警会自动从Inactive转换为Firing，只需要一个评估周期即可触发。带有for子句的告警将首先转换为Pending，然后转换为Firing，因此至少需要两个评估周期才能触发。

告警可能有以下三种状态：

Inactive：警报未激活。
Pending：警报已满足告警表达式条件，但仍在等待for子句中指定的持续时间。
Firing：警报已满足告警表达式条件，并且Pending的时间已超过for子句的持续时间。

查看邮箱可以看出已经收到告警邮件。

在Alertmanager的http://192.168.1.70:9093/#/alerts可以看到该告警。

安装Grafana

下载https://dl.grafana.com/oss/release/grafana-6.7.1-1.x86_64.rpm。然后上传grafana-6.7.1-1.x86_64.rpm到prometheus-node1节点并安装grafana。

yum install -y grafana-6.7.1-1.x86_64.rpm
systemctl start grafana-server.service
systemctl status grafana-server.service
systemctl enable grafana-server.service

查看版本号。

/usr/local/prometheus/grafana/bin/grafana-server -v

访问Grafana，http://192.168.1.69:3000/，使用admin/admin登录。

导入预先构建看板Dashboard

点击"Add data source"，选择Prometheus作为数据源。

在URL输入框键入http://192.168.1.69:9090，点击"Save & Test"按钮，如果出现下图中的绿色"Data source is working"提示，则表示配置有效。

下面我们需要创建Dashboard看板，我们可以从Grafana官方的预先构建Dashboards列表中选择一个，https://grafana.com/grafana/dashboards，Grafana提供了很多不同数据源的预先构建的Dashboard，我们可以直接使用这些预先构建的Dashboard，而无需自己创建Dashboard。我们选择第一个并下载下来，文件名为1-node-exporter-for-prometheus-dashboard-update-1102_rev11.json。

回到Grafana首页，点击"New dashboard"，创建看板。

再点击左上角的"New dashboard"。

选择"import dashboard"。

点击"Upload .json file"按钮，将刚才下载的文件上传。

Name可以自行修改，folder选择General，Prometheus Data Source选择Prometheus，然后导入。

可以看到Prometheus数据源的看板，可以切换job，主机名等。

创建看板Dashboard

在"New dashboard"页面点击"Add Query"。

选择Prometheus数据源，我们展示CPU使用率metrics：“100 - (avg(irate(node_cpu_seconds_total{mode=“idle”}[5m])) by (instance) * 100)”。

Title输入"CPU使用率"，然后点击右上角的保存图标。

Dashboard起名为"测试用Prometheus Dashboard"。

你可能感兴趣的:(Prometheus,Prometheus,Grafana,Alertmanager,exporter)

运维颠覆！一文解锁AI赋能运维实战秘籍，效率飙升！ ivwdcwso 运维人工智能运维机器学习智能运维自动化运维故障预测
导语在科技飞速发展的当下，运维领域正经历着深刻变革，AI的融入成为提升运维效率与质量的关键。然而，许多运维人员虽对AI满怀期待，却不知如何将其真正落地到实际工作中。本文将深入实战，带你领略AI如何在运维各环节大显身手，让你的运维工作开启智能高效新模式。一、AI在故障预测与诊断中的实战故障预测实战数据收集：以Linux服务器为例，利用Prometheus监控工具收集服务器的CPU使用率、内存使用率、
云原生服务网格：微服务通讯的量子纠缠革命桂月二二云原生微服务架构
引言：从混沌到秩序的通讯规则重构蚂蚁集团服务网格日处理千亿级RPC调用，Lyft网关时延降至1.3ms。沃尔玛黑色星期五流量激增300%实现零故障，中国工商银行金丝雀发布准确率提升至99.99%。CNCF调查显示72%企业已采用服务网格，特斯拉车联网命令传输延迟0.1'''alerts=self.prometheus.query(query)foralertinalerts:trigger_cir
K8S学习之基础三十六：node-exporter部署云上艺旅 K8S学习 kubernetes 学习贪心算法 prometheus 云原生
Prometheusv2.2.1编写yaml文件，包含创建ns、configmap、deployment、service#创建monitoring空间viprometheus-ns.yamlapiVersion:v1kind:Namespacemetadata:name:monitoring#创建SA并绑定权限kubectlcreateserviceaccountmonitor-nmonitori
给我的 IM 系统加上监控两件套：【Prometheus + Grafana】蝎子莱莱爱打怪 prometheus grafana
监控是一个系统必不可少的组成部分，实时，准确的监控，将会大大有助于我们排查问题。而当今微服务系统的话有一个监控组合很火那就是Prometheus+Grafana，嘿你别说这俩兄弟配合的相当完美，Prometheus负责数据采集，Grafana负责可视化展示,各就其位，各司其职一起来完成监控这个活儿。紧接着我们简单对这两工具做个介绍~1、Prometheus与Grafana简介Prometheus作
微服务监控prometheus+Grafana chen2017sheng 经验总结微服务 prometheus grafana
目录Prometheus概述核心组件特点使用场景Grafana概述功能特点使用场景Prometheus+Grafana组合部署和配置一、准备工作二、部署Prometheus三、部署Grafana四、创建监控仪表盘五、验证和调优总结微服务监控是确保微服务架构稳定运行的关键环节，其中Prometheus与Grafana的组合是业界广泛采用的监控解决方案。以下是对这一组合的详细介绍：Prometheus
Prometheus+Grafana监控平台搭建_grafana专业监控项 2401_89828619 prometheus grafana
Prometheus提供多种类型的Exporter用于采集各种不同服务的运行状态。目前支持的有数据库、硬件、消息中间件、存储系统、HTTP服务器、JMX等。·alertmanager警告管理器，用来进行报警。·其他辅助性工具Prometheus系统架构图：它的服务过程是这样的Prometheusdaemon负责定时去目标上抓取metrics(指标)数据，每个抓取目标需要暴露一个http服务的接口给
使用 Docker 部署 Prometheus + Grafana 监控平台 2401_84048398 程序员 docker prometheus grafana
一、Prometheus简介==================================================================================Prometheus（普罗米修斯）是一套开源的监控&报警&时间序列数据库的组合，由SoundCloud公司开发。Prometheus基本原理是通过HTTP协议周期性抓取被监控组件的状态，这样做的好处是任意组件
K8S学习之基础三十四：K8S之监控Prometheus部署pod版云上艺旅 K8S学习 kubernetes 学习 prometheus 云原生
使用KubernetesPod的方式部署Prometheus是一种常见的方法，尤其是在容器化和微服务架构中。以下是详细的步骤：1.创建命名空间（可选）为了方便管理，可以为Prometheus创建一个单独的命名空间。yaml复制apiVersion:v1kind:Namespacemetadata:name:monitoring将上述内容保存为namespace.yaml，然后应用：bash复制ku
K8S学习之基础三十五：k8s之Prometheus部署模式云上艺旅 K8S学习 kubernetes 学习 prometheus 云原生容器
Prometheus有多种部署模式，适用于不同的场景和需求。以下是几种常见的部署模式：1.单节点部署这是最简单的部署模式，适用于小型环境或测试环境。特点：单个Prometheus实例负责所有的数据采集、存储和查询。配置简单，易于维护。不具备高可用性和扩展性。适用场景：小型项目或测试环境。对高可用性要求不高的场景。部署步骤：下载并解压Prometheus。配置prometheus.yml。启动Pro
Prometheus架构详解 HeZephyr 工具 prometheus 架构
1Prometheus简介Prometheus是一个开源的系统监控报警工具套件，它最初由SoundCloud开发，并于2016年成为CNCF（云原生计算基金会）托管的第二个项目（第一个是kubernetes）。Prometheus以其简单高效的方式收集指标而闻名，能更好地与容器平台、云平台配合，这使得它在现代云原生环境中非常受欢迎。Prometheus被广泛应用于各种场景中，包括但不限于：应用性能
【APM】Loki日志多行显示运维归一 DevOps APM loki 日志并行
上一篇文章我们搭建了Alertmanager和Loki，接下来我们来实现日志并行显示专栏：https://blog.csdn.net/zhanremo3062/category_12552674.html我们只需要修改Promtail服务的配置文件即可multiline:#RE2正则表达式，如果匹配将开始一个新的多行日志块#这个表达式必须被提供firstline:#解析的最大等待时间（Godura
kubernetes集群监控 Kube-Prometheus-Stack xiaojinran k8s prometheus docker 运维 kubernetes prometheus 容器 grafana
kubernetes集群监控概述Kubernetes（K8s）集群监控是指对Kubernetes集群中的各个组件和资源进行实时监测和数据收集，以获取对集群健康状态、性能指标和事件的可视化和告警。Kubernetes集群监控的内容通常包括以下几个方面：基础设施监控：监控物理服务器、虚拟机或云实例的资源使用情况，包括CPU、内存、磁盘和网络等指标。这可以帮助确保集群的底层基础设施正常运行，并及时发现资
配置企业微信报警 weixin_43806846 prometheus 企业微信
altermanager.yaml配置文件模板如下：global:resolve_timeout:2m#每2分钟检查一次是否恢复templates:#自定义通知模板‘/opt/monitor/alertmanager/template/wechat.tmpl’#route用来设置报警的分发策略route:采用哪个标签来作为分组依据group_by:[‘alertname’]#组告警等待时间。也就是
kube-prometheus-stack部署prometheus全栈监控k8s 时空无限 Kubernetes kubernetes
添加源helmrepoaddprometheus-communityhttps://prometheus-community.github.io/helm-charts更新源helmrepoupdate成功输出Hangtightwhilewegrabthelatestfromyourchartrepositories......Successfullygotanupdatefromthe"prom
k8s-06-prometheus-stack 多懂一些 kubernetes 实战 nginx linux centos prometheus
安装#下载yaml#[下载](https://github.com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack)#镜像下载dockerlogin--username=xxxx registry.cn-shanghai.aliyuncs.comdockerpullregistry.cn-shangha
prometheus-helm的使用 weixin_43806846 prometheus
1、部署Prometheus监控平台1、下载安装Prometheus（当前集群版本1.26.3）gitclonehttps://github.com/prometheus-operator/kube-prometheus.git-brelease-0.12安装：cdkube-prometheus/创建命名空间和crd：kubectlapply--server-side-fmanifests/set
springboot集成钉钉_钉钉通知机器人与SpringBoot的集成 weixin_39622643 springboot集成钉钉
SpringBootAdmin集成自定义监控告警(2.0.1版本)------钉钉机器人-yuancao24的博客-CSDN博客https://blog.csdn.net/yuancao24/article/details/83576194prometheus-spring-boot-starter:一个管理异常通知的神奇starter，实现了钉钉消息提醒与邮件提醒https://gitee.co
K8s 集群监控：从指标采集到可视化展示的完整方案花笺墨韵 kubernetes
目录一、引言二、指标采集（一）K8s内置指标（二）Prometheus指标采集三、数据存储（一）Prometheus本地存储（二）远程存储四、可视化展示（一）Grafana基础（二）K8s相关仪表盘模板五、总结一、引言Kubernetes（K8s）集群环境复杂且动态变化，应用程序的运行状况、资源的使用情况时刻都在改变。为了保障K8s集群高效、稳定地运行，及时发现潜在问题并做出响应，一套完善的监控体
Prometheus + Grafana 配置监控指标笑远 prometheus grafana 运维数据库
Prometheus+Grafana配置监控指标在前一篇指南中，我们详细介绍了如何安装和配置Prometheus与Grafana。接下来，我们将深入探讨如何配置Prometheus来采集具体的监控指标，并使用Grafana将这些指标可视化。本指南将涵盖以下内容：选择和配置Exporters（除了NodeExporter之外）配置Prometheus以采集相关指标在Grafana中创建和配置仪表板高
DevOps工具链 zhangpeng455547940 devops 运维
DevOps工具链的核心组成部分包括：代码编辑和版本控制工具svn、git自动化构建工具Jenkins、GitLabCI/CD、TravisCI持续集成和持续部署工具Jenkins、Ansible容器编排工具K8S、DockerSwarm持续监控工具Prometheus，Grafana，InfluxDB服务配置管理工具Ansible，Chef，PuppetGit：代码管理Maven：依赖管理、项目
K8S日常问题优化沉默的八哥运维运维 kubernetes
在实际工作中，优化Kubernetes的性能和成本通常需要结合资源利用率分析、集群配置调整以及自动化工具的整合。以下是我在项目中实践过的一些典型优化场景和解决方案：一、资源利用率优化1.合理配置Requests/Limits问题：许多团队未准确设置Pod的requests和limits，导致资源浪费或频繁OOM。优化方法：使用Prometheus+Grafana监控Pod的实际CPU/内存使用量。
【Prometheus】prometheus 架构介绍 Learn Forever Prometheus 架构运维 docker
1.组件说明prometheusserver是Prometheus组件中的核心部分，负责实现对监控数据的获取，存储以及查询。exporter简单说是采集端，通过http服务的形式保留一个url地址，prometheusserver通过访问该exporter提供的endpoint端点，即可获取到需要采集的监控数据。AlertManager在prometheus中，支持基于PromQL创建告警规则，如
物联网实时数据存储方案选择动亦定 MySQL 物联网数据库物联网时序数据库数据库
存储物联网设备发出的实时数据时，需考虑数据量、速度、类型和访问需求。以下是几种常见的存储方案：1.时序数据库适用场景:适合处理时间序列数据，如传感器数据。优点:高效存储和查询时间序列数据，支持高写入和查询吞吐量。常见选择:InfluxDB、TimescaleDB、Prometheus。2.NoSQL数据库适用场景:适合非结构化或半结构化数据，如JSON、XML。优点:灵活的数据模型，易于扩展，适合
k8s集群中部署dcgm-exporter收集GPU指标 thinkerCoder kubernetes 容器运维 GPU
总体步骤：部署dcgm-exporter的DaemonSet和Service，确保Service有正确的标签和端口。创建ServiceMonitor，选择dcgm-exporter的Service，并指定端口。检查Prometheus的targets页面，确认dcgm-exporter是否被正确发现和抓取。可能需要调整Prometheus的RBAC或网络策略，确保访问权限。1，部署dcgm-exp
在线监控+日志分析方案徐福记c 运维运维
1.在线监控系统设计技术选型：Prometheus+Grafana+各ExporterPrometheus：负责定时拉取各服务指标数据并存储。Grafana：可视化仪表盘，支持多数据源（Prometheus、Loki等）。Exporter：SpringBoot应用：通过Micrometer暴露/actuator/prometheus端点。MySQL：部署mysqld_exporter采集数据库性能
使用Yarn创建Grafana模板的完整指南云服务器linux运维yarn
在本篇文章中，我将带你逐步完成如何使用Yarn生成Grafana模板的过程。Grafana是一款开源的数据可视化工具，我们可以使用它来创建各种仪表板，以便更好地监控和展示数据。请跟随我一起来完成这一过程。整体流程概览在开始之前，我们先来看看整个操作的流程。以下是步骤的概述，以表格形式展示：步骤描述1安装Node.js和Yarn2创建新的Yarn项目3安装Grafana的API客户端库4编写Graf
ansbile 批量部署 node-exporter BUG弄潮儿 java
下载node-exporterhttps://github.com/prometheus/node_exporter/releases下载ansiblehttps://github.com/ansible/ansible/releases启动node-exporterservice文件node-exporter.service[Unit]Description=node_exporterRequi
k8s下部署ansible进行node-export二安装 BUG弄潮儿 kubernetes ansible 容器云原生
下载node-exporterhttps://github.com/prometheus/node_exporter/releases下载ansiblehttps://github.com/ansible/ansible/releases启动node-exporterservice文件node-exporter.service[Unit]Description=node_exporterRequi
是时候解决告警事件数据孤岛问题了监控告警告警风暴
大家有没有发现，随着公司发展，慢慢引入了越来越多的监控、可观测性的系统，云上的、云下的，开源的、商业的，通用的、特定产品的，导致告警事件分散在非常多的地方，形成一个一个的数据孤岛。比如下面这些监控系统，你们应该不止用了一个吧：上图中有些系统你可能会困惑，比如OceanBase，明明是个数据库，为啥出现在这里。因为OceanBase自己内置有自己的监控能力，没有复用Prometheus之类的通用监控
构建高可用性、高性能和可扩展的Zabbix Server架构运维
简介本教程讲解了一下如何设计构建一个高性能、高可靠、高扩展的Zabbix监控集群。架构图架构图PDF下载：https://songxwn.com/file/Zabbix\_HA.pdfPigsty时序数据库集群ZabbixServer和Grafana的数据都是存放在数据库的，而Zabbix性能很大程度取决于数据库。所以要搭建数据库集群，提供性能和冗余性。(数据库最好使用SSD，最好是NVMESSD
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Prometheus+Altermanger+Grafana+node-exporter安装和使用

简述

安装环境

安装Prometheus

安装node_exporter

配置Prometheus，添加监控目标

安装Alertmanager

配置邮件告警

安装Grafana

导入预先构建看板Dashboard

创建看板Dashboard

你可能感兴趣的:(Prometheus,Prometheus,Grafana,Alertmanager,exporter)