最爱喝酸奶

docker-compose 部署prometheus + grafana

通过docker-compose部署prometheus、node-exporter、alertmanager和grafana。prometheus最新版本：2.19.2

mkdir -p /home/prom/{prometheus,prometheus/data,alertmanager,grafana}

chmod 777 /home/prom/{prometheus/data,grafana}

cd /home/prom

tree .

.
├── alertmanager
│   ├── alertmanager.yml
│   └── config.yml
├── docker-compose.yml
├── grafana
└── prometheus
    ├── alert-rules.yml
    ├── data
    └── prometheus.yml

4 directories, 5 files

Prometheus

vim /home/prom/prometheus/alert-rules.yml

groups:
  - name: node-alert
    rules:
    - alert: NodeDown
      expr: up{job="node"} == 0
      for: 5m
      labels:
        severity: critical
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} down"
        description: "Instance: {{ $labels.instance }} 已经宕机 5分钟"
        value: "{{ $value }}"
        
    - alert: NodeCpuHigh
      expr: (1 - avg by (instance) (irate(node_cpu_seconds_total{job="node",mode="idle"}[5m]))) * 100 > 80
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} cpu使用率过高"
        description: "CPU 使用率超过 80%"
        value: "{{ $value }}"

    - alert: NodeCpuIowaitHigh
      expr: avg by (instance) (irate(node_cpu_seconds_total{job="node",mode="iowait"}[5m])) * 100 > 50
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} cpu iowait 使用率过高"
        description: "CPU iowait 使用率超过 50%"
        value: "{{ $value }}"

    - alert: NodeLoad5High
      expr: node_load5 > (count by (instance) (node_cpu_seconds_total{job="node",mode='system'})) * 1.2
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} load(5m) 过高"
        description: "Load(5m) 过高，超出cpu核数 1.2倍"
        value: "{{ $value }}"

    - alert: NodeMemoryHigh
      expr: (1 - node_memory_MemAvailable_bytes{job="node"} / node_memory_MemTotal_bytes{job="node"}) * 100 > 90
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} memory 使用率过高"
        description: "Memory 使用率超过 90%"
        value: "{{ $value }}"

    - alert: NodeDiskRootHigh
      expr: (1 - node_filesystem_avail_bytes{job="node",fstype=~"ext.*|xfs",mountpoint ="/"} / node_filesystem_size_bytes{job="node",fstype=~"ext.*|xfs",mountpoint ="/"}) * 100 > 90
      for: 10m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk(/ 分区) 使用率过高"
        description: "Disk(/ 分区) 使用率超过 90%"
        value: "{{ $value }}"

    - alert: NodeDiskBootHigh
      expr: (1 - node_filesystem_avail_bytes{job="node",fstype=~"ext.*|xfs",mountpoint ="/boot"} / node_filesystem_size_bytes{job="node",fstype=~"ext.*|xfs",mountpoint ="/boot"}) * 100 > 80
      for: 10m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk(/boot 分区) 使用率过高"
        description: "Disk(/boot 分区) 使用率超过 80%"
        value: "{{ $value }}"

    - alert: NodeDiskReadHigh
      expr: irate(node_disk_read_bytes_total{job="node"}[5m]) > 20 * (1024 ^ 2)
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk 读取字节数 速率过高"
        description: "Disk 读取字节数 速率超过 20 MB/s"
        value: "{{ $value }}"

    - alert: NodeDiskWriteHigh
      expr: irate(node_disk_written_bytes_total{job="node"}[5m]) > 20 * (1024 ^ 2)
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk 写入字节数 速率过高"
        description: "Disk 写入字节数 速率超过 20 MB/s"
        value: "{{ $value }}"
        
    - alert: NodeDiskReadRateCountHigh
      expr: irate(node_disk_reads_completed_total{job="node"}[5m]) > 3000
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk iops 每秒读取速率过高"
        description: "Disk iops 每秒读取速率超过 3000 iops"
        value: "{{ $value }}"

    - alert: NodeDiskWriteRateCountHigh
      expr: irate(node_disk_writes_completed_total{job="node"}[5m]) > 3000
      for: 5m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk iops 每秒写入速率过高"
        description: "Disk iops 每秒写入速率超过 3000 iops"
        value: "{{ $value }}"

    - alert: NodeInodeRootUsedPercentHigh
      expr: (1 - node_filesystem_files_free{job="node",fstype=~"ext4|xfs",mountpoint="/"} / node_filesystem_files{job="node",fstype=~"ext4|xfs",mountpoint="/"}) * 100 > 80
      for: 10m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk(/ 分区) inode 使用率过高"
        description: "Disk (/ 分区) inode 使用率超过 80%"
        value: "{{ $value }}"

    - alert: NodeInodeBootUsedPercentHigh
      expr: (1 - node_filesystem_files_free{job="node",fstype=~"ext4|xfs",mountpoint="/boot"} / node_filesystem_files{job="node",fstype=~"ext4|xfs",mountpoint="/boot"}) * 100 > 80
      for: 10m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} disk(/boot 分区) inode 使用率过高"
        description: "Disk (/boot 分区) inode 使用率超过 80%"
        value: "{{ $value }}"
        
    - alert: NodeFilefdAllocatedPercentHigh
      expr: node_filefd_allocated{job="node"} / node_filefd_maximum{job="node"} * 100 > 80
      for: 10m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} filefd 打开百分比过高"
        description: "Filefd 打开百分比 超过 80%"
        value: "{{ $value }}"

    - alert: NodeNetworkNetinBitRateHigh
      expr: avg by (instance) (irate(node_network_receive_bytes_total{device=~"eth0|eth1|ens33|ens37"}[1m]) * 8) > 20 * (1024 ^ 2) * 8
      for: 3m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} network 接收比特数 速率过高"
        description: "Network 接收比特数 速率超过 20MB/s"
        value: "{{ $value }}"

    - alert: NodeNetworkNetoutBitRateHigh
      expr: avg by (instance) (irate(node_network_transmit_bytes_total{device=~"eth0|eth1|ens33|ens37"}[1m]) * 8) > 20 * (1024 ^ 2) * 8
      for: 3m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} network 发送比特数 速率过高"
        description: "Network 发送比特数 速率超过 20MB/s"
        value: "{{ $value }}"
        
    - alert: NodeNetworkNetinPacketErrorRateHigh
      expr: avg by (instance) (irate(node_network_receive_errs_total{device=~"eth0|eth1|ens33|ens37"}[1m])) > 15
      for: 3m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} 接收错误包 速率过高"
        description: "Network 接收错误包 速率超过 15个/秒"
        value: "{{ $value }}"

    - alert: NodeNetworkNetoutPacketErrorRateHigh
      expr: avg by (instance) (irate(node_network_transmit_packets_total{device=~"eth0|eth1|ens33|ens37"}[1m])) > 15
      for: 3m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} 发送错误包 速率过高"
        description: "Network 发送错误包 速率超过 15个/秒"
        value: "{{ $value }}"

    - alert: NodeProcessBlockedHigh
      expr: node_procs_blocked{job="node"} > 10
      for: 10m
      labels:
        severity: warning
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} 当前被阻塞的任务的数量过多"
        description: "Process 当前被阻塞的任务的数量超过 10个"
        value: "{{ $value }}"

    - alert: NodeTimeOffsetHigh
      expr: abs(node_timex_offset_seconds{job="node"}) > 3 * 60
      for: 2m
      labels:
        severity: info
        instance: "{{ $labels.instance }}"
      annotations:
        summary: "instance: {{ $labels.instance }} 时间偏差过大"
        description: "Time 节点的时间偏差超过 3m"
        value: "{{ $value }}"

vim /home/prom/prometheus/prometheus.yml

global:
  scrape_interval:     15s
  evaluation_interval: 15s

alerting:
  alertmanagers:
  - static_configs:
    - targets:
      - alertmanager:9093

rule_files:
  - "*rules.yml"
  
scrape_configs:
  - job_name: 'prometheus'
    static_configs:
    - targets: ['prometheus:9090']

  - job_name: 'node'
    static_configs:
    - targets: ['node-exporter:9100']

  - job_name: 'alertmanager'
    static_configs:
    - targets: ['alertmanager:9093']

Alertmanager

vim /home/prom/alertmanager/config.yml

targets:
  webhook:
    url: https://oapi.dingtalk.com/robot/send?access_token=xxxxxxxxxxxx             #修改为钉钉机器人的webhook
    mention:
      all: true

vim /home/prom/alertmanager/alertmanager.yml

global:
  resolve_timeout: 5m
  smtp_smarthost: 'smtp.163.com:465'             #邮箱smtp服务器代理，启用SSL发信, 端口一般是465
  smtp_from: '[email protected]'              #发送邮箱名称
  smtp_auth_username: '[email protected]'              #邮箱名称
  smtp_auth_password: 'password'                #邮箱密码或授权码
  smtp_require_tls: false

route:
  receiver: 'default'
  group_wait: 10s
  group_interval: 1m
  repeat_interval: 1h
  group_by: ['alertname']

inhibit_rules:
- source_match:
    severity: 'critical'
  target_match:
    severity: 'warning'
  equal: ['alertname', 'instance']
  
receivers:
- name: 'default'
  email_configs:
  - to: '[email protected]'
    send_resolved: true
  webhook_configs:
  - url: 'http://dingtalk:8060/dingtalk/webhook/send'
    send_resolved: true

docker-compose.yml

vim /home/prom/docker-compose.yml

version: '3.7'

services:
  node-exporter:
    image: prom/node-exporter:latest
    ports:
      - "9100:9100"
    networks:
      - prom

  dingtalk:
    image: timonwong/prometheus-webhook-dingtalk:latest
    volumes:
      - type: bind
        source: ./alertmanager/config.yml
        target: /etc/prometheus-webhook-dingtalk/config.yml
        read_only: true
    ports:
      - "8060:8060"
    networks:
      - prom

  alertmanager:
    depends_on:
      - dingtalk
    image: prom/alertmanager:latest
    volumes:
      - type: bind
        source: ./alertmanager/alertmanager.yml
        target: /etc/alertmanager/alertmanager.yml
        read_only: true
    ports:
      - "9093:9093"
      - "9094:9094"
    networks:
      - prom

  prometheus:
    depends_on:
      - alertmanager
    image: prom/prometheus:latest
    volumes:
      - type: bind
        source: ./prometheus/prometheus.yml
        target: /etc/prometheus/prometheus.yml
        read_only: true
      - type: bind
        source: ./prometheus/alert-rules.yml
        target: /etc/prometheus/alert-rules.yml
        read_only: true
      - type: volume
        source: prometheus
        target: /prometheus
    ports:
      - "9090:9090"
    networks:
      - prom

  grafana:
    depends_on:
      - prometheus
    image: grafana/grafana:latest
    volumes:
      - type: volume
        source: grafana
        target: /var/lib/grafana
    ports:
      - "3000:3000"
    networks:
      - prom

volumes:
  prometheus:
    driver: local
    driver_opts:
      type: none
      o: bind
      device: /home/prom/prometheus/data
  grafana:
    driver: local
    driver_opts:
      type: none
      o: bind
      device: /home/prom/grafana
      
networks:
  prom:
    driver: bridge

docker-compose up -d

docker-compose ps

        Name                      Command               State                       Ports                     
--------------------------------------------------------------------------------------------------------------
prom_alertmanager_1    /bin/alertmanager --config ...   Up      0.0.0.0:9093->9093/tcp, 0.0.0.0:9094->9094/tcp
prom_dingtalk_1        /bin/prometheus-webhook-di ...   Up      0.0.0.0:8060->8060/tcp                        
prom_grafana_1         /run.sh                          Up      0.0.0.0:3000->3000/tcp                        
prom_node-exporter_1   /bin/node_exporter               Up      0.0.0.0:9100->9100/tcp                        
prom_prometheus_1      /bin/prometheus --config.f ...   Up      0.0.0.0:9090->9090/tcp

docker ps

CONTAINER ID        IMAGE                                          COMMAND                  CREATED             STATUS              PORTS                              NAMES
c1ec4cc9c41f        grafana/grafana:latest                         "/run.sh"                36 seconds ago      Up 36 seconds       0.0.0.0:3000->3000/tcp             prom_grafana_1
8cd521c327d8        prom/prometheus:latest                         "/bin/prometheus --c…"   37 seconds ago      Up 36 seconds       0.0.0.0:9090->9090/tcp             prom_prometheus_1
ef93c8c06ca0        prom/alertmanager:latest                       "/bin/alertmanager -…"   37 seconds ago      Up 37 seconds       0.0.0.0:9093-9094->9093-9094/tcp   prom_alertmanager_1
d358a2a39b8d        timonwong/prometheus-webhook-dingtalk:latest   "/bin/prometheus-web…"   38 seconds ago      Up 37 seconds       0.0.0.0:8060->8060/tcp             prom_dingtalk_1
366ff81e7a65        prom/node-exporter:latest                      "/bin/node_exporter"     38 seconds ago      Up 37 seconds       0.0.0.0:9100->9100/tcp             prom_node-exporter_1

容器启动正常，访问ip:9090，

访问ip:3000，

可以看到，prometheus各组件状态正常。

node-exporter

其实node-exporter不需要通过docker-compose启动，对于每个要监控的主机，直接docker启动node-exporter：

docker pull prom/node-exporter:latest

docker run -d -p 9100:9100 --name node-exporter prom/node-exporter:latest

之后修改prometheus.yml，重启所有容器：

docker-compose restart

测试告警

docker stop prom_node-exporter_1

docker-compose ps

        Name                      Command               State                        Ports                     
---------------------------------------------------------------------------------------------------------------
prom_alertmanager_1    /bin/alertmanager --config ...   Up       0.0.0.0:9093->9093/tcp, 0.0.0.0:9094->9094/tcp
prom_dingtalk_1        /bin/prometheus-webhook-di ...   Up       0.0.0.0:8060->8060/tcp                        
prom_grafana_1         /run.sh                          Up       0.0.0.0:3000->3000/tcp                        
prom_node-exporter_1   /bin/node_exporter               Exit 2                                                 
prom_prometheus_1      /bin/prometheus --config.f ...   Up       0.0.0.0:9090->9090/tcp

收到钉钉和邮件故障告警，

docker start prom_node-exporter_1

docker-compose ps

        Name                      Command               State                       Ports                     
--------------------------------------------------------------------------------------------------------------
prom_alertmanager_1    /bin/alertmanager --config ...   Up      0.0.0.0:9093->9093/tcp, 0.0.0.0:9094->9094/tcp
prom_dingtalk_1        /bin/prometheus-webhook-di ...   Up      0.0.0.0:8060->8060/tcp                        
prom_grafana_1         /run.sh                          Up      0.0.0.0:3000->3000/tcp                        
prom_node-exporter_1   /bin/node_exporter               Up      0.0.0.0:9100->9100/tcp                        
prom_prometheus_1      /bin/prometheus --config.f ...   Up      0.0.0.0:9090->9090/tcp

收到钉钉和邮件恢复告警，

测试宕机完成，告警没有问题。

docker-compose部署 prometheus + grafana 完成，整个部署过程相比传统部署方式要简便很多。已存放至个人github：docker-compose

Spring Boot Docker容器监控 - 容器化环境监控方案全面指南 Clf丶忆笙 spring boot docker 后端
文章目录一、容器监控基础概念与重要性1.1为什么需要容器监控1.2容器监控与传统监控的区别1.3核心监控指标分类二、SpringBoot与Docker监控基础集成2.1SpringBootActuator基础配置2.2基础Docker监控配置2.3监控数据可视化基础三、高级监控方案实现3.1多维度JVM监控3.2自定义业务指标3.3容器资源限制与监控四、全链路监控方案4.1集成Prometheus
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
Spring Boot应用监控与管理：Actuator+Prometheus+Grafana终极指南（2025） allenXer Spring Boot 信息可视化 spring boot java
SpringBoot应用监控与管理：Actuator+Prometheus+Grafana终极指南（2025）随着微服务架构的普及，应用监控已成为生产环境的必备能力。本文深入探讨如何通过SpringBootActuator提供深度应用监控，配合Prometheus和Grafana构建完整的企业级监控解决方案。一、监控架构全景图1.1监控技术栈组成1.2核心组件功能对比组件角色关键能力Actuato
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
涨薪技术|Prometheus之PromQL操作符川石课堂软件测试 prometheus python 数据库 postman 测试工具 appium 功能测试
使用PromQL除了能够方便的按照查询和过滤时间序列以外，PromQL还支持丰富的操作符，用户可以使用这些操作符对进一步的对事件序列进行二次加工。这些操作符包括：数学运算符，逻辑运算符，布尔运算符等等。01数学运算例如，我们可以通过指标node_memory_free_bytes_total获取当前主机可用的内存空间大小，其样本单位为Bytes。这是如果客户端要求使用MB作为单位响应数据，那只需要
构建企业级大模型运行监控体系：健康度五级指标与实战部署路径全解析
构建企业级大模型运行监控体系：健康度五级指标与实战部署路径全解析关键词：模型运行监控、健康度分级体系、DeepSeek、私有化部署、Prometheus、Grafana、异常检测、推理稳定性、性能观测、可视化大屏摘要：在DeepSeek大模型私有化部署的生产环境中，传统的“是否可用”监控已难以满足对模型稳定性、推理质量与异常风险的精细管理需求。为此，企业必须构建一套基于五级健康度模型的全维监控体系
Pushgateway扩展Prometheus监控 ivwdcwso 运维与云原生 prometheus k8s 云原生
Pushgateway是Prometheus生态系统中的一个重要组件,它允许我们将短期作业或批处理任务的指标推送到Prometheus中。本文将详细介绍如何安装、配置和使用Pushgateway来扩展Prometheus监控。1.Pushgateway简介Pushgateway主要用于解决以下场景:短期作业无法被Prometheus直接抓取批处理任务需要推送指标防火墙后的应用需要主动推送指标它作为
Prometheus系列01-Prometheus的单机版二进制部署 tinychen777 Devops linux 监控程序 centos
作为CNCF中最成功的开源项目之一，Prometheus已经成为了云原生监控的代名词，被广泛应用在Kubernetes和OpenShift等项目中，同时有很多第三方解决方案也会集成Prometheus。随着Kubernetes在容器调度和管理上确定领头羊的地位，Prometheus也成为Kubernetes容器监控的标配。考虑到k8s系统的复杂性和上手难度较高，本文将从最简单最基础的部分开始循序渐
【Prometheus】cAdvisor工作原理介绍码上淘金 prometheus
cAdvisor（ContainerAdvisor）是Google开源的容器监控工具，专注于实时采集和暴露容器级别的资源使用数据。其底层实现基于Linux内核的多项技术，结合高效的事件驱动架构，实现对容器资源的细粒度监控。以下从核心机制、数据采集原理和架构实现三方面详细解析：一、核心依赖技术cAdvisor的监控能力建立在Linux内核提供的底层机制之上：cgroups（控制组）资源隔离与统计：c
【Prometheus】通过tar包部署单机版Prometheus 和 Pushgateway
在ECS（ElasticComputeService）机器上通过tar包部署Prometheus和Pushgateway，并配置Prometheus采集Pushgateway的数据，是一个常见的监控部署任务。以下是详细的步骤说明：环境准备操作系统：Linux（如CentOS、Ubuntu）已安装tar命名已开通ECS实例的相应端口（9090forPrometheus,9091forPushgate
【Java 面试八股学习自用版】MYSQL优化-------定位慢查询以及分析
定位慢查询以及分析导致慢查询的一些原因聚合查询多表查询表数据量过大查询深度分页查询此时的表现为：页面加载过慢接口压测响应时间过长（1s以上）。定位方法（定位哪一条）方法一开源工具调试工具Arthas运维工具prometheusSkywalkingMySql自带慢日志需要在配置文件中开启设置开启以及时间阈值（ps2s）注意：一般在调试阶段开启注意一般结合自己项目说！！！！！分析慢SQL语句的原因聚合
可观测性大脑：Pyroscope+Tempo实现代码级根因定位 Star_Sea_77 云原生可观测性根因分析性能剖析分布式追踪智能运维
可观测性大脑：Pyroscope+Tempo实现代码级根因定位摘要本文针对传统可观测性方案“指标、链路、性能数据割裂”的痛点（某电商故障定位平均耗时3.5小时），提出基于Pyroscope+Tempo的“可观测性大脑”方案。通过Prometheus告警触发性能热点与分布式链路的智能关联，实现从“指标异常”到“代码级根因”的一键定位：Pyroscope生成CPU火焰图锁定耗时代码方法，Tempo追溯
Spring Cloud（微服务部署与监控）白仑色 Spring系列 spring cloud 微服务 spring 微服务部署服务监控健康检查
摘要在微服务架构中，随着服务数量的增长和部署复杂度的提升，如何高效部署、持续监控、快速定位问题并实现自动化运维成为保障系统稳定性的关键。本文将围绕SpringCloud微服务的部署与监控展开，深入讲解：微服务打包与部署方式（JAR/Docker/Kubernetes）如何构建CI/CD流水线服务健康检查与自动恢复机制Prometheus+Grafana实现指标可视化监控ELK实现日志集中管理Sky
container_memory_working_set_bytes` 与 `container_memory_usage_bytes` 的区别强哥之神 prometheus 容器 docker k8s
在Prometheus中，container_memory_working_set_bytes与container_memory_usage_bytes的区别如下：计算方式及包含内容：container_memory_usage_bytes：表示容器当前使用的总内存，包括所有内存，不管这些内存是否最近被访问过，也不管其是否可以被操作系统回收，即它包含了缓存、工作集等所有内存部分。container
Zabbix和Prometheus的区别运维小贺 zabbix prometheus 运维
Zabbix监控平台监控概念对服务的管理，不能仅限于可用性。还需要服务可以安全、稳定、高效地运行。监控的目的：早发现、早治疗。被监控的资源类型：公开数据：对外开放的，不需要认证即可获取的数据私有数据：对外不开放，需要认证、权限才能获得的数据Zabbix是什么？Zabbix是个适用于监控硬件服务器的一款开源的分布式监控方案实施监控的几个方面：数据采集：使用agent（可安装软件的系统上）、SNMP（
半导体FAB中的服务器硬件故障监控与预防全方案：从预警到零宕机实战爱吃青菜的大力水手服务器运维半导体 FAB运维 IT运维
服务器硬件故障监控与预防全方案：从预警到零宕机实战关键词：SMART监控RAID预警IPMI传感器性能基线PrometheusZabbix高可用架构一、硬件故障前的7大预警信号（附关联工具）故障类型关键指标监控工具预警阈值磁盘故障Reallocated_Sector_Countsmartctl+smartd>0立即告警Current_Pending_SectorPrometheus+NodeExp
Istio 深度解析与实战：从原理到应用的全面指南阿贾克斯的黎明 java istio 网络云原生
目录Istio深度解析与实战：从原理到应用的全面指南一、Istio原理深度剖析1.数据平面2.控制平面二、Istio的安装与部署1.环境准备2.安装Istio3.注入Sidecar三、Istio实战应用场景1.流量管理（1）简单路由（2）流量镜像2.安全防护（1）服务间双向认证（2）基于角色的访问控制（RBAC）3.监控与可观测性（1）启用Prometheus和Grafana（2）查看监控指标四、
AI原生应用微服务监控：Prometheus+Grafana实战 AI原生应用开发 AI-native 微服务 prometheus ai
AI原生应用微服务监控：Prometheus+Grafana实战关键词：微服务监控、Prometheus、Grafana、AI应用、指标收集、可视化告警、云原生摘要：本文将深入探讨如何为AI原生应用构建完整的微服务监控系统。我们将从基础概念出发，详细介绍Prometheus的指标收集机制和Grafana的可视化能力，并通过实际案例展示如何搭建完整的监控解决方案。文章包含详细的配置示例、架构图解和最
Python HTTP服务监控：Prometheus与自定义Exporter开发指南
在微服务架构中，HTTP服务的高效监控对保障系统稳定性至关重要。Prometheus作为云原生监控标杆，通过其Pull模型与灵活的指标体系，结合Python开发的自定义Exporter，可实现HTTP服务性能、可用性及业务指标的全面观测。Prometheus监控核心机制Prometheus采用时间序列数据库存储指标数据，每条数据由指标名称（如http_requests_total）、标签（如met
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
Gitea 服务器监控面板的搭建 shengyin714959 笔记最高笔记服务器 gitea 数据库
Prometheus是一个开源的服务监控系统和时序数据库。Grafana是一个可视化的数据分析面板，它可以从Prometheus中查询时序数据，绘制漂亮的数据图表。本文作者在实践中使用Prometheus抓取和存储Gitea服务器的运行数据，并基于Grafana提供的开源数据面板创建了一个自己服务器的Gitea性能监控面板。工作原理为了更清晰地理解Prometheus的工作原理，我在下方列出了Pr
kube-promethesu调整coredns监控 jingleli21 docker linux 运维
K8s集群版本是二进制部署的1.20.4，kube-prometheus对应选择的版本是kube-prometheus-0.8.0Coredns是在安装集群的时候部署的，采用的也是该版本的官方文档，kube-prometheus中也有coredns的监控配置信息，但是在prometheus的监控页面并没有发现coredns的servicemonitor.。所以我们需要一步步的去排查该问题。先看下c
Promtail收集docker容器的日志 jingleli21 docker
什么是Promtail？Promtail是Linux操作系统上的一个服务，它会扫描日志文件，并将它们提取到Loki中。Loki是Grafana的一个日志聚合工具，它类似于Prometheus，但主要用于日志数据。Promtail能够自动发现运行中的Docker容器，并抓取它们的日志。Promtail的工作原理Promtail的工作原理可以简单概括为以下几个步骤：监控日志文件：Promtail不断扫
16.7 Prometheus+Grafana实战：容器化监控与日志聚合一站式解决方案少林码僧 prometheus grafana 人工智能 langchain llama 语言模型机器学习
《Prometheus+Grafana实战：容器化监控与日志聚合一站式解决方案》关键词：容器化监控、日志聚合、Prometheus、Grafana、ELKStack、用户反馈收集容器化监控与日志系统的架构设计在LanguageMentorAgent生产部署中，监控系统需要覆盖以下维度：
prometheus+grafana+MySQL监控甲柒运维监控 prometheus grafana mysql
prometheus+grafana+MySQL监控环境说明操作前提：先去搭建Docker部署prometheus+grafana+...这篇文章的系统Docker部署prometheus+grafana+...的参考文章：Docker部署prometheus+grafana+…-CSDN博客在的节点服务器上搭建MySQL数据库（可以采用直接安装或者docker部署）搭建MySQL数据库的参考文章
Prometheus + Grafana监控方案详解：从入门到实战风偷走了蒲公开发知识 Prometheus Grafana 监控 DevOps Node.js
Prometheus+Grafana监控方案详解：从入门到实战1.引言在现代分布式系统中，监控是保障系统稳定性的关键。Prometheus作为一款开源的监控工具，结合Grafana的可视化能力，能够提供强大的监控解决方案。本文将详细介绍Prometheus+Grafana的监控方案，并通过丰富的代码示例和应用场景帮助读者快速掌握。2.Prometheus基础2.1Prometheus简介Prome
Kylin Linux Advanced Server V10 离线安装 Prometheus + Grafana + node_exporter指南晴空06 操作系统管理工具性能测试 kylin linux prometheus
离线安装Prometheus+Grafana+InfluxDB指南(KylinLinuxAdvancedServerV10)最终结果展示准备工作在一台有互联网连接的机器上下载所有必要的安装包和依赖准备一个USB驱动器或内部网络共享位置来传输文件确保目标服务器有足够的资源运行这些服务下载离线安装包在有网络的机器上下载以下组件：Prometheuswgethttps://github.com/prom
Sentinel：微服务稳定性的守护者未来并未来 sentinel 微服务 java
首先，我们要明确Sentinel在微服务架构中的定位。Sentinel并不是一个全功能的监控或追踪系统（比如Prometheus+Grafana组合或Jaeger/Zipkin），它的核心定位是流量控制（TrafficControl）和熔断降级（CircuitBreaking&Degradation）。简单理解，它的任务就是：管住流量：监控服务接口的访问量，当流量超过设定的阈值时，进行拦截（限流）
OSS监控体系搭建：Prometheus+Grafana实时监控流量、错误码、存储量（开源方案替代云监控自定义视图）大熊计算机 #阿里云 prometheus grafana 开源
1.开源监控方案核心架构设计（1）技术选型对比分析当前主流OSS监控方案可分为三类：云厂商自带监控（如阿里云云监控）开源方案（Prometheus生态）商业APM工具（如Datadog）通过以下维度进行对比：维度云监控自定义视图Prometheus+Grafana商业APM工具数据采集粒度1分钟15秒（可调）10秒存储成本按量收费自控存储周期高额订阅费告警灵活性基础阈值告警支持PromQL复杂逻辑
java全家桶之35: jvm如何调优 leijmdas java
JVM调优指南：提升性能与稳定性JVM调优是Java应用性能优化的关键环节，合理的调优可以显著提高应用吞吐量、降低延迟并减少资源消耗。以下是系统的JVM调优方法和实践：一、调优基础准备监控先行使用工具收集基线数据：jstat-监控GC情况jstack-分析线程堆栈jmap-内存分析VisualVM/Arthas-可视化监控Prometheus+Grafana-生产级监控确定优化目标吞吐量优先（批处
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio