JAVA_XCNH

Prometheus 服务器监控高可用

一、Prometheus 各模块儿作用

模块儿名	含义
Prometheus Server	监控主体
Node Exporter	采集当前主机的系统资源使用情况，如 CPU、内存等
Alertmanager	处理告警信息，如发送邮件、短信、微信通知等
Blackbox Exporter	网络探测，如检测服务是否运行中等

二、安装 Prometheus Server

1、安装 Prometheus Server

https://prometheus.io/download/
选择适合自己系统的版本，这里以linux amd64 2.19.1版本为例进行演示

tar -zxvf prometheus-2.19.1.linux-amd64.tar.gz -C ~/prometheus/
cd ~/prometheus/prometheus-2.19.1.linux-amd64/
vim prometheus.yml

会看到默认的 Prometheus 配置文件 promethes.yml:

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=` to any timeseries scraped from this config.
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:9090']

Promtheus 作为一个时间序列数据库，其采集的数据会以文件的形似存储在本地中，默认的存储路径为 data/，在运行服务的时候会自行创建

$ ./prometheus
level=info ts=2020-06-22T07:28:06.466Z caller=main.go:302 msg="No time or size retention was set so using the default time retention" duration=15d
level=info ts=2020-06-22T07:28:06.466Z caller=main.go:337 msg="Starting Prometheus" version="(version=2.19.1, branch=HEAD, revision=eba3fdcbf0d378b66600281903e3aab515732b39)"
level=info ts=2020-06-22T07:28:06.466Z caller=main.go:338 build_context="(go=go1.14.4, user=root@62700b3d0ef9, date=20200618-16:35:26)"
level=info ts=2020-06-22T07:28:06.466Z caller=main.go:339 host_details="(Linux 5.4.44-1-MANJARO #1 SMP PREEMPT Wed Jun 3 14:48:07 UTC 2020 x86_64 jl-qtk5 (none))"
level=info ts=2020-06-22T07:28:06.466Z caller=main.go:340 fd_limits="(soft=1024, hard=524288)"
level=info ts=2020-06-22T07:28:06.466Z caller=main.go:341 vm_limits="(soft=unlimited, hard=unlimited)"
level=info ts=2020-06-22T07:28:06.468Z caller=web.go:524 component=web msg="Start listening for connections" address=0.0.0.0:9090
level=info ts=2020-06-22T07:28:06.468Z caller=main.go:678 msg="Starting TSDB ..."
level=info ts=2020-06-22T07:28:06.471Z caller=head.go:645 component=tsdb msg="Replaying WAL and on-disk memory mappable chunks if any, this may take a while"
level=info ts=2020-06-22T07:28:06.472Z caller=head.go:706 component=tsdb msg="WAL segment loaded" segment=0 maxSegment=1
level=info ts=2020-06-22T07:28:06.472Z caller=head.go:706 component=tsdb msg="WAL segment loaded" segment=1 maxSegment=1
level=info ts=2020-06-22T07:28:06.472Z caller=head.go:709 component=tsdb msg="WAL replay completed" duration=947.648µs
level=info ts=2020-06-22T07:28:06.473Z caller=main.go:694 fs_type=EXT4_SUPER_MAGIC
level=info ts=2020-06-22T07:28:06.473Z caller=main.go:695 msg="TSDB started"
level=info ts=2020-06-22T07:28:06.473Z caller=main.go:799 msg="Loading configuration file" filename=prometheus.yml
level=info ts=2020-06-22T07:28:06.474Z caller=main.go:827 msg="Completed loading of configuration file" filename=prometheus.yml
level=info ts=2020-06-22T07:28:06.474Z caller=main.go:646 msg="Server is ready to receive web requests."

启动成功，默认端口号为 9090，可以通过 http://localhost:9090 访问 Prometheus 的 UI 界面：

三、使用 Node Exporter 采集主机数据

1、安装 Node Exporter

在 Prometheus 的架构设计中，Prometheus Server 并不直接监控特定的目标，其主要任务是负责数据的收集，存储并且对外提供数据查询支持。因此为了能够监控到某些东西，如主机的 CPU 使用率、内存和硬盘等，我们需要使用到 Exporter。Prometheus 周期性的从 Exporter 暴露的 HTTP 服务地址拉取监控样本数据。这里我们采用 Node Exporter 采集主机信息。https://prometheus.io/download/#node_exporter

$ tar -zxvf node_exporter-1.0.1.linux-amd64.tar.gz -C ~/prometheus/
$ cd ~/prometheus/node_exporter-1.0.1.linux-amd64/
$ ./node_exporter
level=info ts=2020-06-22T08:21:09.796Z caller=node_exporter.go:177 msg="Starting node_exporter" version="(version=1.0.1, branch=HEAD, revision=3715be6ae899f2a9b9dbfd9c39f3e09a7bd4559f)"
level=info ts=2020-06-22T08:21:09.796Z caller=node_exporter.go:178 msg="Build context" build_context="(go=go1.14.4, user=root@1f76dbbcfa55, date=20200616-12:44:12)"
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:105 msg="Enabled collectors"
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=arp
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=bcache
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=bonding
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=btrfs
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=conntrack
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=cpu
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=cpufreq
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=diskstats
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=edac
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=entropy
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=filefd
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=filesystem
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=hwmon
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=infiniband
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=ipvs
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=loadavg
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=mdadm
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=meminfo
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=netclass
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=netdev
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=netstat
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=nfs
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=nfsd
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=powersupplyclass
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=pressure
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=rapl
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=schedstat
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=sockstat
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=softnet
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=stat
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=textfile
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=thermal_zone
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=time
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=timex
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=udp_queues
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=uname
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=vmstat
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=xfs
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:112 collector=zfs
level=info ts=2020-06-22T08:21:09.797Z caller=node_exporter.go:191 msg="Listening on" address=:9100
level=info ts=2020-06-22T08:21:09.797Z caller=tls_config.go:170 msg="TLS is disabled and it cannot be enabled on the fly." http2=false

2、从 Node Exporter 收集监控数据

为了能够让 Prometheus Server 能够从当前 Node Exporter 获取到监控数据，这里需要修改 Prometheus 的配置文件。编辑 prometheus.yml 并在 scrape_configs 节点下添加以下内容：

scrape_configs:
  # The job name is added as a label `job=` to any timeseries scraped from this config.
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:9090']
  - job_name: 'node'
    static_configs:
    - targets: ['localhost:9100']
      labels:
        namespace: 'server1'  # 实例名

参数：

job_name：指定服务名
targets：指定服务地址和端口
labels：自定义标签，如指定服务器名为 server1，方便后面发送告警信息时标记服务器。

用 prometheus 自带的 promtool 工具检查配置文件的有效性：

$ cd ~/prometheus/prometheus-2.19.1.linux-amd64
$ ./promtool check config prometheus.yml
Checking prometheus.yml
  SUCCESS: 0 rule files found

正确显示如上，如果提示有错，请根据错误提示修改配置文件。
后台启动 Node Exporter 和 Prometheus Server

nohup ~/prometheus/node_exporter-1.0.1.linux-amd64/node_exporter &
nohup ~/prometheus/prometheus-2.19.1.linux-amd64/prometheus &

启动 http://localhost:9090 访问 Prometheus 的 UI 界面，输入 up 执行：

可以看到服务 prometheus 和 node 均已启动，1 表示正常，0 为异常。

3、使用 PromQL 查询监控数据

关于 PromQL 详细用法请参考：
https://yunlzheng.gitbook.io/prometheus-book/parti-prometheus-ji-chu/quickstart/prometheus-quick-start/promql_quickstart
https://prometheus.io/docs/prometheus/latest/querying/basics/
这里我们演示 CPU、内存和磁盘的查询，结果四舍五入：
（1）CPU 5分钟的平均使用率

ceil((1-((sum(increase(node_cpu_seconds_total{mode="idle"}[5m])) by(instance,namespace)) / (sum(increase(node_cpu_seconds_total[5m])) by(instance,namespace))))*100)

（2）内存使用率

ceil(100 - ((node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes) * 100)

（3）磁盘使用率

ceil((node_filesystem_size_bytes {mountpoint = "/"} - node_filesystem_free_bytes {mountpoint = "/"}) / node_filesystem_size_bytes {mountpoint = "/"} * 100)

四、使用 Alertmanager 发送警报

Prometheus Server 通过 Node Exporter 采集主机数据，当使用率超过阈值后，Prometheus Server 发送警告信息给 Alertmanager，Alertmanager 通过邮件、微信、钉钉、企业微信等通知管理员处理警报。

1、定义发送警报模板

$ cd ~/prometheus/alertmanager-0.21.0.linux-amd64
$ mkdir config
$ vim alarm.tmpl
{{ define "wechat.default.message" }}
{{- if gt (len .Alerts.Firing) 0 -}}
{{- range $index, $alert := .Alerts -}}
{{- if eq $index 0 -}}
告警类型: {{ $alert.Labels.alertname }}
告警级别: {{ $alert.Labels.severity }}

{{- end }}

========告警详情========
告警详情: {{ $alert.Annotations.description }}
故障时间: {{ $alert.StartsAt.Format "2006-01-02 15:04:05" }}
========参考信息========
{{ if gt (len $alert.Labels.instance) 0 -}}故障实例 ip: {{ $alert.Labels.instance }};{{- end -}}
{{- if gt (len $alert.Labels.namespace) 0 -}}<br>故障实例所在 namespace: {{ $alert.Labels.namespace }};{{- end -}}
{{- if gt (len $alert.Labels.node) 0 -}}故障物理机 ip: {{ $alert.Labels.node }};{{- end -}}
{{- if gt (len $alert.Labels.pod_name) 0 -}}故障 pod 名称: {{ $alert.Labels.pod_name }}{{- end }}
{{- end }}
{{- end }}

{{- if gt (len .Alerts.Resolved) 0 -}}
{{- range $index, $alert := .Alerts -}}
{{- if eq $index 0 -}}
告警解除: {{ $alert.Labels.alertname }}

{{- end }}

========告警详情========
告警详情: {{ $alert.Annotations.description }}
故障时间: {{ $alert.StartsAt.Format "2006-01-02 15:04:05" }}
恢复时间: {{ $alert.EndsAt.Format "2006-01-02 15:04:05" }}
========参考信息========
{{ if gt (len $alert.Labels.instance) 0 -}}故障实例 ip: {{ $alert.Labels.instance }};{{- end -}}
{{- if gt (len $alert.Labels.namespace) 0 -}}<br>故障实例所在 namespace: {{ $alert.Labels.namespace }};{{- end -}}
{{- if gt (len $alert.Labels.node) 0 -}}故障物理机 ip: {{ $alert.Labels.node }};{{- end -}}
{{- if gt (len $alert.Labels.pod_name) 0 -}}故障 pod 名称: {{ $alert.Labels.pod_name }};{{- end }}
{{- end }}
{{- end }}
{{- end }}

消息提示如下：

2、定义发送警报到企业微信

参考企业微信API说明

$ vim ~/prometheus/alertmanager-0.21.0.linux-amd64/alertmanager.yml
global:
  resolve_timeout: 10m
  wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'
  wechat_api_secret: '应用的secret，在应用的配置页面可以看到'
  wechat_api_corp_id: '企业id，在企业的配置页面可以看到'
templates:
- '/etc/alertmanager/config/*.tmpl'
route:
  group_by: ['alertname']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 12h
  receiver: 'wechat'
inhibit_rules:
- source_match:
receivers:
- name: 'wechat'
  wechat_configs:
  - send_resolved: false
    corp_id: '企业id，在企业的配置页面可以看到'
    to_user: '@all'
    to_party: ' PartyID1 | PartyID2 '
    message: '{{ template "wechat.default.message" . }}'
    agent_id: '应用的AgentId，在应用的配置页面可以看到'
    api_secret: '应用的secret，在应用的配置页面可以看到'

首先登录企业微信并创建应用：

其余对应信息如下所示：

3、自定义 Prometheus 告警规则

cd ~/prometheus/prometheus-2.19.1.linux-amd64
mkdir rules
cd rules
vim hoststats-alert.rules

创建主机 CPU、内存和硬盘使用率报警

groups:
- name: hostStatsAlert
  rules:
  - alert: CPU 使用率
    expr: ceil((1-((sum(increase(node_cpu_seconds_total{mode="idle"}[5m])) by(instance,namespace)) / (sum(increase(node_cpu_seconds_total[5m])) by(instance,namespace))))*100) > 90
    for: 5m
    labels:
      severity: 严重警告
    annotations:
      summary: "{{ $labels.instance }} CPU 使用率过高！"
      description: "{{ $labels.namespace }} CPU 使用率大于 80% (目前使用: {{ $value }}%)"
  - alert: 内存使用率
    expr: ceil(100 - ((node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes) * 100) > 80
    for: 5m
    labels:
      severity: 严重警告
    annotations:
      summary: "{{ $labels.instance }} 内存使用率过高！"
      description: "{{ $labels.namespace }} 内存使用率大于 80% (目前使用: {{ $value }}%)"
  - alert: 磁盘使用率
    expr: ceil((node_filesystem_size_bytes {mountpoint = "/"} - node_filesystem_free_bytes {mountpoint = "/"}) / node_filesystem_size_bytes {mountpoint = "/"} * 100) > 80
    for: 5m
    labels:
      severity: 严重警告
    annotations:
      summary: "{{ $labels.instance }} 磁盘使用率过高！"
      description: "{{ $labels.namespace }} 磁盘使用率大于 80% (目前使用: {{ $value }}%)"

alert：告警规则的名称。
expr：基于 PromQL 表达式告警触发条件，用于计算是否有时间序列满足该条件。
for：评估等待时间，可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为 pending。
labels：自定义标签，允许用户指定要附加到告警上的一组附加标签。
annotations：用于指定一组附加信息，比如用于描述告警详细信息的文字等，annotations 的内容在告警产生时会一同作为参数发送到 Alertmanager。
$labels：变量保存警报实例的标签键/值对
$value：变量保存警报实例的评估值

4、配置 prometheus 启用 alertmanager 报警

$ vim ~/prometheus/prometheus-2.19.1.linux-amd64/prometheus.yml
# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      - localhost:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  - "rules/*.rules"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=` to any timeseries scraped from this config.
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:9090']
  - job_name: 'node'
    static_configs:
    - targets: ['localhost:9100']
      labels:
        namespace: 'server1'  # 实例名

未完待续

Prometheus搭建和 Node_Exporter搭建强_子 prometheus
1.Prometheus和Node_Exporter的关系●Prometheus:是一个开源的监控和告警工具，能够从各种数据源（如NodeExporter）拉取指标，并存储这些指标。它提供了一个强大的查询语言（PromQL），可以用来分析和可视化监控数据。●Node_Exporter:是Prometheus的一个官方插件，用于收集主机系统的硬件和操作系统级别的指标（如CPU使用率、内存使用情况、磁
【Redis篇】数据库架构演进中Redis缓存的技术必然性—高并发场景下穿透、击穿、雪崩的体系化解决方案奈斯DB Redis专栏缓存 redis 数据库架构运维
《博主主页》：CSDN主页__奈斯DBIFClub社区主页__奈斯、《擅长领域》：擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(Redis)有了解如果觉得文章对你有所帮助，欢迎点赞收藏加关注作为DBA或运维在日常与Redis打交道时，往往更关注部署安装、Key清理、内存回收、备份
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Prometheus+node_exporter+grafana监控部署(上）努力爬的小菜鸟 Linux prometheus grafana linux
目录一、部署Prometheus二、部署node_exporter三、把node_exporter加载进Prometheus四、部署grafana一、部署Prometheus1、从官网下载好Prometheus的安装包2、解压tarxfprometheus-2.41.0.linux-amd64.tar.gz3、做个软链方便更新ln-svprometheus-2.41.0.linux-amd64pr
涨薪技术|Prometheus中部署Alertmanager
部署Alertmanager是Prometheus生态系统中的一个重要步骤，用于管理和处理Prometheus生成的告警。Alertmanager和PrometheusServer一样均采用Golang实现，并且没有第三方依赖。一般来说我们可以通过以下几种方式来部署Alertmanager：二进制包、容器以及源码方式安装。1二进制包部署1)获取并安装软件包Alertmanager最新版本的下载地址
Prometheus怎么监控docker容器给我个详细的教程 Xi Zi docker prometheus 容器运维 kubernetes
Prometheus可以通过Docker容器服务检测来监控Docker容器，具体步骤如下：1.安装Prometheus和NodeExporter，并将它们部署到Docker容器中；2.在Prometheus配置文件中添加NodeExporter的配置；3.配置Prometheus和NodeExporter的服务监控；4.访问Prometheus查看监控结果。
Prometheus监控系列 | blackbox_exporter配置实战降世神童高级IT运维技术专栏 prometheus 云原生
Prometheus监控系列|blackbox_exporter配置实战1.blackbox简介2.blackbox_exporter部署2.1.下载安装包2.2.配置启动文件3.blackbox_exporter配置文件详解3.1.HTTP监控3.2.TCP监控3.3.ICMP监控4.监控域名SSL证书的到期时间5.配置Prometheus配置文件6.Grafana监控展示图1.blackbox
Prometheus（六）黑盒监控疯狂的大饼性能 linux 运维 centos
黑盒监控（blackbox_exporter）之前介绍的对exporter的使用可以称为“白盒监控”，既需要把对应的exporter程序安装到被监控的目标主机上，从而实现对主机资源及其状态的数据采集工作。黑盒监控，blackbox_exporter无须安装在被监控的目标环境中，用户只需要将其安装在于promethenus和被监控目标互通的环境中，通过HTTP、HTTPS、DNS、TCP、ICMP等
Prometheus监控-第1天我为你走过-YOYO prometheus
7.1基于Prometheus的全方位监控平台一、打造基于Prometheus的全方位监控平台1.1、前言官网地址：https://prometheus.io/docs/prometheus/latest/getting_started/灵活的时间序列数据库；定制各式各样的监控规则；Prometheus的开发人员和用户社区非常活跃；独立的开源项目，不依赖于任何公司；继Kurberntes之后第二个
Prometheus 监控系统简介 wespten Linux 自动化运维智能运维性能监控系统调优 TS prometheus
一、监控原理简介监控系统在这里特指对数据中心的监控，主要针对数据中心内的硬件和软件进行监控和告警。从监控对象的角度来看，可以将监控分为网络监控、存储监控、服务器监控和应用监控等。从程序设计的角度来看，可以将监控分为基础资源监控、中间件监控、应用程序监控和日志监控。1、基础资源监控从监控对象的角度来看，可以将基础资源监控分为网络监控、存储监控和服务器监控。1）网络监控这里讲解的网络监控主要包括：对数
5.k8s：helm包管理器，prometheus监控，elk，k8s可视化鹏哥哥啊Aaaa 运维 kubernetes 容器云原生
目录一、Helm包管理器1.什么是Helm2.安装Helm（3）Helm常用命令（4）目录结构（5）使用Helm完成redis主从搭建二、Prometheus集群监控1.监控方案2.Prometheus监控k8s三、ELK日志搜集1.elk流程2.配置elk（1）配置es（2）配置logstash（3）配置filebeat，kibana3.kibana使用和日志检索四、k8s可视化管理1.Dash
Spring Boot Docker容器监控 - 容器化环境监控方案全面指南 Clf丶忆笙 spring boot docker 后端
文章目录一、容器监控基础概念与重要性1.1为什么需要容器监控1.2容器监控与传统监控的区别1.3核心监控指标分类二、SpringBoot与Docker监控基础集成2.1SpringBootActuator基础配置2.2基础Docker监控配置2.3监控数据可视化基础三、高级监控方案实现3.1多维度JVM监控3.2自定义业务指标3.3容器资源限制与监控四、全链路监控方案4.1集成Prometheus
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
Spring Boot应用监控与管理：Actuator+Prometheus+Grafana终极指南（2025） allenXer Spring Boot 信息可视化 spring boot java
SpringBoot应用监控与管理：Actuator+Prometheus+Grafana终极指南（2025）随着微服务架构的普及，应用监控已成为生产环境的必备能力。本文深入探讨如何通过SpringBootActuator提供深度应用监控，配合Prometheus和Grafana构建完整的企业级监控解决方案。一、监控架构全景图1.1监控技术栈组成1.2核心组件功能对比组件角色关键能力Actuato
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
涨薪技术|Prometheus之PromQL操作符川石课堂软件测试 prometheus python 数据库 postman 测试工具 appium 功能测试
使用PromQL除了能够方便的按照查询和过滤时间序列以外，PromQL还支持丰富的操作符，用户可以使用这些操作符对进一步的对事件序列进行二次加工。这些操作符包括：数学运算符，逻辑运算符，布尔运算符等等。01数学运算例如，我们可以通过指标node_memory_free_bytes_total获取当前主机可用的内存空间大小，其样本单位为Bytes。这是如果客户端要求使用MB作为单位响应数据，那只需要
构建企业级大模型运行监控体系：健康度五级指标与实战部署路径全解析
构建企业级大模型运行监控体系：健康度五级指标与实战部署路径全解析关键词：模型运行监控、健康度分级体系、DeepSeek、私有化部署、Prometheus、Grafana、异常检测、推理稳定性、性能观测、可视化大屏摘要：在DeepSeek大模型私有化部署的生产环境中，传统的“是否可用”监控已难以满足对模型稳定性、推理质量与异常风险的精细管理需求。为此，企业必须构建一套基于五级健康度模型的全维监控体系
Pushgateway扩展Prometheus监控 ivwdcwso 运维与云原生 prometheus k8s 云原生
Pushgateway是Prometheus生态系统中的一个重要组件,它允许我们将短期作业或批处理任务的指标推送到Prometheus中。本文将详细介绍如何安装、配置和使用Pushgateway来扩展Prometheus监控。1.Pushgateway简介Pushgateway主要用于解决以下场景:短期作业无法被Prometheus直接抓取批处理任务需要推送指标防火墙后的应用需要主动推送指标它作为
Prometheus系列01-Prometheus的单机版二进制部署 tinychen777 Devops linux 监控程序 centos
作为CNCF中最成功的开源项目之一，Prometheus已经成为了云原生监控的代名词，被广泛应用在Kubernetes和OpenShift等项目中，同时有很多第三方解决方案也会集成Prometheus。随着Kubernetes在容器调度和管理上确定领头羊的地位，Prometheus也成为Kubernetes容器监控的标配。考虑到k8s系统的复杂性和上手难度较高，本文将从最简单最基础的部分开始循序渐
【Prometheus】cAdvisor工作原理介绍码上淘金 prometheus
cAdvisor（ContainerAdvisor）是Google开源的容器监控工具，专注于实时采集和暴露容器级别的资源使用数据。其底层实现基于Linux内核的多项技术，结合高效的事件驱动架构，实现对容器资源的细粒度监控。以下从核心机制、数据采集原理和架构实现三方面详细解析：一、核心依赖技术cAdvisor的监控能力建立在Linux内核提供的底层机制之上：cgroups（控制组）资源隔离与统计：c
【Prometheus】通过tar包部署单机版Prometheus 和 Pushgateway
在ECS（ElasticComputeService）机器上通过tar包部署Prometheus和Pushgateway，并配置Prometheus采集Pushgateway的数据，是一个常见的监控部署任务。以下是详细的步骤说明：环境准备操作系统：Linux（如CentOS、Ubuntu）已安装tar命名已开通ECS实例的相应端口（9090forPrometheus,9091forPushgate
【Java 面试八股学习自用版】MYSQL优化-------定位慢查询以及分析
定位慢查询以及分析导致慢查询的一些原因聚合查询多表查询表数据量过大查询深度分页查询此时的表现为：页面加载过慢接口压测响应时间过长（1s以上）。定位方法（定位哪一条）方法一开源工具调试工具Arthas运维工具prometheusSkywalkingMySql自带慢日志需要在配置文件中开启设置开启以及时间阈值（ps2s）注意：一般在调试阶段开启注意一般结合自己项目说！！！！！分析慢SQL语句的原因聚合
可观测性大脑：Pyroscope+Tempo实现代码级根因定位 Star_Sea_77 云原生可观测性根因分析性能剖析分布式追踪智能运维
可观测性大脑：Pyroscope+Tempo实现代码级根因定位摘要本文针对传统可观测性方案“指标、链路、性能数据割裂”的痛点（某电商故障定位平均耗时3.5小时），提出基于Pyroscope+Tempo的“可观测性大脑”方案。通过Prometheus告警触发性能热点与分布式链路的智能关联，实现从“指标异常”到“代码级根因”的一键定位：Pyroscope生成CPU火焰图锁定耗时代码方法，Tempo追溯
Spring Cloud（微服务部署与监控）白仑色 Spring系列 spring cloud 微服务 spring 微服务部署服务监控健康检查
摘要在微服务架构中，随着服务数量的增长和部署复杂度的提升，如何高效部署、持续监控、快速定位问题并实现自动化运维成为保障系统稳定性的关键。本文将围绕SpringCloud微服务的部署与监控展开，深入讲解：微服务打包与部署方式（JAR/Docker/Kubernetes）如何构建CI/CD流水线服务健康检查与自动恢复机制Prometheus+Grafana实现指标可视化监控ELK实现日志集中管理Sky
container_memory_working_set_bytes` 与 `container_memory_usage_bytes` 的区别强哥之神 prometheus 容器 docker k8s
在Prometheus中，container_memory_working_set_bytes与container_memory_usage_bytes的区别如下：计算方式及包含内容：container_memory_usage_bytes：表示容器当前使用的总内存，包括所有内存，不管这些内存是否最近被访问过，也不管其是否可以被操作系统回收，即它包含了缓存、工作集等所有内存部分。container
Zabbix和Prometheus的区别运维小贺 zabbix prometheus 运维
Zabbix监控平台监控概念对服务的管理，不能仅限于可用性。还需要服务可以安全、稳定、高效地运行。监控的目的：早发现、早治疗。被监控的资源类型：公开数据：对外开放的，不需要认证即可获取的数据私有数据：对外不开放，需要认证、权限才能获得的数据Zabbix是什么？Zabbix是个适用于监控硬件服务器的一款开源的分布式监控方案实施监控的几个方面：数据采集：使用agent（可安装软件的系统上）、SNMP（
半导体FAB中的服务器硬件故障监控与预防全方案：从预警到零宕机实战爱吃青菜的大力水手服务器运维半导体 FAB运维 IT运维
服务器硬件故障监控与预防全方案：从预警到零宕机实战关键词：SMART监控RAID预警IPMI传感器性能基线PrometheusZabbix高可用架构一、硬件故障前的7大预警信号（附关联工具）故障类型关键指标监控工具预警阈值磁盘故障Reallocated_Sector_Countsmartctl+smartd>0立即告警Current_Pending_SectorPrometheus+NodeExp
Istio 深度解析与实战：从原理到应用的全面指南阿贾克斯的黎明 java istio 网络云原生
目录Istio深度解析与实战：从原理到应用的全面指南一、Istio原理深度剖析1.数据平面2.控制平面二、Istio的安装与部署1.环境准备2.安装Istio3.注入Sidecar三、Istio实战应用场景1.流量管理（1）简单路由（2）流量镜像2.安全防护（1）服务间双向认证（2）基于角色的访问控制（RBAC）3.监控与可观测性（1）启用Prometheus和Grafana（2）查看监控指标四、
AI原生应用微服务监控：Prometheus+Grafana实战 AI原生应用开发 AI-native 微服务 prometheus ai
AI原生应用微服务监控：Prometheus+Grafana实战关键词：微服务监控、Prometheus、Grafana、AI应用、指标收集、可视化告警、云原生摘要：本文将深入探讨如何为AI原生应用构建完整的微服务监控系统。我们将从基础概念出发，详细介绍Prometheus的指标收集机制和Grafana的可视化能力，并通过实际案例展示如何搭建完整的监控解决方案。文章包含详细的配置示例、架构图解和最
Python HTTP服务监控：Prometheus与自定义Exporter开发指南
在微服务架构中，HTTP服务的高效监控对保障系统稳定性至关重要。Prometheus作为云原生监控标杆，通过其Pull模型与灵活的指标体系，结合Python开发的自定义Exporter，可实现HTTP服务性能、可用性及业务指标的全面观测。Prometheus监控核心机制Prometheus采用时间序列数据库存储指标数据，每条数据由指标名称（如http_requests_total）、标签（如met
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D