东风微鸣

如何精简 Prometheus 的指标和存储占用

前言

随着 Prometheus 监控的组件、数量、指标越来越多，Prometheus 对计算性能的要求会越来越高，存储占用也会越来越多。

在这种情况下，要优化 Prometheus 性能, 优化存储占用. 第一时间想到的可能是各种 Prometheus 的兼容存储方案, 如 Thanos 或 VM、Mimir 等。但是实际上虽然集中存储、长期存储、存储降采样及存储压缩可以一定程度解决相关问题，但是治标不治本。

真正的本，还是在于指标量（series）过于庞大。
治本之法，应该是减少指标量。有 2 种办法：
- Prometheus 性能调优 - 解决高基数问题
- 根据实际使用情况，只保留（keep）展示（Grafana Dashboards）和告警（prometheus rules）会用到的指标。

本次重点介绍第二种办法：如何根据实际的使用情况精简 Prometheus 的指标和存储占用？

思路

分析当前 Prometheus 中存储的所有的 metric name（指标项）；
分析展示环节用到的所有 metric name，即 Grafana 的 Dashboards 用到的所有指标；
分析告警环节用到的所有 metric name，即 Prometheus Rule 配置中用到的所有指标；
（可选）分析诊断环境用到的所有 metric name，即经常在 Prometheus UI 上 query 的指标；
通过 relabel 在 metric_relabel_configs 或 write_relabel_configs 仅 keep 2-4 中的指标, 以此大幅减少 Prometheus 需要存储的指标量.

要具体实现这个思路, 可以通过 Grafana Labs 出品的 mimirtool 来搞定.

我这里有个前后的对比效果, 可供参考这样做效果有多惊人:

精简前: 270336 活动 series
精简后: 61055 活动 series
精简效果: 将近 5 倍的精简率!

Grafana Mimirtool

Grafana Mimir 是一款以对象存储为存储方式的 Prometheus 长期存储解决方案, 从 Cortex 演化而来. 官方号称支持亿级别的 series 写入存储和查询.

Grafana Mimirtool 是 Mimir 发布的一个实用工具, 可单独使用.

Grafana Mimirtool 支持从以下方面提取指标:

Grafana 实例中的Grafana Dashboards(通过 Grafana API)
Mimir 实例中的 Prometheus alerting 和 recording rules
Grafana Dashboards JSON文件
Prometheus记alerting 和 recording rules 的 YAML文件

然后，Grafana Mimirtool可以将这些提取的指标与Prometheus或Cloud Prometheus实例中的活动 series 进行比较，并输出一个 used 指标和 unused 指标的列表。

Prometheus 精简指标实战

假设

假定:

通过kube-prometheus-stack 安装 Prometheus
已安装 Grafana 且作为展示端
已配置相应的告警规则
除此之外, 无其他需要额外保留的指标

前提

Grafana Mimirtool 从 releases 中找到 mimirtool 对应平台的版本下载即可使用;
已创建 Grafana API token
Prometheus已安装和配置.

第一步: 分析 Grafana Dashboards 用到的指标

通过 Grafana API

具体如下:

# 通过 Grafana API分析 Grafana 用到的指标
# 前提是现在 Grafana上创建 API Keys
mimirtool analyze grafana --address http://172.16.0.20:32651 --key=eyJrIjoiYjBWMGVoTHZTY3BnM3V5UzNVem9iWDBDSG5sdFRxRVoiLCJuIjoibWltaXJ0b29sIiwiaWQiOjF9

说明:

http://172.16.0.20:32651 是 Grafana 地址
--key=eyJr 是 Grafana API Token. 通过如下界面获得:

获取到的是一个 metrics-in-grafana.json, 内容概述如下:

{
    "metricsUsed": [
        ":node_memory_MemAvailable_bytes:sum",
        "alertmanager_alerts",
        "alertmanager_alerts_invalid_total",
        "alertmanager_alerts_received_total",
        "alertmanager_notification_latency_seconds_bucket",
        "alertmanager_notification_latency_seconds_count",
        "alertmanager_notification_latency_seconds_sum",
        "alertmanager_notifications_failed_total",
        "alertmanager_notifications_total",
        "cluster",
        "cluster:namespace:pod_cpu:active:kube_pod_container_resource_limits",
        "cluster:namespace:pod_cpu:active:kube_pod_container_resource_requests",
        "cluster:namespace:pod_memory:active:kube_pod_container_resource_limits",
        "cluster:namespace:pod_memory:active:kube_pod_container_resource_requests",
        "cluster:node_cpu:ratio_rate5m",
        "container_cpu_cfs_periods_total",
        "container_cpu_cfs_throttled_periods_total",
        "..."
    ],
    "dashboards": [
        {
            "slug": "",
            "uid": "alertmanager-overview",
            "title": "Alertmanager / Overview",
            "metrics": [
                "alertmanager_alerts",
                "alertmanager_alerts_invalid_total",
                "alertmanager_alerts_received_total",
                "alertmanager_notification_latency_seconds_bucket",
                "alertmanager_notification_latency_seconds_count",
                "alertmanager_notification_latency_seconds_sum",
                "alertmanager_notifications_failed_total",
                "alertmanager_notifications_total"
            ],
            "parse_errors": null
        },
        {
            "slug": "",
            "uid": "c2f4e12cdf69feb95caa41a5a1b423d9",
            "title": "etcd",
            "metrics": [
                "etcd_disk_backend_commit_duration_seconds_bucket",
                "etcd_disk_wal_fsync_duration_seconds_bucket",
                "etcd_mvcc_db_total_size_in_bytes",
                "etcd_network_client_grpc_received_bytes_total",
                "etcd_network_client_grpc_sent_bytes_total",
                "etcd_network_peer_received_bytes_total",
                "etcd_network_peer_sent_bytes_total",
                "etcd_server_has_leader",
                "etcd_server_leader_changes_seen_total",
                "etcd_server_proposals_applied_total",
                "etcd_server_proposals_committed_total",
                "etcd_server_proposals_failed_total",
                "etcd_server_proposals_pending",
                "grpc_server_handled_total",
                "grpc_server_started_total",
                "process_resident_memory_bytes"
            ],
            "parse_errors": null
        },
        {...}
    ]
}

(可选)通过 Grafana Dashboards json 文件

如果无法创建 Grafana API Token, 只要有 Grafana Dashboards json 文件, 也可以用来分析, 示例如下:

# 通过 Grafana Dashboard json 分析 Grafana 用到的指标
mimirtool analyze dashboard grafana_dashboards/blackboxexporter-probe.json
mimirtool analyze dashboard grafana_dashboards/es.json

得到的 json 结构和上一节类似, 就不赘述了.

第二步: 分析 Prometheus Alerting 和 Recording Rules 用到的指标

具体操作如下:

# (可选)通过 kubectl cp 将用到的 rule files 拷贝到本地
kubectl cp :/etc/prometheus/rules/-kube-prometheus-st-prometheus-rulefiles-0 -c prometheus ./kube-prometheus-stack/rulefiles/

# 通过 Prometheus rule files 分析 Prometheus Rule 用到的指标(涉及 recording rule 和 alert rules)
mimirtool analyze rule-file ./kube-prometheus-stack/rulefiles/*

结果如下 metrics-in-ruler.json:

{
  "metricsUsed": [
    "ALERTS",
    "aggregator_unavailable_apiservice",
    "aggregator_unavailable_apiservice_total",
    "apiserver_client_certificate_expiration_seconds_bucket",
    "apiserver_client_certificate_expiration_seconds_count",
    "apiserver_request_terminations_total",
    "apiserver_request_total",
    "blackbox_exporter_config_last_reload_successful",
    "..."
  ],
  "ruleGroups": [
    {
      "namspace": "default-monitor-kube-prometheus-st-kubernetes-apps-ae2b16e5-41d8-4069-9297-075c28c6969e",
      "name": "kubernetes-apps",
      "metrics": [
        "kube_daemonset_status_current_number_scheduled",
        "kube_daemonset_status_desired_number_scheduled",
        "kube_daemonset_status_number_available",
        "kube_daemonset_status_number_misscheduled",
        "kube_daemonset_status_updated_number_scheduled",
        "..."
      ]
      "parse_errors": null
    },
    {
      "namspace": "default-monitor-kube-prometheus-st-kubernetes-resources-ccb4a7bc-f2a0-4fe4-87f7-0b000468f18f",
      "name": "kubernetes-resources",
      "metrics": [
        "container_cpu_cfs_periods_total",
        "container_cpu_cfs_throttled_periods_total",
        "kube_node_status_allocatable",
        "kube_resourcequota",
        "namespace_cpu:kube_pod_container_resource_requests:sum",
        "namespace_memory:kube_pod_container_resource_requests:sum"
      ],
      "parse_errors": null
    }, 
    {...}
  ]
}

第三步: 分析没用到的指标

具体如下:

# 综合分析 Prometheus 采集到的 VS. (展示(Grafana Dashboards) + 记录及告警(Rule files))
mimirtool analyze prometheus --address=http://172.16.0.20:30090/ --grafana-metrics-file="metrics-in-grafana.json" --ruler-metrics-file="metrics-in-ruler.json"

说明:

--address=http://172.16.0.20:30090/ 为 prometheus 地址
--grafana-metrics-file="metrics-in-grafana.json" 为第一步得到的 json 文件
--ruler-metrics-file="kube-prometheus-stack-metrics-in-ruler.json" 为第二步得到的 json 文件

输出结果prometheus-metrics.json 如下:

{
  "total_active_series": 270336,
  "in_use_active_series": 61055,
  "additional_active_series": 209281,
  "in_use_metric_counts": [
    {
      "metric": "rest_client_request_duration_seconds_bucket",
      "count": 8855,
      "job_counts": [
        {
          "job": "kubelet",
          "count": 4840
        }, 
        {
          "job": "kube-controller-manager",
          "count": 1958
        },
        {...}
      ]
    },
    {
      "metric": "grpc_server_handled_total",
      "count": 4394,
      "job_counts": [
        {
          "job": "kube-etcd",
          "count": 4386
        },
        {
          "job": "default/kubernetes-ebao-ebaoops-pods",
          "count": 8
        }
      ]
    },
    {...}
  ],
  "additional_metric_counts": [    
    {
      "metric": "rest_client_rate_limiter_duration_seconds_bucket",
      "count": 81917,
      "job_counts": [
        {
          "job": "kubelet",
          "count": 53966
        },
        {
          "job": "kube-proxy",
          "count": 23595
        },
        {
          "job": "kube-scheduler",
          "count": 2398
        },
        {
          "job": "kube-controller-manager",
          "count": 1958
        }
      ]
    },  
    {
      "metric": "rest_client_rate_limiter_duration_seconds_count",
      "count": 7447,
      "job_counts": [
        {
          "job": "kubelet",
          "count": 4906
        },
        {
          "job": "kube-proxy",
          "count": 2145
        },
        {
          "job": "kube-scheduler",
          "count": 218
        },
        {
          "job": "kube-controller-manager",
          "count": 178
        }
      ]
    },
    {...}
  ]
}

第四步: 仅 `keep` 用到的指标

在 `write_relabel_configs` 环节配置

如果你有使用 remote_write, 那么直接在 write_relabel_configs 环节配置 keep relabel 规则, 简单粗暴.

可以先用 jp 命令得到所有需要 keep 的metric name:

jq '.metricsUsed' metrics-in-grafana.json \
| tr -d '", ' \
| sed '1d;$d' \
| grep -v 'grafanacloud*' \
| paste -s -d '|' -

输出结果类似如下:

instance:node_cpu_utilisation:rate1m|instance:node_load1_per_cpu:ratio|instance:node_memory_utilisation:ratio|instance:node_network_receive_bytes_excluding_lo:rate1m|instance:node_network_receive_drop_excluding_lo:rate1m|instance:node_network_transmit_bytes_excluding_lo:rate1m|instance:node_network_transmit_drop_excluding_lo:rate1m|instance:node_vmstat_pgmajfault:rate1m|instance_device:node_disk_io_time_seconds:rate1m|instance_device:node_disk_io_time_weighted_seconds:rate1m|node_cpu_seconds_total|node_disk_io_time_seconds_total|node_disk_read_bytes_total|node_disk_written_bytes_total|node_filesystem_avail_bytes|node_filesystem_size_bytes|node_load1|node_load15|node_load5|node_memory_Buffers_bytes|node_memory_Cached_bytes|node_memory_MemAvailable_bytes|node_memory_MemFree_bytes|node_memory_MemTotal_bytes|node_network_receive_bytes_total|node_network_transmit_bytes_total|node_uname_info|up

然后直接在 write_relabel_configs 环节配置 keep relabel 规则:

remote_write:
- url: 
  basic_auth:
    username: <按需>
    password: <按需>
  write_relabel_configs:
  - source_labels: [__name__]
    regex: instance:node_cpu_utilisation:rate1m|instance:node_load1_per_cpu:ratio|instance:node_memory_utilisation:ratio|instance:node_network_receive_bytes_excluding_lo:rate1m|instance:node_network_receive_drop_excluding_lo:rate1m|instance:node_network_transmit_bytes_excluding_lo:rate1m|instance:node_network_transmit_drop_excluding_lo:rate1m|instance:node_vmstat_pgmajfault:rate1m|instance_device:node_disk_io_time_seconds:rate1m|instance_device:node_disk_io_time_weighted_seconds:rate1m|node_cpu_seconds_total|node_disk_io_time_seconds_total|node_disk_read_bytes_total|node_disk_written_bytes_total|node_filesystem_avail_bytes|node_filesystem_size_bytes|node_load1|node_load15|node_load5|node_memory_Buffers_bytes|node_memory_Cached_bytes|node_memory_MemAvailable_bytes|node_memory_MemFree_bytes|node_memory_MemTotal_bytes|node_network_receive_bytes_total|node_network_transmit_bytes_total|node_uname_info|up
    action: keep

在 `metric_relabel_configs` 环节配置

如果没有使用 remote_write, 那么只能在 metric_relabel_configs 环节配置了.

以 etcd job 为例: (以 prometheus 配置为例, Prometheus Operator 请自行按需调整)

- job_name: serviceMonitor/default/monitor-kube-prometheus-st-kube-etcd/0
  honor_labels: false
  kubernetes_sd_configs:
  - role: endpoints
    namespaces:
      names:
      - kube-system
  scheme: https
  tls_config:
    insecure_skip_verify: true
    ca_file: /etc/prometheus/secrets/etcd-certs/ca.crt
    cert_file: /etc/prometheus/secrets/etcd-certs/healthcheck-client.crt
    key_file: /etc/prometheus/secrets/etcd-certs/healthcheck-client.key
  relabel_configs:
  - source_labels:
    - job
    target_label: __tmp_prometheus_job_name
  - ...
  metric_relabel_configs: 
  - source_labels: [__name__]
    regex: etcd_disk_backend_commit_duration_seconds_bucket|etcd_disk_wal_fsync_duration_seconds_bucket|etcd_mvcc_db_total_size_in_bytes|etcd_network_client_grpc_received_bytes_total|etcd_network_client_grpc_sent_bytes_total|etcd_network_peer_received_bytes_total|etcd_network_peer_sent_bytes_total|etcd_server_has_leader|etcd_server_leader_changes_seen_total|etcd_server_proposals_applied_total|etcd_server_proposals_committed_total|etcd_server_proposals_failed_total|etcd_server_proposals_pending|grpc_server_handled_total|grpc_server_started_total|process_resident_memory_bytes|etcd_http_failed_total|etcd_http_received_total|etcd_http_successful_duration_seconds_bucket|etcd_network_peer_round_trip_time_seconds_bucket|grpc_server_handling_seconds_bucket|up
    action: keep

不用 `keep` 而使用 `drop`

同样滴, 不用 keep 而改为使用 drop 也是可以的. 这里不再赘述.

总结

本文中，介绍了精简 Prometheus 指标的需求, 然后说明如何使用 mimirtool analyze 命令来确定Grafana Dashboards 以及 Prometheus Rules 中用到的指标。然后用 analyze prometheus 分析了展示和告警中used 和 unused 的活动 series，最后配置了 Prometheus 以仅 keep 用到的指标。

结合这次实战, 精简率可以达到 5 倍左右, 效果还是非常明显的. 推荐试一试. ️️️

️ 参考文档

grafana/mimir: Grafana Mimir provides horizontally scalable, highly available, multi-tenant, long-term storage for Prometheus. (github.com)
Analyzing and reducing metrics usage with Grafana Mimirtool | Grafana Cloud documentation

本文由东风微鸣技术博客 EWhisper.cn 编写！

Kubernetes & 容器自动伸缩失败：解决方案及阿里云如何帮助 Anna_Tong kubernetes 阿里云容器负载均衡云原生弹性计算自动伸缩
随着容器技术的普及，Kubernetes（K8s）已成为构建现代云原生应用的核心平台。自动伸缩（AutoScaling）功能可以帮助应用在流量波动时动态调整资源，提高效率并节约成本。然而，很多企业在配置水平自动伸缩（HorizontalPodAutoscaler，HPA）或ECS扩容策略时，常常遇到配置错误或无法触发扩容的问题，导致资源无法及时扩展或收缩，影响系统的稳定性和用户体验。本文将为您分享
【系列专栏】银行IT的云原生架构-云基础架构-云网络 08 呱牛do it 金融科技云原生架构网络金融
银行IT的云原生架构：云基础架构（云网络规划）一、引言在银行向云原生架构转型的进程中，云网络规划作为云基础架构的关键组成部分，发挥着举足轻重的作用。云网络不仅承载着银行内部各类业务系统之间的数据交互，还连接着银行与外部客户、合作伙伴。其性能、安全性和灵活性直接影响着银行云原生架构的运行效率、业务连续性以及客户体验。因此，深入探讨银行IT云原生架构中的云网络规划，对银行成功构建高效、可靠的云基础架构
携手鲲鹏昇腾 HashData展现云原生数仓创新力量数据库
5月9日-11日，鲲鹏昇腾开发者大会2024在北京中关村国际创新中心举行，众多行业领袖、专家学者及优秀开发们齐聚一堂，分享产业趋势、技术创新和应用实践。酷克数据作为华为鲲鹏生态重要合作伙伴，受邀出席本次大会，展示其与鲲鹏昇腾生态联合开发的云数仓解决方案及应用案例，与全球开发者共同探讨云原生数仓前沿技术。今年两会政府工作报告明确提出：“深化大数据、人工智能等研发应用，开展人工智能+行动，打造具有国际
云原生架构师2024 theo.wu 云原生架构师2024 云原生
1-Linux操作系统-CSDN博客├──1-Linux操作系统|├──1-项目部署之-Linux操作系统||├──1-Linux概述与安装||├──2-Linux基本操作||└──3-Linux软件安装与配置|└──2-Shell编程||└──1-Shell编程2-计算机网络基础-CSDN博客├──2-计算机网络基础|└──1-计算机网络基础||├──1-前言||├──2-计算机网络概述||├─
【系列专栏】银行IT的云原生架构-云单元架构 12 呱牛do it 金融科技云原生架构金融
银行IT的云原生架构-云单元架构一、引言在银行数字化转型进程中，云原生架构已成为提升竞争力、实现高效创新的关键支撑。其中，云单元架构作为一种先进的架构模式，正逐渐受到银行的关注与应用。云单元架构通过将复杂的系统拆分为多个相对独立、自治的单元，为银行带来了更高的灵活性、扩展性与可靠性。从目标、特征、单元化流量路由、应用与数据单元化、分布式中间件等多个关键角度深入剖析云单元架构，对于银行更好地理解和应
Kubernetes 服务发现背后的秘密武器——CoreDNS weixin_42587823 dns kubernetes 服务发现容器 coredns
Kubernetes服务发现背后的秘密武器——CoreDNS在Kubernetes集群中，CoreDNS是一个关键的基础组件，负责域名解析和服务发现。无论是内部服务通信还是访问外部域名，CoreDNS都为我们提供了高效、灵活的支持。本文将通俗易懂地介绍CoreDNS的作用、工作流程，并通过一些常见的配置案例帮助你更好地理解它的功能。CoreDNS的作用服务名称解析CoreDNS负责将Kuberne
RPC(3)--基于 Nacos 的服务发现与负载均衡版三喂树屋 Java rpc 服务发现负载均衡
nacos:提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据及流量管理。Nacos是构建以“服务”为中心的现代应用架构(例如微服务范式、云原生范式)的服务基础设施。nacos架构如下(图片来源)依赖包：com.alibaba.nacosnacos-client1.3.0使用如下：//创建命名服务NamingServicenamingService=NamingFacto
基于eBPF的云原生可观测性开源项目Kindling之eBPF基础设施库技术选型 eBPF_Kindling 云原生运维 kubernetes 容器
eBPF技术正以令人难以置信的速度发展，作为一项新兴技术，它具备改变容器网络、安全、可观测性生态的潜力。eBPF作为更加现代化的内核技术，相较于内核模块，它的编写难度已经有了较大的降低，但是不可否认对于普通开发者还是有一定门槛。因此，很多云原生软件会在eBPF系统调用(函数)和libbpf之上封装一层更加简单易用的api，比如falco的libs、bcc的libbcc、cilium的cilium-
一文读懂Ingress-Nginx以及实战教程努力的小T Kubernetes Linux 云计算运维基础 nginx 运维服务器 linux kubernetes 云原生
Ingress-Nginx简介Ingress-Nginx是Kubernetes的一个入口控制器，它允许您将外部HTTP和HTTPS流量路由到集群内的服务。除了标准的HTTP/HTTPS路由功能外，Ingress-Nginx还支持WebSocket、gRPC、TCP和UDP协议。实战教程：从零开始部署Ingress-Nginx步骤1：环境准备确保您的Kubernetes集群版本为v1.29.7，并且
基于eBPF的智能诊断平台：实现云原生系统的自愈型运维体系桂月二二云原生运维
引言：从被动运维到预测性自愈的进化当某电商平台通过eBPF实时诊断系统提前48小时预测到MySQL集群的锁竞争风暴时，其核心是千万级指标粒度的内核状态分析与AI驱动的根因定位算法的结合。运维数据显示，该平台将平均故障恢复时间（MTTR）从23分钟压缩到71秒，并自动修复了87%的异常事件。通过动态注入修复策略，集群CPU毛刺现象减少了94%，开创了智能运维的新纪元。一、传统可观测性工具的桎梏1.1
云原生后端周盛欢后端
一、什么是云原生后端？先来说说“云原生”这个词。想象一下，你有个小摊位，每次进货、出货都要自己搬来搬去，特别麻烦。但如果把摊位搬到一个现代化的商场里，商场帮你搞定水电、物流、安保，你只需要专心卖货就行。云原生就是这样的“现代化商场”，它把服务器、存储、网络这些复杂的基础设施都打包好，让你的程序（也就是你的“货物”）能轻松运行。“后端”呢，就是我们看不见的程序部分，比如处理用户数据、保存信息、做复杂
HoRain云--浅析CoreDNS的工作机制 HoRain 云小助手贪心算法算法 CoreDNS
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐一、插件化架构1.常见插件类型2.插件执行顺序二、动态配置（Corefile）1.配置结构2.热重载机制三、请求处理流程四、Kubernetes集成1.服务解析规则2.自动更新机制五、性能优化1.缓存加速2.并发
追踪隐式资源，巧解内存难题！运维利器——阿里云操作系统控制台上线操作系统开源运维
背景在云计算和容器化部署环境中，云原生容器化已成为行业标准，带来高效部署和成本控制优势的同时，也伴随新的挑战：资源管理复杂：动态环境使传统排查方法难以应对。透明度不足：容器引擎层不透明导致内存问题难以定位，如内存泄漏。性能问题：高负载场景下内存占用高、抖动等问题影响系统稳定性。传统方法局限：监控排查耗时低效，隐性问题难以发现，增加运维成本。通过操作系统内存全景功能，可一键扫描诊断，提升运维效率、降
云原生周刊：KubeEdge 1.20.0版本正式发布云计算
开源项目推荐DistrDistr是一款开源的软件分发平台，旨在简化企业软件在客户控制或共享责任环境中的分发过程。它提供了一个高效、灵活的解决方案，使企业能够轻松将软件分发到各种环境中，无论是私有云、公共云还是混合云。通过Distr，企业能够确保软件在目标环境中的顺利部署，同时减少了传统分发方式的复杂性和风险，从而提高了软件交付的效率和可靠性。KubezonnetKubezonnet是一个开源的K8
KubeSphere 产品生命周期管理政策公告正式发布！云计算
亲爱的KubeSphere用户：在云原生技术飞速发展的今天，KubeSphere始终以技术创新和用户价值为核心，持续优化产品与服务。为更好地服务全球用户、保障业务连续性，基于多年的技术积累与用户反馈，我们正式对外公开发布《KubeSphere产品生命周期管理政策》。通过清晰的支持策略与版本管理，助力用户高效规划升级，规避潜在风险，实现业务可持续发展。KubeSphere产品生命周期管理政策公告文件
rancher k3s 默认应用服务，内部DNS访问域名是什么 santer_x rancher
rancherk3s默认应用服务，内部DNS访问域名是什么默认集群域名服务域名格式Rancher自身服务的域名特殊情况与注意事项示例场景在Rancher管理的K3s集群中，默认的内部DNS访问域名遵循Kubernetes的DNS规范。具体规则如下：默认集群域名K3s默认使用的集群域名为cluster.local。这一配置与Kubernetes标准一致，可通过修改Kubelet的--cluster-
破解云原生架构疑难杂症：2025年全解决方案 zxzy03 云原生架构
云原生架构的应用近年来已成为技术界的热点，然而其复杂性和多样性也带来了不少挑战。从应用迁移到服务治理，企业在采用云原生架构时常会面临性能瓶颈、安全隐患以及成本不可控等问题。2025年的全解决方案中，云服务提供商推出了更多专注于优化云原生架构的工具和服务。例如，自动化的微服务部署工具让开发者可以更快速地构建和部署应用，同时实现资源的高效利用。此外，针对安全性的疑难杂症，新方案整合了零信任架构和实时威
2025年如何选择合适的云原生架构工具 zxzy_org 云原生架构 ai
随着云原生技术的不断发展，市场上涌现出大量的工具和平台，供开发者选择。2025年，如何在这些工具中选择适合自己项目需求的架构工具，成为技术决策的重要议题。选择合适的云原生工具，首先需要根据项目的规模、复杂度以及团队的技能水平进行综合考虑。首先，容器化技术是云原生架构的核心。Docker是最受欢迎的容器化工具，适用于大多数开发场景。如果项目规模较大，Kubernetes将成为不可或缺的容器编排平台，
Golang 框架介绍 wwwenhx golang 开发语言后端
以下是一篇可直接发布到CSDN的关于Golang主流框架的技术文章，包含框架对比、使用场景和代码示例：---#Golang主流框架全解析：从Web开发到微服务##引言Go语言凭借其高性能和简洁语法，已成为云原生时代的宠儿。本文将全面解析Go生态中的热门框架，涵盖Web开发、微服务、ORM等领域，助你根据业务需求选择最佳技术方案。---##一、Web开发框架###1.Gin（轻量之王）**特点**：
基于Knative的无服务器引擎重构：实现毫秒级冷启动的云原生应用浪潮桂月二二云原生 knative serverless
引言：从微服务到无状态的量子跃迁当容器启动时间仍困在900ms高位时，某视频直播平台采用Knative将突发流量处理时效提升40倍，弹性扩缩响应速度突破至120ms级。基于流量预测的预启动算法与内核级资源复用池两大技术创新，正在重新定义Serverless时代的性能边界。IDC最新报告指出，采用该架构的企业资源利用率平均提升至78%，年度计算成本直降320万美元。一、传统FaaS模型的性能桎梏1.
【云原生进阶之数据库技术】第四章-GaussDB-关键技术-2.4.1-GaussDB存储引擎层关键技术方案江中散人云原生进阶-数据库专栏云原生进阶-PaaS专栏后台开发专栏数据库云原生 gaussdb database 存储引擎
1存储引擎概览早期计算机程序通过文件系统管理数据，到了20世纪60年代这种方式就开始不能满足数据管理要求了，用户逐渐对数据并发写入的完整性、高效的检索提出更高的要求。由于机械磁盘的随机读写性能问题，从20世纪80年代开始，大多数数据库一直围绕着减少随机读写磁盘进行设计。主要思路是把对数据页面的随机写盘转化为对WAL(WriteAheadLog，预写式日志)的顺序写盘，WAL持久化完成，事务就算提交
在SpringBoot项目中有k8s配置，但报错柠檬编程工作室 go&k8s 运维 spring boot kubernetes 后端
如下报错一般是你没有将k8s的config拷贝到项目里，你可以将k8s主节点的config拷贝一下到项目中。2025-02-1309:27:21.873ERROR1671---[.models.V1Pod-1]i.k.c.informer.cache.ReflectorRunnable:classio.kubernetes.client.openapi.models.V1Pod#Reflector
Kubernetes源码分析之kubelet 「已注销」 runtime 操作系统运维
本节所有的代码基于1.13.4版本。启动分析Kubelet的启动参数有两种，kubeletFlags和kubeletConfig。其中，kubeletFlags与我们使用的kubelet的--参数命令保持一致；kubeletConfig通过解析特定的配置文件完成参数的配置，它们共同构成kubelet启动参数的配置。如图基本参数配置完成之后，接下来就是配置启动的Run方法。Kubelet启动的Run
5、pod 详解（kubernetes） Sundayday47 k8s kubernetes 容器云原生 harbor
pod详解（kubernetes）Pod的基础概念pause容器Pod的分类与创建自主式Pod控制器管理的Pod静态PodPod容器的分类基础容器（infrastructurecontainer）初始化容器（initcontainers）应用容器（Maincontainer）镜像拉取策略（imagePullPolicy）k8s部署harbor创建私有项目部署harbor仓库harbor登录凭据资源
红队视角出发的k8s敏感信息收集——Kubernetes API 扩展与未授权访问周周的奇妙编程 kubernetes 容器云原生
针对Kubernetes第三方组件与Operator的详细攻击视角分析，涵盖ServiceMesh、HelmReleases和DatabaseOperators的潜在风险及利用方法。攻击链示例1.攻击者通过未授权的Tiller服务部署恶意HelmChart→2.创建后门Pod并横向移动至Istio控制平面→3.提取Envoy配置发现未加密的数据库服务→4.通过MySQLOperator创建管理员账
义父们，支持我兄弟参加CSDN博客之星2024！他是一名优秀的运维工程师！ qq_42856429 运维 java 开发语言
标题：支持我兄弟参加CSDN博客之星2024！他是一名优秀的运维工程师！大家好，今天想为大家推荐一位非常优秀的技术博主——XMYX-0。他是一名专注于运维领域的开发者，尤其擅长Kubernetes（K8s）和Python自动化运维。他正在参加CSDN博客之星2024活动，希望大家能够为他投上宝贵的一票！为什么支持他？Kubernetes（K8s）领域的深度实践者在K8s领域有着丰富的实战经验。他的
数据驱动业务增长，E-MapReduce 真实案例解析 Anna_Tong mapreduce 大数据云计算数据分析阿里云实时计算数据驱动
在大数据时代，数据已经成为企业核心竞争力的关键因素之一。无论是电商、金融、物流还是制造业，企业都在探索如何更高效地处理、分析和利用海量数据，以实现精准决策、优化运营并提升业务增长。然而，面对PB级甚至EB级的数据规模，传统的本地大数据计算架构往往难以满足性能和成本的要求。如何在保证计算效率的同时降低运维成本，成为企业数据战略中的关键挑战。阿里云E-MapReduce（EMR）作为一款云原生的大数据
从零开始入门 K8s | Kubernetes 网络模型进阶 jishulaozhuanjia
个人博客导航页（点击右侧链接即可打开个人博客）：互联网老兵带你入门技术栈本文整理自《CNCFxAlibaba云原生技术公开课》第25讲，点击直达课程页面。关注“阿里巴巴云原生”公众号，回复关键词**“入门”**，即可下载从零入门K8s系列文章PPT。导读：本文将基于之前介绍的基本网络模型，进行更深入的一些了解，希望给予读者一个更广更深的认知。首先简单回顾一下容器网络的历史沿革，剖析一下Kubern
从入门到跑路（六）k8s配置ingress-nginx m0_74825678 面试学习路线阿里巴巴 kubernetes nginx 容器
Ingress-NGINX是一个基于NGINX的KubernetesIngress控制器，旨在将外部HTTP和HTTPS流量路由到Kubernetes集群中的服务。它是Kubernetes官方推荐的Ingress控制器之一，并且广泛应用于各种生产环境中。Ingress-NGINX介绍主要作用在Kubernetes集群中，Ingress-NGINX的作用是作为IngressController来处理
nacos学习笔记柠檬编程工作室 SpringCloud微服务 java面试经验学习笔记
Nacos（动态服务发现、配置管理与服务管理平台）是阿里巴巴开源的一个分布式系统架构中服务发现和配置管理的基础组件。它的主要目标是提供一个动态服务发现、配置管理和服务管理的解决方案。Nacos主要适用于微服务架构，并在云原生环境下发挥重要作用。Nacos的核心功能服务发现与健康检查Nacos提供了服务发现功能，可以帮助微服务在运行时动态发现其他服务的地址和端口。服务提供者（例如一个微服务实例）将自
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，Django@Python2.x 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f