腾讯云原生

Prometheus Metrics 设计的最佳实践和应用实例，看这篇够了！

Prometheus 是一个开源的监控解决方案，部署简单易使用，难点在于如何设计符合特定需求的 Metrics 去全面高效地反映系统实时状态，以助力故障问题的发现与定位。本文即基于最佳实践的 Metrics 设计方法，结合具体的场景实例——TKE 的网络组件 IPAMD 的内部监控，以个人实践经验谈一谈如何设计和实现适合的、能够更好反映系统实时状态的监控指标（Metrics）。该篇内容适于 Prometheus 或相关监控系统的初学者(可无任何基础了解)，以及近期有 Prometheus 监控方案搭建和维护需求的系统开发管理者。通过这篇文章，可以加深对 Prometheus Metrics 的理解，并能针对实际的监控场景提出更好的指标（Metrics）设计。

1 引言

Prometheus 是一个开源的监控解决方案，它能够提供监控指标数据的采集、存储、查询以及监控告警等功能。作为云原生基金会(CNCF)的毕业项目，Prometheus 已经在云原生领域得到了大范围的应用，并逐渐成为了业界最流行的监控解决方案之一。

Prometheus 的部署和使用可以说是简单易上手，但是如何针对实际的问题和需求设计适宜的 Metrics 却并不是那么直接可行，反而需要优先解决暴露出来的诸多不确定问题，比如何时选用 Vector，如何设计适宜的 buckets，Summary 和 Histogram 指标类型的取舍等。然而，要想有效助力故障及问题的发现与定位，必须要有一个合理有效的 Metrics 去全面高效地反映系统实时状态。

本文将介绍基于最佳实践的 Metrics 设计方法，并结合具体的场景实例——TKE 的网络组件 IPAMD 的内部监控，以个人实践经验谈一谈如何设计和实现适合的、能够更好反映系统实时状态的监控指标(Metrics)。

本文之后的第 2 节将对 Prometheus 的 Metrics 做简单的介绍，对此已有了解的读者可跳过。之后第 3 节将介绍 Metrics 设计的最佳实践。第 4 节将结合具体的实例应用相关设计方法。第 5 节将介绍 Golang 上指标收集的实现方案。

2 Prometheus Metrics Type 简介

Prometheus Metrics 是整个监控系统的核心，所有的监控指标数据都由其记录。Prometheus 中，所有 Metrics 皆为时序数据，并以名字作区分，即每个指标收集到的样本数据包含至少三个维度的信息：名字、时刻和数值。

而 Prometheus Metrics 有四种基本的 type：

Counter: 只增不减的单变量
Gauge：可增可减的单变量
Histogram：多桶统计的多变量
Summary：聚合统计的多变量

此外，Prometheus Metrics 中有一种将样本数据以标签（Label）为维度作切分的数据类型，称为向量(Vector)。四种基本类型也都有其 Vector 类型：

CounterVec
GaugeVec
HistogramVec
SummaryVec

Vector 相当于一组同名同类型的 Metrics，以 Label 做区分。Label 可以有多个，Prometheus 实际会为每个 Label 组合创建一个 Metric。Vector 类型记录数据时需先打 Label 才能调用 Metrics 的方法记录数据。

如对于 HTTP 请求延迟这一指标，由于 HTTP 请求可在多个地域的服务器处理，且具有不同的方法，于是，可定义名为 http_request_latency_seconds 的 SummaryVec，标签有region和method，以此表示不同地域服务器的不同请求方法的请求延迟。

以下将对每个类型做详细的介绍。

2.1 Counter

定义：是单调递增的计数器，重启时重置为0，其余时候只能增加。

方法：

type Counter interface {  Metric  Collector  // 自增1  Inc()  // 把给定值加入到计数器中. 若值小于 0 会 panic  Add(float64)}

常测量对象：
- 请求的数量
- 任务完成的数量
- 函数调用次数
- 错误发生次数
- ...

2.2 Gauge

定义：表示一个可增可减的数字变量，初值为0

方法：

type Gauge interface {  Metric  Collector  Set(float64)    // 直接设置成给定值  Inc()   // 自增1  Dec()   // 自减1  Add(float64)     // 增加给定值，可为负  Sub(float64)    // 减少给定值，可为负  // SetToCurrentTime 将 Gauge 设置成当前的 Unix 时间戳  SetToCurrentTime()}

常测量对象：
- 温度
- 内存用量
- 并发请求数
- ...

2.3 Histogram

定义：Histogram 会对观测数据取样，然后将观测数据放入有数值上界的桶中，并记录各桶中数据的个数，所有数据的个数和数据数值总和。

方法：

type Histogram interface {  Metric  Collector  // Observe 将一个观测到的样本数据加入 Histogram 中，并更新相关信息  Observe(float64)}

常测量对象：
- 请求时延
- 回复长度
- ...各种有样本数据
具体实现：Histogram 会根据观测的样本生成如下数据：

inf 表无穷值，a1,a2,...是单调递增的数值序列。
- [basename]_count: 数据的个数，类型为 counter
- [basename]_sum: 数据的加和，类型为 counter
- [basename]_bucket{le=a1}: 处于[-inf,a1]的数值个数
- [basename]_bucket{le=a2}: 处于[-inf,a2]的数值个数
- ...
- [basename]_bucket{le=<+inf>}：处于[-inf,+inf]的数值个数，prometheus默认额外生成，无需用户定义
Histogram 可以计算样本数据的百分位数，其计算原理为：通过找特定的百分位数值在哪个桶中，然后再通过插值得到结果。比如目前有两个桶，分别存储了[-inf, 1]和[-inf, 2]的数据。然后现在有20%的数据在[-inf, 1]的桶，100%的数据在[-inf, 2]的桶。那么，50%分位数就应该在[1, 2]的区间中，且处于(50%-20%) / (100%-20%) = 30% / 80% = 37.5% 的位置处。Prometheus计算时假设区间中数据是均匀分布，因此直接通过线性插值可以得到 (2-1)*3/8+1 = 1.375.

2.4 Summary

定义：Summary 与 Histogram 类似，会对观测数据进行取样，得到数据的个数和总和。此外，还会取一个滑动窗口，计算窗口内样本数据的分位数。

方法：

type Summary interface {  Metric  Collector  // Observe 将一个观测到的样本数据加入 Summary 中，并更新相关信息  Observe(float64)}

常测量对象：
- 请求时延
- 回复长度
- ...各种有样本数据
具体实现：Summary 完全是在client端聚合数据，每次调用 obeserve 会计算出如下数据：
- [basename]_count: 数据的个数，类型为 counter
- [basename]_sum: 数据的加和，类型为 counter
- [basename]{quantile=0.5}: 滑动窗口内 50% 分位数值
- [basename]{quantile=0.9}: 滑动窗口内 90% 分位数值
- [basename]{quantile=0.99}: 滑动窗口内 99% 分位数值
- ...

实际分位数值可根据需求制定，且是对每一个 Label 组合做聚合。

2.5 Histogram 和 Summary 简单对比

可以看出，Histogram 和 Summary 类型测量的对象是比较接近的，但根据其实现方式和其本身的特点，在性能耗费、适用场景等方面具有一定差别，本文总结如下：

3 Metrics 设计的最佳实践

3.1 如何确定需要测量的对象

在具体设计 Metrics 之前，首先需要明确需要测量的对象。需要测量的对象应该依据具体的问题背景、需求和需监控的系统本身来确定。

思路1：从需求出发

Google 针对大量分布式监控的经验总结出四个监控的黄金指标，这四个指标对于一般性的监控测量对象都具有较好的参考意义。这四个指标分别为：

延迟：服务请求的时间。
通讯量：监控当前系统的流量，用于衡量服务的容量需求。
错误：监控当前系统所有发生的错误请求，衡量当前系统错误发生的速率。
饱和度：衡量当前服务的饱和度。主要强调最能影响服务状态的受限制的资源。例如，如果系统主要受内存影响，那就主要关注系统的内存状态。

而笔者认为，以上四种指标，其实是为了满足四个监控需求：

反映用户体验，衡量系统核心性能。如：在线系统的时延，作业计算系统的作业完成时间等。
反映系统的服务量。如：请求数，发出和接收的网络包大小等。
帮助发现和定位故障和问题。如：错误计数、调用失败率等。
反映系统的饱和度和负载。如：系统占用的内存、作业队列的长度等。

除了以上常规需求，还可根据具体的问题场景，为了排除和发现以前出现过或可能出现的问题，确定相应的测量对象。比如，系统需要经常调用的一个库的接口可能耗时较长，或偶有失败，可制定 Metrics 以测量这个接口的时延和失败数。

思路2：从需监控的系统出发

另一方面，为了满足相应的需求，不同系统需要观测的测量对象也是不同的。在官方文档的最佳实践中，将需要监控的应用分为了三类：

线上服务系统（Online-serving systems）：需对请求做即时的响应，请求发起者会等待响应。如 web 服务器。
线下计算系统（Offline processing）：请求发起者不会等待响应，请求的作业通常会耗时较长。如批处理计算框架 Spark 等。
批处理作业（Batch jobs）：这类应用通常为一次性的，不会一直运行，运行完成后便会结束运行。如数据分析的 MapReduce 作业。

对于每一类应用其通常情况下测量的对象是不太一样的。其总结如下：

线上服务系统：主要有请求、出错的数量，请求的时延等。
线下计算系统：最后开始处理作业的时间，目前正在处理作业的数量，发出了多少 items，作业队列的长度等。
批处理作业：最后成功执行的时刻，每个主要 stage 的执行时间，总的耗时，处理的记录数量等。

除了系统本身，有时还需监控子系统：

使用的库（Libraries）: 调用次数，成功数，出错数，调用的时延。
日志（Logging）：计数每一条写入的日志，从而可找到每条日志发生的频率和时间。
Failures: 错误计数。
线程池：排队的请求数，正在使用的线程数，总线程数，耗时，正在处理的任务数等。
缓存：请求数，命中数，总时延等。
...

最后的测量对象的确定应结合以上两点思路确定。

3.2 如何选用 Vector

选用 Vec 的原则：

数据类型类似但资源类型、收集地点等不同
Vec 内数据单位统一

例子：

不同资源对象的请求延迟
不同地域服务器的请求延迟
不同 http 请求错误的计数
...

此外，官方文档中建议，对于一个资源对象的不同操作，如 Read/Write、Send/Receive，应采用不同的 Metric 去记录，而不要放在一个 Metric 里。原因是监控时一般不会对这两者做聚合，而是分别去观测。

不过对于 request 的测量，通常是以 Label 做区分不同的 action。

3.3 如何确定 Label

根据3.2，常见 Label 的选择有：

resource
region
type
...

确定 Label 的一个重要原则是：同一维度 Label 的数据是可平均和可加和的，也即单位要统一。如风扇的风速和电压就不能放在一个 Label 里。

此外，不建议下列做法：

my_metric{label=a} 1my_metric{label=b} 6my_metric{label=total} 7

即在 Label 中同时统计了分和总的数据，建议采用 PromQL 在服务器端聚合得到总和的结果。或者用另外的 Metric 去测量总的数据。

3.4 如何命名 Metrics 和 Label

好的命名能够见名知义，因此命名也是良好设计的一环。

Metric 的命名：

需要符合 pattern: [a-zA-Z:][a-zA-Z0-9:]*
应该包含一个单词作为前缀，表明这个 Metric 所属的域。如：
- prometheus_notifications_total
- process_cpu_seconds_total
- ipamd_request_latency
应该包含一个单位的单位作为后缀，表明这个 Metric 的单位。如：
- http_request_duration_seconds
- node_memory_usage_bytes
- http_requests_total (for a unit-less accumulating count)
逻辑上与被测量的变量含义相同。
尽量使用基本单位，如 seconds，bytes。而不是 Milliseconds, megabytes。

Label 的命名：

依据选择的维度命名，如：
- region: shenzhen/guangzhou/beijing
- owner: user1/user2/user3
- stage: extract/transform/load

3.5 如何设计适宜的 Buckets

根据前述 histogram 的统计原理可知，适宜的 buckets 能使 histogram 的百分位数计算更加准确。

理想情况下，桶会使得数据分布呈阶梯状，即各桶区间内数据个数大致相同。如图1所示，是本人在实际场景下配置的buckets 数据直方图，y 轴为 buckets 内的数据个数，x 轴是各 buckets，可以看出其近似成阶梯状。这种情况下，当前桶个数下对数据的分辨率最大，各百分位数计算的准确率较高。

图1 较为理想的桶数据分布

而根据笔者实践经验，为了达成以上目标，buckets 的设计可遵从如下经验：

需要知道数据的大致分布，若事先不知道可先用默认桶（{.005, .01, .025, .05, .1, .25, .5, 1, 2.5, 5, 10}）或 2 倍数桶（{1,2,4,8...}）观察数据分布再调整 buckets。
数据分布较密处桶间隔制定的较窄一些，分布稀疏处可制定的较宽一些。
对于多数时延数据，一般具有长尾的特性，较适宜用指数形式的桶（ExponentialBuckets）。
初始桶上界一般覆盖10%左右的数据，若不关注头部数据也可以让初始上界更大一些。
若为了更准确计算特定百分位数，如90%，可在90%的数据处加密分布桶，即减少桶的间隔。

4 实例：TKE-ENI-IPAMD Metrics 设计与规划

4.1 组件简介

该组件用于支持腾讯云 TKE 的策略路由网络方案。在这一网络方案中，每个 pod 的 IP 都是 VPC 子网的一个IP，且绑定到了所在节点的弹性网卡上，通过策略路由连通网络，并且使得容器可以支持腾讯云的 VPC 的所有特性。

其中，在 2.0.0 版本以前，tke-eni-ipamd 组件是一个 IP 分配管理的 GRPC Server，其主要职责为:

cni IP 真正分配/删除的 GRPC Server，分配/释放 IP 会调用腾讯云弹性网卡接口执行相应的 IP 绑定/解绑操作
Node 控制器（用于给 Node 绑定/解绑弹性网卡）
Stateulfset 控制器（用于给 Statefulset 预留 IP 资源）

其工作原理和流程如图 2 所示：

图2 tke-eni-ipamd(v2.0.0-) 工作原理和流程

4.2 IPAMD 的使用场景和我们的要求

背景：

ip 分配/释放对时延比较敏感，为了方便确定 ip 分配/释放过程中性能瓶颈是由我们自身代码造成的还是底层模块造成的（如 ipamd 调用的 vpc 接口等）。同时也方便对我们的代码和推进底层模块的性能优化。
ipamd 运行过程中可能会出现故障等问题，为了及时发现故障，定位问题，也需要有内部监控。

需求：

需要能够统计 ip 分配和释放各个阶段的时延，以确定性能瓶颈
需要知道当前的并发请求数，以确定 IPAMD 负载
vpc 接口 ip分配/释放，弹性网卡创建/绑定/解绑/释放耗时比较长，并且经常有失败情况。需要能够统计这些接口的时延和调用成功率，以定位性能瓶颈。
node controller，statefulset controller 进行 sync 阶段会有一系列流程，希望能清楚主要流程耗时，方便定位瓶颈
弹性网卡的创建/删除等过程中容易产生脏数据，需要能够统计脏数据的个数，以发现脏数据问题。
需要有较强的实时性，能够清楚的看到最近（~分钟级别）系统的运行状态

我们的场景：

ipamd 是部署在每个用户集群中的一个组件
每个用户集群内有 prometheus server 做聚合，然后每个 region 也有 server 去拉取数据

4.3 总体设计

因此，需要以下几类 Metric：

ip alloc/free 各阶段时延
基本运行信息：请求并发数、内存用量、goroutine 数，线程数
vpc 接口时延
vpc 接口调用成功率
controller sync 时延
脏数据计数

4.4 Histogram vs. Summary

时延可选择 Histogram 或 Summary 进行测量，如何选择？

基于 2.5 节的两者对比，有如下分析：

Summary:

优点：
1. 能够非常准确的计算百分位数
2. 不需要提前知道数据的分布
缺点：
1. 灵活性不足，实时性需要通过 maxAge 来保证，写死了后灵活性就不太够（比如想知道更长维度的百分位数）
2. 在 client 端已经做了聚合，即在各个用户集群的 ipamd 中已经聚合了，我们如果需要观察全部 user 下的百分位数数据是不行的（只能看均值）
3. 用户集群的 ipamd 的调用频率可能很低（如小集群或者稳定集群），这种情况下 client 端聚合计算百分位数值失去意义（数据太少不稳定），如果把 maxAge 增大则失去实时性

Histogram:

优点：
1. 兼具灵活性和实时性
2. 可以灵活的聚合数据，观察各个尺度和维度下的数据
缺点：
1. 需要提前知道数据的大致分布，并以此设计出合适而准确的桶序列
2. 难以通过 Label 串联多种 Metrics，因为各个 Metrics 的数据分布可能差异较大，如果都只用一种桶序列的话会导致百分位数计算差异较大

Summary 的缺点过于致命，难以回避。Histogram 的缺点可以通过增加工作量（即通过测试环境中的实验来确定各 Metrics 的大致分布）和增加 Metrics（不用 Label 区分）来较好解决。

所以倾向于使用 Histogram。

4.5 Metrics 规划示例

详细的 Metrics 规划内容较多，这里选取了一些代表性的样例，列举如下：

注1：DefBuckets指默认桶（{.005, .01, .025, .05, .1, .25, .5, 1, 2.5, 5, 10}）。

注2：以上 buckets 持续微调中。

5 指标收集的 Golang 实现方案

5.1 总体实现思路

利用 prometheus 的 golang client 实现自定义的 exporter（包括自定义的 Metrics ），并嵌入到 ipamd 代码中，以收集数据
所有的 Metrics 作为 Metrics 包的外部变量可供其他包使用，调用测量方法
自定义 exporter 参考 prometheus client golang example
将收集到的数据通过 http server 暴露出来

5.2 Metrics 收集方案

方案1：非侵入式装饰器模式

样例: kubelet/kuberuntime/instrumented_services.go

type instrumentedRuntimeService struct {    service internalapi.RuntimeService}func recordOperation(operation string, start time.Time) {    metrics.RuntimeOperations.WithLabelValues(operation).Inc()    metrics.DeprecatedRuntimeOperations.WithLabelValues(operation).Inc()    metrics.RuntimeOperationsDuration.WithLabelValues(operation).Observe(metrics.SinceInSeconds(start))    metrics.DeprecatedRuntimeOperationsLatency.WithLabelValues(operation).Observe(metrics.SinceInMicroseconds(start))}func (in instrumentedRuntimeService) Status() (*runtimeapi.RuntimeStatus, error) {    const operation = "status"    defer recordOperation(operation, time.Now())    out, err := in.service.Status()    recordError(operation, err)    return out, err}

优点：

上层调用函数处几乎不用修改，只需修改调用的实例
抽象较好，非侵入式设计，代码耦合度低

缺点：

需单独封装每个调用函数，复用度低
无法封装内部函数，只能适用于测量对外服务函数的数据

方案2：defer 函数收集

样例：

func test() (retErr error){    defer func(){        metrics.LatencySeconds.Observe(...)    }()    ...    func body    ...}

优点：

上层调用函数处完全不用修改
适用于所有函数的测量

缺点：

有点滥用 defer
侵入式设计，具有一定的耦合度

5.3 目前 IPAMD 的指标收集实现方案

时延统计：通过 golang 的 time 模块计时，在函数中嵌入 time.Now 和并在其后 defer time.Since 来统计。
调用成功率统计：调用次数在接口函数里直接用 counter 进行统计，失败次数在defer里获取命名返回值统计，最后在 prometheus server 端聚合的时候通过 PromQL 利用这两个数据计算出调用成功率。
并发请求数的统计：在最外层的 AddPodIP 和 DelPodIP 中，在函数中和 defer func 中分别调用Inc和Dec。

6 总结

本文介绍了 Prometheus Metrics 及最佳实践的 Metrics 设计和收集实现方法，并在具体的监控场景—— TKE 的网络组件 IPAMD 的内部监控中应用了相关方法。

具体而言，本文基于最佳实践，回答了 Prometheus Metrics 设计过程中的若干问题：

如何确定需要测量的对象：依据需求(反映用户体验、服务量、饱和度和帮助发现问题等)和需监控的具体系统。
何时选用 Vec：数据类型类似但资源类型、收集地点等不同，数据单位统一。
如何确定 Label：可平均和可加和的，单位要统一；总和数据另外计。
如何命名 Metrics 和 Label：见名知义，应包含监控的系统名/模块名，指标名，单位等信息。
如何设计适宜的 Buckets：依据数据分布制定，密集部分桶区间较窄，总体桶分布尽量接近阶梯状。
如何取舍 Histogram 和 Summary：Histogram 计算误差大，但灵活性较强，适用客户端监控、或组件在系统中较多、或不太关心精确的百分位数值的场景；Summary 计算精确，但灵活性较差，适用服务端监控、或组件在系统中唯一或只有个位数、或需要知道较准确的百分位数值(如性能优化场景)的场景。

此外，Metrics 设计并不是一蹴而就的，需依据具体的需求的变化进行反复迭代。比如需新增 Metrics 去发现定位可能出现的新问题和故障，再比如 Buckets 的设计也需要变化来适应测量数据分布发生的变化，从而获得更精确的百分位数测量值。

参考资料

Prometheus 官方文档：https://prometheus.io/docs/introduction/overview/Prometheus
Go client library：https://github.com/prometheus/client_golang

你可能感兴趣的:(Promethues,监控,Kubernetes)

游戏可观测性：如何打造稳定高效的后台服务你一身傲骨怎能输游戏开发技术专栏可观测性
游戏服务可观测性能力建设摘要游戏服务的可观测性建设是保障稳定运营和高效排障的关键。现代游戏采用分布式架构，需要通过指标(Metrics)、日志(Logs)、追踪(Traces)三大支柱实现系统监控。核心能力包括：指标监控：系统资源、服务性能、业务数据日志分析：访问日志、业务日志、异常日志链路追踪：跨服务调用追踪和业务流程跟踪告警与可视化：实时告警、仪表盘、根因分析技术方案建议：指标采集：Prome
Claude Code 深夜也要加班？这个神器让 AI 自动续命! terryso AI编程 AI编程
你有没有遇到过这种情况？晚上熬夜用ClaudeCode写代码，正写到关键时刻，突然弹出："Claudeusagelimitreached.恢复时间：凌晨3点"这时候你可能已经困得睁不开眼，但又舍不得放弃手头的工作进度…解决方案来了！今天给大家推荐一个开源神器：ClaudeAutoResume，让你的ClaudeCode可以"自动续命"！它是怎么工作的？智能检测：自动监控Claude使用限制倒计时等
Postgresql快速同步大量数据方案浅析行星008 数据库 postgresql 数据库
目录推荐方案：并行导出导入+网络加速方案优势：详细步骤1.数据选择与准备2.并行数据导出（111服务器）3.高效网络传输4.并行数据导入（112服务器）5.性能优化参数增量同步方案（可选）方法1：逻辑复制（适合持续同步）方法2：增量更新脚本（适合定时同步）性能优化技巧验证与监控预期性能指标故障处理针对PostgreSQL14.3环境中从111服务器同步部分数据（约1000GB）到112服务器的需求
量化策略进阶：事件驱动与另类数据挖掘实战
前面的章节，我们已经详细探讨了量化系统的基础架构：从数据的获取与管理（数据层），到策略的研发与验证（回测层），再到指令的高速执行（交易执行层），以及确保资金安全的防线（风控与监控运维层），我们共同构建了一套完整的量化交易体系。今天，我们将深入探讨量化策略的更高维度：事件驱动型策略和另类数据挖掘。这不仅仅是技术栈的扩展，更是对市场洞察力和信息处理能力的全面提升，旨在帮助您的策略在传统量价数据之外，捕
构建安全隔离的数据共享通道：NFS、CSI 与动态卷调度实践观熵 Docker 安全 docker 容器存储
构建安全隔离的数据共享通道：NFS、CSI与动态卷调度实践关键词：容器存储、安全隔离、NFS、CSI插件、动态卷调度、跨节点挂载、PVC策略、Kubernetes卷权限摘要：在容器化应用中，跨Pod、跨节点的数据共享是典型需求场景，NFS与CSI（ContainerStorageInterface）成为主流实现路径。但共享存储往往伴随权限泄露、数据冲突、状态污染等风险。本文从NFS与CSI的原理出
Kubernetes：容器编排技术从入门到精通 IYA1738
本文还有配套的精品资源，点击获取简介：Kubernetes（K8s）是一个开源的容器编排系统，由CNCF维护，用于自动化容器化应用的部署、扩展和管理。本资料将深入探讨K8s的核心组件、架构以及如何优化Java应用的部署和运行。学习K8s将涵盖Master节点和Worker节点的功能、Pod管理、服务抽象、存储管理、资源组织、Java应用优化以及高级特性等内容。通过实践操作，加深对K8s的理解，提升
Kubernetes (K8s) 详解：从入门到进阶半夏一 1024程序员节
Kubernetes(K8s)详解：从入门到进阶什么是Kubernetes？Kubernetes，通常简称为K8s，是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用。它最初由Google开发，现在由CNCF（云原生计算基金会）维护。Kubernetes可以帮助开发人员和运维人员简化应用程序的管理，尤其是在云环境中。核心概念在深入Kubernetes的架构和使用之前，我们需要了解一些核
学生上机管理系统设计与实现 AR新视野
本文还有配套的精品资源，点击获取简介：《学生上机管理系统》是一款专门用于教育领域的管理软件，通过VB开发实现学生和教师的信息化管理。系统包括学生管理模块和教师管理模块，提供详细的学生信息录入、查询、修改功能，成绩统计与展示，以及课程安排、监控和上机预约等功能。此外，系统支持作业提交和批改，以及基于角色的用户权限管理，确保信息安全性。该系统利用数据库技术和人机交互界面，旨在提高教学质量和管理效率。1
风险管理：从评估到分析的完整指南
""背景简介在面对日益复杂化的网络安全挑战时，有效的风险管理成为了企业和组织不可或缺的一部分。本文基于提供的章节内容，将探讨风险管理的核心过程，包括风险评估和风险分析的步骤，以及如何选择合适的方法论来应对不同的风险场景。风险管理过程的持续监控风险管理并非一成不变，它需要一个持续的监控过程来确保控制措施的有效性。章节中提到，监控（Monitor）是风险管理过程中的一个持续步骤，它负责观察控制措施，并
Python多线程vs多进程：一场关于效率的“宫斗戏“，谁才是你的真命天子？
清晨的咖啡还冒着热气，你盯着监控面板上飙升的CPU使用率，键盘敲出的代码在"多线程"和"多进程"之间反复横跳——这可能是每个Python开发者都会经历的"效率抉择时刻"。当项目从"能跑就行"进化到"必须快跑"，多线程与多进程这对"欢喜冤家"就会跳出来，用各自的"十八般武艺"让你挑花眼。今天咱们就来扒开表象，从底层机制到实战案例，彻底搞懂这对CP的爱恨纠葛。一、GIL：多线程头顶的"紧箍咒"要聊多线
分布式系统全链路监控之二：Spring Actuator
文章目录引用前言开启功能端点控制端点访问权限开放端点端点缓存敏感信息脱敏Actuator发现页跨域自定义端点健康信息应用程序信息软件物料信息通过HTTP进行监控和管理自定义端点路径自定义端口号配置专用SSL自定义监听地址可观察性OpenTelemetry支持日志配置日志记录器OpenTelemetry指标支持的指标和仪表注册自定义指标定制个人指标链路日志关联ID创建自定义SpanBaggage审计
Pushgateway扩展Prometheus监控 ivwdcwso 运维与云原生 prometheus k8s 云原生
Pushgateway是Prometheus生态系统中的一个重要组件,它允许我们将短期作业或批处理任务的指标推送到Prometheus中。本文将详细介绍如何安装、配置和使用Pushgateway来扩展Prometheus监控。1.Pushgateway简介Pushgateway主要用于解决以下场景:短期作业无法被Prometheus直接抓取批处理任务需要推送指标防火墙后的应用需要主动推送指标它作为
Prometheus系列01-Prometheus的单机版二进制部署 tinychen777 Devops linux 监控程序 centos
作为CNCF中最成功的开源项目之一，Prometheus已经成为了云原生监控的代名词，被广泛应用在Kubernetes和OpenShift等项目中，同时有很多第三方解决方案也会集成Prometheus。随着Kubernetes在容器调度和管理上确定领头羊的地位，Prometheus也成为Kubernetes容器监控的标配。考虑到k8s系统的复杂性和上手难度较高，本文将从最简单最基础的部分开始循序渐
【Prometheus】cAdvisor工作原理介绍码上淘金 prometheus
cAdvisor（ContainerAdvisor）是Google开源的容器监控工具，专注于实时采集和暴露容器级别的资源使用数据。其底层实现基于Linux内核的多项技术，结合高效的事件驱动架构，实现对容器资源的细粒度监控。以下从核心机制、数据采集原理和架构实现三方面详细解析：一、核心依赖技术cAdvisor的监控能力建立在Linux内核提供的底层机制之上：cgroups（控制组）资源隔离与统计：c
【Prometheus】通过tar包部署单机版Prometheus 和 Pushgateway
在ECS（ElasticComputeService）机器上通过tar包部署Prometheus和Pushgateway，并配置Prometheus采集Pushgateway的数据，是一个常见的监控部署任务。以下是详细的步骤说明：环境准备操作系统：Linux（如CentOS、Ubuntu）已安装tar命名已开通ECS实例的相应端口（9090forPrometheus,9091forPushgate
Python知识点：如何使用memory_profiler进行内存分析
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用memory_profiler进行Python代码内存分析在开发高性能的Python应用程序时，理解和优化内存使用是至关重要的。memory_profiler是一个强大的工具，它可以帮助你监控Python代码的内存使用情况。本文将介绍如何使用memory_profiler来分
SOC的工作原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！SOC（安全运营中心）是企业安全防御体系的**神经中枢**，通过整合技术、流程和人员，实现**7×24小时安全监控、威胁检测、事件响应及持续改进**。其核心目标是**缩短攻击驻留时间（MTTD/MTTR）**，将碎片化的安全数据转化为可行动的防御策略。以下是SOC的工作原理与架构深度解析：---###**一、SOC的核心工作原理**####**1.安全数据全域
【Note】《Kafka: The Definitive Guide》第6章：Kafka 的可靠数据投递机制，理解消息系统中的交付语义 CodeWithMe 中间件读书笔记 kafka 分布式
《Kafka:TheDefinitiveGuide》第6章：Kafka的可靠数据投递机制，理解消息系统中的交付语义在构建分布式系统时，数据是否成功送达？是否会丢失？是否会重复？这些都是架构师必须面对的核心问题。Kafka被广泛应用于金融、监控、日志、交易、IoT等对可靠性要求极高的场景，那么它是如何保障消息交付可靠性的？本章将深入解析Kafka的消息投递语义、失败处理机制、幂等性与事务支持，从而理
K8s系列之：Kubernetes 的 OLM 快乐骑行^_^ Ansible Docker K8S 服务器相关知识总结 K8s系列 Kubernetes OLM
K8s系列之：Kubernetes的OLM什么是Kubernetes的OLM什么是Kubernetes中的OperatorOLM的功能OLM的核心组件OLM优势OLM的工作原理OLM与OperatorHub的关系OLM示例场景什么是CRDoperator和CRD的关系为什么需要CRD和OperatorCRD定义资源类型DebeziumServer如何使用debeziumoperatorDebezi
K8s系列之：Kubernetes 的 RBAC (Role-Based Access Control) 快乐骑行^_^ Ansible Docker K8S 服务器相关知识总结 K8s系列 Kubernetes RBAC Role-Based Access Control
K8s系列之：Kubernetes的RBACRole-BasedAccessControl认识RBACRBAC的关键概念RoleClusterRoleRoleBindingClusterRoleBindingRBAC的工作机制RBAC配置过程RBAC示例场景RBAC的优点总结认识RBACRBAC（基于角色的访问控制）是Kubernetes中的一种权限管理机制，用于控制用户或服务账户对Kuberne
Teleport 开源堡垒机（推荐工具）小政同学运维堡垒机
1.什么是堡垒机？堡垒机，就是让我们能够更安全的远程连接和操作服务器的一种工具，将其部署到服务器中，然后将其他服务器的外部访问进行限制，所有的操作都在堡垒机中进行，堡垒机还拥有记录登录信息与操作监控等功能，对于运行一些指定的危险命令，会对其进行告警反馈，有人登录时，管理员可以查看其在服务器中进行的操作，采用视频的形式展示，真正做到了出现故障能够追责到某个人。2.Teleport开源堡垒机他是一个轻
Kafka 小熊哥^--^ kafka 分布式
一、什么是Kafka？Kafka的主要用途？Kafka是一个分布式流处理平台，是Apache的一个顶级项目，它被设计用于高吞吐量，分布式、持久性的数据流处理。Kafka实现了一套非常高效的一种发布订阅模型，应用场景非常广泛，比如日志聚合（收集日志）、数据流处理、数据仓库集成（传输数据到数据仓库）、应用程序集成（作为消息中间件来实现异步通信）、流媒体处理（列如实时监控，事件驱动的应用程序）二、top
使用VUE和webrtc-streamer实现rtsp实时监控
使用VUE和webrtc-streamer实现rtsp实时监控前言一、webrtc-streamer是什么？二、使用步骤1.下载[webrtc-streamer](https://github.com/mpromonet/webrtc-streamer/releases)，本机测试我下载的最新window版本2.解压下载的安装3.双击webrtc-streamer.exe启动服务4.将下载包htm
边缘计算赋能大屏监控：毫秒级数据响应的底层架构解析深空数字孪生边缘计算架构人工智能
想象一下，交通指挥中心的大屏上，道路拥堵情况却比实际晚了好几秒才显示；工厂监控大屏里，设备故障警报姗姗来迟，导致生产线遭受重大损失……传统大屏监控的延迟问题，常常让它变成“慢半拍”的摆设。而边缘计算的出现，就像给大屏监控装上了“超能力芯片”，能实现毫秒级的数据响应，让大屏真正成为实时洞察的“千里眼”。那么，边缘计算究竟是如何做到这一点的？它背后的底层架构又藏着哪些秘密？接下来，让我们一探究竟。一、
Redis 的特性、工作机制与性能优化全解（含搭建实战教程）
文章目录二、Redis的核心特性三、Redis的工作机制解析单线程模型（性能为何强大？）数据结构是性能的关键持久化机制（数据如何存下来？）四、Redis性能优化实战1.优化内存使用2.提升并发性能3.使用分片/集群机制4.异步处理五、Redis搭建流程（Linux环境）1.下载与解压2.编译并安装3.修改配置文件（推荐复制一份）4.启动Redis5.客户端连接测试六、Redis运维技巧与监控命令七
【仿muduo库实现并发服务器】Connection模块 tew_gogogo 项目服务器网络 android
仿muduo库实现并发服务器一.Connection模块二.成员变量1.连接唯一ID(连接管理)2.Socket对象(套接字操作管理)3.Channel对象(连接事件管理)4.Buffer对象(缓冲区管理)5.ConnStatus对象(连接状态管理)6.EventLoop对象(连接监控/定时任务管理)7.Any对象(上下文管理)8.是否启动非活跃超时连接销毁标志位9.5个阶段性回调函数三.成员函数
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
Kafka “假死“现象深度解析与解决方案
一、什么是Kafka假死现象？Kafka假死（也称为"僵死"或"挂起"）是指Kafka集群或Broker在表面上进程仍在运行，但实际上已经停止响应或处理能力极度下降的状态。典型表现包括：生产者消息无法写入（超时）消费者无法拉取消息管理API无响应监控指标停止更新但进程仍在系统进程中可见二、假死的根本原因分析1.磁盘I/O瓶颈典型场景：磁盘写满（特别是日志目录）磁盘性能达到瓶颈（RAID卡缓存策略不
MySQL CDC与Kafka整合指南：构建实时数据管道的完整方案亲爱的非洲野猪 mysql kafka 数据库
一、引言：现代数据架构的实时化需求在数字化转型浪潮中，实时数据已成为企业的核心资产。传统批处理ETL（每天T+1）已无法满足以下场景需求：实时风险监控（金融交易）即时个性化推荐（电商）物联网设备状态同步微服务间数据一致性本文将深入探讨如何通过MySQLCDC与Kafka的整合，构建高效可靠的实时数据管道。二、技术选型：三大CDC工具深度对比功能矩阵比较特性DebeziumCanalMaxWell多
无人机一机多控技术要点难点云卓SKYDROID 无人机人工智能高科技云卓科技科普
一、运行方式1.核心架构：集中式控制(最常见)：遥控器作为主控端，通过无线通信模块与多架无人机建立连接。遥控器运行核心控制逻辑，负责：接收操作员的输入指令（如整体移动、队形变换）。根据预设的编队逻辑或算法，将整体指令解算为每架无人机的个体指令（目标位置、速度、航向等）。通过通信链路同时或分时向所有或指定的无人机发送个体指令。接收所有无人机的状态信息（位置、速度、姿态、电池、传感器数据等），进行监控
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache