阿里云云原生

统一观测丨使用 Prometheus 监控 SQL Server 最佳实践

作者：啃唯

SQL Server 简介

SQL Server 是什么？

Microsoft SQL Server 是 Microsoft 推出的关系型数据库解决方案，支持企业 IT 环境中的各种事务处理、商业智能和分析应用程序。Microsoft SQL Server 是市场领先的数据库技术之一。

SQL Server 特点

稳定：针对企业的应用需求，制定出适应环境的解决方案，保证了企业的数据安全和顺利运行。
易用：提供了丰富的图形化管理工具，方便用户快速搭建数据库系统。
兼容：原生适配 Windows 系统，提供丰富的 API 访问。
性能：多种数据库引擎优化算法，支持大量数据查询存储。

SQL Server 核心概念

关系引擎： 关系引擎控制存储引擎对数据的处理，并提供 SQL Server 组件来准确确定应如何执行查询。关系引擎由三个主要部分组成。CMD 解析器（parser）主要负责识别和消除语义和语法错误，并生成查询树。优化器（Optimizer）通过消除冗余任务和寻找最优计划，确保所请求的查询响应尽可能高效。查询执行器（Query Executoe）会生成数据获取逻辑的行为。

存储引擎： 当数据由存储引擎存储时，会从存储系统（例如 SAN 或磁盘）检索数据。存储引擎中存在三种类型的文件：主文件、辅助文件和日志文件。访问方法（Access Method）负责在缓存管理器和事务日志之间交换数据。缓存管理器（Buffer Manager）缓存当前的执行计划和页。事务管理器（Transaction Manager）使用日志和锁管理器对事务进行管理。

协议层： 该层支持客户端-服务器架构以及流。协议层支持 3 种类型的客户端服务器架构：共享内存、TCP/IP、命名管道。

主要适用场景

Microsoft SQL Server 凭借其可视化界面及其所具有的选项和工具，非常适合在关系数据库中存储所有所需的信息，以及轻松管理此类数据。

事务处理： SQL Server 支持事务处理，通过使用事务，用户可以将一系列数据库操作组合在一起，并确保它们要么全部成功执行，要么全部回滚到初始状态。这对于处理银行交易、在线购物和库存管理等需要保证数据一致性的应用程序非常关键。
通过大数据集群对所有数据进行智能分析： SQL Server 提供了强大的数据仓库和商业智能功能。用户可以使用 SSIS 将数据从不同的数据源中提取、转换和加载到数据仓库中。然后，您可以使用 SSAS 创建多维数据模型和立方体，以支持复杂的数据分析和报表需求。此外，SQL Server还提供了数据挖掘和预测分析功能，帮助组织发现数据中隐藏的模式和趋势。
可扩展性： SQL Server 提供了广泛的开发和编程功能，以支持应用程序开发人员。SQL Server 还支持水平和垂直扩展，用户可以在需要时增加服务器硬件资源或在多个服务器之间进行数据分区和分布，以处理大规模数据和高并发负载。SQL Server 允许用户轻松地将数据库管理系统与任何设备和 Azure 服务集成，以获得更好的数据性能和分析能力。

主要版本介绍

SQL Server 2022：安全、性能、可用性等加强；查询存储和智能查询处理

SQL Server 2019：数据虚拟化和大数据群集；智能数据库、智能查询；内存数据库

SQL Server 2017：图形数据库功能、动态管理视图、内存优化等

SQL Server 2016：内存OLTP、Stretch Database、集成 Hadoop 等

监控关键指标

这里介绍监控 SQL Server 服务中常见的关键指标。

系统指标

运行状态

启动状态是监控 SQL Server 最基础的指标，表示 SQL Server 实例是否在正常运行，或是否重启。SQL Server 重启时，没有 commit 的数据会丢失，小概率产生错误。

版本/实例时间

监控启动的 SQL Server 实例是否符合预期，是否是业务要求的 SQL Server 版本。保证 SQL Server 的本地时间与客户端保持一致，否则数据库返回的时间有可能发生错误。

读写指标

页指标

页读写： 页是 SQL Server 存储引擎磁盘管理的最小单位，为数据库中的数据文件（.mdf 或 .ndf）分配的磁盘空间可以从逻辑上划分成页（从 0 到 n 连续编号）。磁盘 I/O 操作在页级执行。也就是说，SQL Server 读取或写入所有数据页。因此对页的读写监控尤为重要。通过读写页数量的指标，可以计算出页读写的速率，从而判断 SQL Server 的执行性能。

页在缓存的停留时间： 所有数据库软件的主要设计目标之一是尽量减少磁盘 I/O，因为磁盘的读取和写入操作占用大量资源。SQL Server 在内存中生成缓存池，用于保存从数据库读取的页。我们需要监控页在缓存池的生命时长，页在缓存池中存在的时间越长，表示其被命中的可能性越大，也就是说访问该页时不需要访问磁盘。

惰性写（lazy write）： 在缓冲区缓存中修改页后，不会将其立即写回磁盘；而是将其标记为“脏”。也就是说在将页物理写入磁盘之前，可以将其逻辑写入多次。在正常运行的情况下，脏页定期地刷入磁盘。而当不断地有新数据写入 SQL Server 且缓存不够用的情况下，大量的脏页会被移出缓存。

检查点（checkpoint）： 当检查点发生时，SQL Server 要求刷新所有脏页至磁盘，此时 SQL Server 性能受到一定影响。我们需要监控检查点的速度，确保检查点的刷新速度达到预期。

页错误（page fault）： 当页错误发生时，表示需要的页在 SQL Server 可管理的内存区域之外。当遇到页面错误时，程序执行停止并设置为等待状态。操作系统在磁盘上搜索所请求的地址。当找到该页面后，操作系统将其从磁盘复制到空闲 RAM 页面中。操作系统允许程序随后继续执行。

日志成长次数

SQL Server 数据库引擎为数据库中的每个操作写入日志记录，其中包括执行数据修改过程时、创建或删除数据库表或索引时以及每次分配或删除页面后开始或结束 SQL 事务。日志助于在系统或硬件发生故障时将数据库恢复到特定时间点。在具有过多日志记录操作的事务性很强的系统中，SQL Server 事务日志文件将快速增长，直到达到其最大大小，从而生成错误号 9002。如果启用自动增长选项，底层磁盘驱动器将耗尽可用空间。

I/O 等待（stall）时间

I/O 等待时间是一个可用于检测 I/O 问题的指标。SQL Server 将数据写入文件或是从文件读数据时，都需要等待较长的时间，表示为 I/O 等待时间，停顿时间较长表明存在 I/O 问题和磁盘活动繁忙。文件 I/O 属于数据库的关键路径，等待的时间直接反应到客户端读写 SQL Server 的延迟。

每个数据库存储的文件不同，使用的存储介质也可能不同。因此除了监控整体的 I/O 等待时间，还需要监控各个数据库的 I/O 等待时间，以便运维做出针对性的优化。

连接指标

在 SQL Server 中，执行查询都依赖于建立和维护客户端连接。当需要维护 SQL Server 的可用性和高性能，监控连接是运维工作的良好入口。当 SQL Server 并发连接数过多可能会使服务器超载。当连接成功建立，不管是否使用连接，每个连接都会产生开销。

存储指标

如上文所述，尽管 SQL Server 将数据存储在磁盘中，但因为缓存池的存在，对 SQL Server 内存使用情况同样要重点关注。默认情况下，SQL Server 根据可用的系统资源动态管理其内存需求。如果 SQL Server 需要更多内存，它会查询操作系统以确定是否有可用的空闲物理内存并使用可用内存。如果操作系统的可用内存不足，SQL Server 会将内存释放回操作系统，直到内存不足的情况得到缓解，或者直到 SQL Server 达到最小服务器内存限制。

性能指标

事务处理速率（TPS）

一个事务是指一个客户端向 SQL Server 发送请求然后 SQL Server 做出反应的过程。客户端在发送查询请求时开始计时，收到 SQL Server 响应后结束计时，以此来计算使用的时间和完成的事务个数。一般的，评价 SQL Server 性能均以每秒钟完成的客户端请求的数量来衡量。

批处理（T-SQL）速率

T-SQL (Transact-SQL) 是 Sybase 和 Microsoft 的一组编程扩展，它为结构化查询语言 ( SQL ) 添加了多种功能，包括事务控制、异常和错误处理、行处理和声明的变量。所有与 SQL Server通信的应用程序都是通过向服务器发送 T-SQL 语句来实现的。

指标详细定义

系统指标

读写指标

连接指标

存储指标

性能指标

监控大盘

我们默认提供了 SQL Server Overview 大盘。

总览

在该 panel 能看到 SQL Server 运行时需要重点关注的指标，在检查 SQL Server 状态时，首先查看总览中是否有异常状态，再检查具体的指标。

启动状态：绿色代表正常运行，红色代表异常运行
内存使用率：使用红黄绿颜色提示，内存使用率在 80% 以下时为绿色，80%～90% 为黄色，90% 以上为红色

资源

内存是 SQL Server 的重点关注硬件资源，通过该 panel 能了解 SQL Server 的内存使用情况：

最大内存：提供内存整体状态
内存使用率/使用量：分析内存使用的趋势
文件扩展次数：分析操作数据量的趋势
数据库文件大小：查看数据库存储的数据量趋势，以及日志的存储量的趋势

性能

在以下 panel 能看到 SQL Server 的运行效率，分为以下三类：

事务处理速率：表示 SQL Server 每秒处理的事务数量，直接影响客户端查询请求的延迟
批处理速率：表示 SQL Server 每秒能处理多少个 Transact-SQL
死锁次数：检测是否发生了因为数据库竞争而发生的死锁，严重影响性能

读写

在以下 panel 能看到 SQL Server 的运行效率：

读写页速率：监控读写页的速率趋势，是否达到预期速率，是否发生波峰波谷等
惰性写速率：定期输入脏页的速率趋势，监控是否平稳
page 生命预期：page 的生命预期越高越好
I/O 等待时间：SQL Server 等待读写文件的等待时间趋势
检查点速率：当发生检查点，需要监控运行速率

数据库 I/O Stall

除了监控 SQL Server 的整体 I/O 等待时间，还需要分别监控数据库的 I/O 等待时间。每个数据库存储的文件不同，存储的磁盘可能不同，需要做出针对性优化方案。

连接

需要随时检查 SQL Server 的连接情况，防止过高的并发影响性能。

总连接数：监控整体连接数的趋势
连接错误数：监控是否有客户端发生了连接错误，保证系统正常运行
各数据库的连接用户：分别监控每个数据库连接的客户端，以及每个客户端发起的连接数量

数据库状态

监控各数据库是否正常运行，下表定义了数据库的状态。

状态	定义
ONLINE	可以对数据库进行访问。即使可能尚未完成恢复的撤消阶段，主文件组仍处于在线状态。
OFFLINE	数据库无法使用。数据库由于显式的用户操作而处于离线状态，并保持离线状态直至执行了其他的用户操作。例如，可能会让数据库离线以便将文件移至新的磁盘。然后，在完成移动操作后，使数据库恢复到在线状态。
RESTORING	正在还原主文件组的一个或多个文件，或正在脱机还原一个或多个辅助文件。数据库不可用。
RECOVERING	正在恢复数据库。恢复进程是一个暂时性状态，恢复成功后数据库将自动处于在线状态。如果恢复失败，数据库将处于可疑状态。数据库不可用。
RECOVERY PENDING	SQL Server 在恢复期间遇到与资源相关的错误。数据库未损坏，但是可能缺少文件，或系统资源限制可能导致无法启动数据库。数据库不可用。需要用户另外执行操作来解决问题，并让恢复进程完成。
SUSPECT	至少主文件组可疑或可能已损坏。在 SQL Server 启动过程中，数据库无法恢复。数据库不可用。需要用户另外执行操作来解决问题。
EMERGENCY	用户更改了数据库，并将其状态设置为 EMERGENCY。数据库处于单用户模式，可以修复或还原。数据库标记为 READ_ONLY，禁用日志记录，并仅限 sysadmin 固定服务器角色的成员访问。EMERGENCY 主要用于故障排除。例如，可以将标记为“可疑”的数据库设置为 EMERGENCY 状态。这样可以允许系统管理员对数据库进行只读访问。只有 sysadmin 固定服务器角色的成员才可以将数据库设置为 EMERGENCY 状态。

关键告警规则

在对 SQL Server 进行告警规则配置时，我们推荐基于以上采集得到的指标，从以下几个方面进行告警规则的配置，分别是运行情况、资源使用情况、连接使用情况。一般来说，我们默认生成影响 SQL Server 正常使用的告警规则，优先级较高。读写速率等与业务相关的告警则由用户自定义。以下是一些推荐的告警规则。

运行情况

SQL Server 停机

SQL Server 停机是 0/1 阈值的告警规则。一般来说，部署在 ACK 等阿里云环境的 SQL Server 服务具有高可用的能力，当一个 SQL Server 实例停止，其他的实例会继续工作。本报警引发的原因可能是所有的 SQL Server 都无法正常启动，或者 Exporter 错误无法获取数据。我们默认设定5分钟内 SQL Server 无法恢复的告警。

SQL Server 重启

SQL Server 重启是 0/1 阈值的告警规则绝大部分情况下 SQL Server 因为有日志的存在，不存在数据丢失的情况。但 SQL Server 重启之后缓存池的内容被清空，造成暂时的查询缓慢。正在执行的事务要回退给客户端，引发一系列暂时的错误，需要客户端重新发起请求。

资源使用情况

内存使用率过高

SQL Server 对服务器内存的使用策略是用多少内存就占用多少内存，不加限制的话有可能把节点的所有内存资源占用。当内存使用率过高，SQL Server 无法正常运行。我们设定的内存使用阈值为：危险值 80%，告警值 90%。当内存使用率为 80% 时，节点高负荷运转，但一般不影响正常使用。当内存长时间使用率为 90% 时，将发出告警，提示运维资源紧缺，尽早处理。

发生死锁

SQL Server 发生死锁是 0/1 阈值的告警规则，不考虑死锁的个数。一系统中遇到的死锁数通常很少，而一旦发生死锁，需要终止被线程执行的当前批处理，回滚死锁牺牲品的事务，回退给客户端一个错误信息。

连接使用情况

发生连接错误

SQL Server 发生连接错误是 0/1 阈值的告警规则。发生该错误可能有很多原因，如：远程主机强制关闭现有连接、超时过期。操作完成之前已过的超时期限或服务器未响应、无法生成 SSPI 上下文等，需要登录数据库并检查日志查看错误原因。

典型问题场景及其排查/解决方法

SQL Server 性能差

SQL Server 性能差体现在事务处理速率（TPS）、批处理（T-SQL）速率低的指标上，性能差有许多原因可能导致，我们需要联系多个指标进行排查。

检查内存使用率

原因：内存不足的情况下，缓存池无法缓存所有的热点数据，导致多次数据访问请求发送到磁盘
排查方法：检查大盘中的内存使用率 panel，检查内存使用率是否一直都很高。检查告警历史，查看是否提示内存资源不足。
解决方法：优化对应节点的磁盘资源；

检查 I/O 等待时间

原因：I/O 等待时间较长表明存在 I/O 问题和磁盘活动繁忙。
排查方法：检查大盘中的 I/O 等待时间 panel，检查 I/O 等待时间是否一直都很高。检查告警历史，查看是否提示内存资源不足。
解决方法：可能是出现大量的波峰访问，突然增大磁盘访问，考虑优化 SQL Server 架构；进一步检查节点的文件系统是否有 I/O 问题；优化对应节点的磁盘资源；

检查日志增长次数

原因：当数据库中执行任何修改时，SQL Server 会将修改写入日志缓冲区，然后将该缓冲区数据写入磁盘。当写入数据过多，日志内容来不及刷入磁盘。
排查方法：检查大盘中日志增长次数的 panel，检查是否有某段时间日志增长次数突然升高。
解决方法：为日志文件选择的磁盘必须在顺序读写吞吐量和最小延迟方面表现良好。

检查检查点（checkpoint）

原因：执行检查点时，SQL Server 将内存中的所有脏页刷新到磁盘，会影响整体数据库性能，给磁盘带来较大压力。
排查方法：查看检查点 panel，查看是否有检查点速率的数据，表示在该时间段进行了检查点操作。
解决方法：设计进行检查点的时机，尽量避开高峰时间段。

监控体系搭建

自建 Prometheus 监控 SQL Server 的痛点

通常我们当前的 SQL Server 都是部署在 ECS 上，因此自建 Prometheus 监控 SQL Server 时，我们将面临的典型问题有：

由于安全、组织管理等因素，用户业务通常部署在多个相互隔离的 VPC，需要在多个 VPC 内都重复、独立部署 Prometheus，导致部署和运维成本高。
每套完整的自建监控系统都需要安装并配置 Prometheus、Grafana、AlertManager 等，过程复杂、实施周期长。
缺少与阿里云 ECS 无缝集成的服务发现（ServiceDiscovery）机制，无法根据 ECS 标签来灵活定义抓取 targets。如果自行实现类似功能，则需要使用 Golang 语言开发代码（调用阿里云 ECS POP 接口）、集成进开源 Prometheus 代码、编译打包后部署，实现门槛高、过程复杂、版本升级困难。
常用开源 Grafana SQL Server 大盘不够专业，缺少结合 SQL Server 原理/特征和最佳实践进行深入优化。
缺少 SQL Server 告警指标模板，需要用户自行研究、配置告警项，工作量大。

用阿里云 Prometheus 进行自建 SQL Server 的监控

登录 ARMS 控制台 [ 1] 。
在左侧导航栏选择 Prometheus 监控 > Prometheus 实例列表，进入可观测监控 Prometheus 版的实例列表页面。
单击目标 Prometheus 实例名称，进入集成中心页面。
单击 SQL Server 卡片的安装

配置相关参数，并单击确定，完成组件接入。

已接入的组件会显示在集成中心页面的已安装区域。单击该组件卡片，在弹出的面板中可以查看 Targets、指标、大盘、告警、服务发现配置、Exporter 等信息。

，您可以看到目前可观测监控 Prometheus 版提供的关键告警指标。

您可以在大盘页签，单击大盘缩略图，查看对应 Grafana 大盘。

您可以面板中单击告警页签，查看 SQL Server 的 Prometheus 告警。您还可以根据业务需求新增告警规则。创建 Prometheus 告警规则的具体操作，请参见 Prometheus 告警规则 [ 2] 。

自建 Prometheus 与阿里云可观测监控 Prometheus 版监控 SQL Server 优劣对比

可观测监控 Prometheus 版针对产品新用户，提供三个月每日 2000w 自定义指标上报额度，点击此处立即免费试用。

参考链接：

[1] https://learn.microsoft.com/zh-cn/sql/sql-server/what-s-new-in-sql-server-2022?view=sql-server-ver16#query-store-and-intelligent-query-processing

[2] https://www.sqlshack.com/sql-server-troubleshooting-disk-i-o-problems/

[3] https://learn.microsoft.com/en-us/sql/relational-databases/performance/monitor-and-tune-for-performance?view=sql-server-ver16

[4] https://learn.microsoft.com/zh-cn/sql/relational-databases/pages-and-extents-architecture-guide?view=sql-server-ver16

[5] https://learn.microsoft.com/zh-cn/troubleshoot/sql/database-engine/performance/troubleshoot-sql-io-performance

[6] https://learn.microsoft.com/zh-cn/sql/relational-databases/memory-management-architecture-guide?view=sql-server-ver16

[7] https://www.sqlshack.com/sql-server-memory-performance-metrics-part-1-memory-pagessec-memory-page-faultssec/

[8] https://www.sqlshack.com/sql-server-transaction-log-growth-monitoring-and-management/

[9] https://blog.csdn.net/Superman7658/article/details/130799559

[10] https://learn.microsoft.com/zh-cn/sql/relational-databases/databases/database-states?view=sql-server-ver16&redirectedfrom=MSDN

相关链接：

[1] ARMS 控制台

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Farms.console.aliyun.com%2F#/home

[2] Prometheus 告警规则https://help.aliyun.com/zh/arms/prometheus-monitoring/create-alert-rules-for-prometheus-instances#task-2121615

springboot集成钉钉_钉钉通知机器人与SpringBoot的集成 weixin_39622643 springboot集成钉钉
SpringBootAdmin集成自定义监控告警(2.0.1版本)------钉钉机器人-yuancao24的博客-CSDN博客https://blog.csdn.net/yuancao24/article/details/83576194prometheus-spring-boot-starter:一个管理异常通知的神奇starter，实现了钉钉消息提醒与邮件提醒https://gitee.co
K8s 集群监控：从指标采集到可视化展示的完整方案花笺墨韵 kubernetes
目录一、引言二、指标采集（一）K8s内置指标（二）Prometheus指标采集三、数据存储（一）Prometheus本地存储（二）远程存储四、可视化展示（一）Grafana基础（二）K8s相关仪表盘模板五、总结一、引言Kubernetes（K8s）集群环境复杂且动态变化，应用程序的运行状况、资源的使用情况时刻都在改变。为了保障K8s集群高效、稳定地运行，及时发现潜在问题并做出响应，一套完善的监控体
Prometheus + Grafana 配置监控指标笑远 prometheus grafana 运维数据库
Prometheus+Grafana配置监控指标在前一篇指南中，我们详细介绍了如何安装和配置Prometheus与Grafana。接下来，我们将深入探讨如何配置Prometheus来采集具体的监控指标，并使用Grafana将这些指标可视化。本指南将涵盖以下内容：选择和配置Exporters（除了NodeExporter之外）配置Prometheus以采集相关指标在Grafana中创建和配置仪表板高
DevOps工具链 zhangpeng455547940 devops 运维
DevOps工具链的核心组成部分包括：代码编辑和版本控制工具svn、git自动化构建工具Jenkins、GitLabCI/CD、TravisCI持续集成和持续部署工具Jenkins、Ansible容器编排工具K8S、DockerSwarm持续监控工具Prometheus，Grafana，InfluxDB服务配置管理工具Ansible，Chef，PuppetGit：代码管理Maven：依赖管理、项目
K8S日常问题优化沉默的八哥运维运维 kubernetes
在实际工作中，优化Kubernetes的性能和成本通常需要结合资源利用率分析、集群配置调整以及自动化工具的整合。以下是我在项目中实践过的一些典型优化场景和解决方案：一、资源利用率优化1.合理配置Requests/Limits问题：许多团队未准确设置Pod的requests和limits，导致资源浪费或频繁OOM。优化方法：使用Prometheus+Grafana监控Pod的实际CPU/内存使用量。
【Prometheus】prometheus 架构介绍 Learn Forever Prometheus 架构运维 docker
1.组件说明prometheusserver是Prometheus组件中的核心部分，负责实现对监控数据的获取，存储以及查询。exporter简单说是采集端，通过http服务的形式保留一个url地址，prometheusserver通过访问该exporter提供的endpoint端点，即可获取到需要采集的监控数据。AlertManager在prometheus中，支持基于PromQL创建告警规则，如
物联网实时数据存储方案选择动亦定 MySQL 物联网数据库物联网时序数据库数据库
存储物联网设备发出的实时数据时，需考虑数据量、速度、类型和访问需求。以下是几种常见的存储方案：1.时序数据库适用场景:适合处理时间序列数据，如传感器数据。优点:高效存储和查询时间序列数据，支持高写入和查询吞吐量。常见选择:InfluxDB、TimescaleDB、Prometheus。2.NoSQL数据库适用场景:适合非结构化或半结构化数据，如JSON、XML。优点:灵活的数据模型，易于扩展，适合
k8s集群中部署dcgm-exporter收集GPU指标 thinkerCoder kubernetes 容器运维 GPU
总体步骤：部署dcgm-exporter的DaemonSet和Service，确保Service有正确的标签和端口。创建ServiceMonitor，选择dcgm-exporter的Service，并指定端口。检查Prometheus的targets页面，确认dcgm-exporter是否被正确发现和抓取。可能需要调整Prometheus的RBAC或网络策略，确保访问权限。1，部署dcgm-exp
在线监控+日志分析方案徐福记c 运维运维
1.在线监控系统设计技术选型：Prometheus+Grafana+各ExporterPrometheus：负责定时拉取各服务指标数据并存储。Grafana：可视化仪表盘，支持多数据源（Prometheus、Loki等）。Exporter：SpringBoot应用：通过Micrometer暴露/actuator/prometheus端点。MySQL：部署mysqld_exporter采集数据库性能
ansbile 批量部署 node-exporter BUG弄潮儿 java
下载node-exporterhttps://github.com/prometheus/node_exporter/releases下载ansiblehttps://github.com/ansible/ansible/releases启动node-exporterservice文件node-exporter.service[Unit]Description=node_exporterRequi
k8s下部署ansible进行node-export二安装 BUG弄潮儿 kubernetes ansible 容器云原生
下载node-exporterhttps://github.com/prometheus/node_exporter/releases下载ansiblehttps://github.com/ansible/ansible/releases启动node-exporterservice文件node-exporter.service[Unit]Description=node_exporterRequi
是时候解决告警事件数据孤岛问题了监控告警告警风暴
大家有没有发现，随着公司发展，慢慢引入了越来越多的监控、可观测性的系统，云上的、云下的，开源的、商业的，通用的、特定产品的，导致告警事件分散在非常多的地方，形成一个一个的数据孤岛。比如下面这些监控系统，你们应该不止用了一个吧：上图中有些系统你可能会困惑，比如OceanBase，明明是个数据库，为啥出现在这里。因为OceanBase自己内置有自己的监控能力，没有复用Prometheus之类的通用监控
Mysql性能监控及优化，基于Prometheus+grafana 士多啤莉娜 mysql prometheus grafana docker
本篇不详写prometheus、grafana的搭建，需要可以翻阅linux监控篇一、mysql监控1、运行mysql-exporter注：mysql的搭建在文章尾部，这里直接进入主题Prometheus对Mysql进行数据采集需要在被mysql所在服务器安装mysql-exporter注意修改命令中数据库连接信息dockerrun-d-p9104:9104-eDATA_SOURCE_NAME="
非容器化部署prometheus+grafana 罗sir 99 devops prometheus grafana
容器部署和非容器部署（直接在物理机或虚拟机上安装）Prometheus和Grafana各有优缺点，主要区别如下：1.部署和管理的便利性容器部署：使用容器技术（如Docker）可以简化应用的部署和配置。只需拉取镜像并执行dockerrun或docker-compose文件即可部署，且不依赖底层系统的配置，便于快速部署和迁移。非容器部署：需要手动下载二进制文件、解压、配置和管理，步骤相对繁琐。系统环境
Java重要面试名词整理（二十二）：云原生正在绘制中 Java面试 java 面试 gateway
文章目录DockerDocker架构Dockerfile常用指令DockerComposePrometheus架构数据&指标NodeExporterPromQLGrafanaK8SK8S核心特性核心架构快速实战NamespacePodDeploymentService存储配置Ingress核心原理K8S的网络模型容器探针重启策略Pod调度定向调度亲和性调度污点和容忍调度全链路灰度什么是蓝绿发布什么
使用第三方工具监控 SpringBoot 接口超时，简单几步搞定！程序员蜗牛g springboot spring boot 后端 java
点击上方“程序员蜗牛g”，选择“设为星标”跟蜗牛哥一起，每天进步一点点程序员蜗牛g大厂程序员一枚跟蜗牛一起每天进步一点点31篇原创内容公众号为了实现SpringBoot项目的接口超时监控并触发邮件告警，以下是一些常用的第三方工具和解决方案，可根据项目规模和需求灵活选择。一、开源方案1.Prometheus+Alertmanager+Grafana功能特点：Prometheus：时序数据库，实时采集
SpringBoot 项目集成 Prometheus 和 Grafana 百里自来卷 spring boot prometheus grafana
下面是一个完整的SpringBoot项目示例，集成Prometheus和Grafana进行性能监控，包括：Prometheus作为监控数据收集工具Micrometer作为指标采集库Grafana作为可视化展示工具步骤概览引入依赖：在pom.xml中添加Prometheus和Actuator相关依赖。配置SpringBoot：启用Actuator并暴露Prometheus端点。编写示例代码：使用Mi
Prometheus+Grafana监控畅云客 Prometheus 监控服务器运维 linux 运维开发 grafana prometheus 云计算
目录资源列表一、基础环境关闭防火墙关闭selinux修改主机名节点添加主机名与IP对应关系二、部署Prometheus下载安装包解压创建用于运行Prometheus的组和用户创建Prometheus数据存储目录给Prometheus主目录赋用户Prometheus权限修改配置文件启动三、部署Grafana下载安装包创建grafana用户及数据存放目录修改配置文件启动四、node节点部署node_e
Grafana服务安装并启动风中凌乱监控服务 prometheus grafana
Grafana服务安装并启动1、介绍2、下载Grafana3、解压缩文件4、启动Grafana服务5、增加数据源,填写Prometheus访问地址6、增加图表1、介绍Grafana是一个开源的可视化系统监控和警报工具包。2、下载Grafana介绍：Grafana是一个开源的可视化系统监控和警报工具包。下载地址：https://mirrors.huaweicloud.com/grafana/下载gr
ocp 之 Prometheus Operator ~Operator-Prometheus原理 -JG第一次-PrometheusRule - Prometheus断点每周 yuezhilangniao k8s Prometheus
Prometheus的告警恢复和修改operator版Prometheus默认的Prometheus.ymlgpt回答告警问题如果您没有收到Prometheus的告警恢复通知，请检查以下几个可能的原因：检查Alertmanager的配置文件中的group_wait参数是否正确设置。group_wait参数定义了Alertmanager在发送告警恢复通知之前等待的时间，以便其他相关告警的解决状态被合
prometheus服务安装并启动风中凌乱监控服务 prometheus
prometheus服务安装并启动1、介绍2、下载prometheus3、解压缩文件4、新增报警配置文件5、修改配置文件prometheus.yml6、启动prometheus服务1、介绍Prometheus是一个开源的系统监控和警报工具包。2、下载prometheus下载地址：https://prometheus.io/download/下载prometheus-3.2.0.linux-amd6
分布式服务监控点滴~ 分布式
目录分布式服务监控CAT（CentralApplicationTracking）监控对象和指标分布式服务监控分布式服务监控在保障分布式系统稳定运行中至关重要，通过各类监控组件对关键指标进行监测，能及时发现并解决问题。下面将从监控组件、其优缺点、监控指标及其作用展开介绍。监控组件Prometheus：一个开源的系统监控和报警工具包。它采用拉取式采集数据，支持多种数据采集方式，如直接采集应用程序暴露的
基于Prometheus和Grafana的现代服务器监控体系构建丁爸运维服务器
1.简介1.1.概述基于Prometheus和Grafana的现代服务器监控体系是一种高效、灵活的监控解决方案，广泛应用于云计算和微服务架构的环境中。以下是这一监控体系的概述：Prometheus：Prometheus是一个开源的系统监控和警报工具包，由SoundCloud开发并维护。它具有强大的数据收集能力、灵活的查询语言以及与微服务架构的无缝集成。Prometheus的核心概念包括时间序列数据
深入探讨K8s资源管理和性能优化磐基Stack专业服务团队 Kubernetes kubernetes 性能优化容器
#作者：曹付江文章目录前言：1．监控Kubernetes集群的资源利用率1.1Prometheus1.2Kubernetes度量服务器1.3Grafana1.4自定义指标2.识别资源瓶颈2.1.监控工具2.2.性能剖析2.3Kubernetes事件和日志2.4.群集自动扩展2.5.负载测试3.扩展应用程序以提高性能3.1.水平Pod自动缩放器(HPA)3.2.垂直PodAutoscaler(VPA
Apache Pinpoint工具介绍程序员的世界你不懂效率工具提升 apache
ApachePinpoint：分布式系统性能分析与链路追踪一、Pinpoint简介ApachePinpoint是一个开源的分布式追踪系统，专为微服务架构设计，支持HTTP、RPC、MQTT等协议的调用链追踪。其核心功能包括：链路可视化：展示服务间调用关系（调用树、耗时分布）性能分析：定位慢请求、异常错误根源依赖分析：统计服务间流量占比自动化监控：集成Prometheus、Grafana实时告警二、
AutoMQ 可观测性实践：如何使用 OpenTelemetry 监控 Kafka 和底层流存储后端java
前言我们在之前的文章里介绍了AutoMQ如何与Prometheus、观测云[1]、夜莺监控[2]等后端进行集成并实现对AutoMQ的监控，本文将进一步介绍AutoMQ的可观测性架构，以及AutoMQ如何实现多云可观测性。可观测架构ApacheKafka的Server侧主要依赖YammerMetrics[3]这一第三方Library实现了指标的定义和采集，并通过将指标注册到MBeansServer的
是时候解决告警事件数据孤岛问题了监控告警告警风暴
大家有没有发现，随着公司发展，慢慢引入了越来越多的监控、可观测性的系统，云上的、云下的，开源的、商业的，通用的、特定产品的，导致告警事件分散在非常多的地方，形成一个一个的数据孤岛。比如下面这些监控系统，你们应该不止用了一个吧：上图中有些系统你可能会困惑，比如OceanBase，明明是个数据库，为啥出现在这里。因为OceanBase自己内置有自己的监控能力，没有复用Prometheus之类的通用监控
prometheus+grafana 容器部署方式
背景新增两台物理机用于压测，为了查看资源使用情况，需要对服务器进行监控，所以安装prometheus+grafana来监控服务。准备机器：机器1机器2192.168.1.103192.168.1.102mock服务，压测脚本业务服务prometheus+grafana+node-exporter+cadvisornode-exporter+cadvisor说明：cadvisor:用于收集容器的信息
Github 2025-01-09 Go开源项目日报 Top10 老孙正经胡说 github golang 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-09统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Go项目10TypeScript项目1Prometheus监控系统和时间序列数据库创建周期：4149天开发语言：Go协议类型：ApacheLicense2.0Star数量：52463个Fork数量：8709次关注人数：52463人贡献人数：357人O
2025年普通人转向人工智能运维（AIOps）学习建议（附最新技术实践与资源） emmm形成中人工智能运维学习
2025年普通人转向人工智能运维（AIOps）学习建议（附最新技术实践与资源）一、学习路径规划：分阶段掌握核心技能1.基础能力构建（3-6个月）传统运维技能Linux与Shell脚本：掌握Linux系统管理、性能调优及常用命令（如awk、sed处理日志）。监控工具：学习Prometheus、Zabbix等工具，理解指标采集与告警规则配置。自动化运维：熟悉Ansible、Jenkins等工具，编写自
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

统一观测丨使用 Prometheus 监控 SQL Server 最佳实践

SQL Server 简介

SQL Server 是什么？

SQL Server 特点

SQL Server 核心概念

主要适用场景

主要版本介绍

监控关键指标

系统指标

运行状态

版本/实例时间

读写指标

页指标

日志成长次数

I/O 等待（stall）时间

连接指标

存储指标

性能指标

事务处理速率（TPS）

批处理（T-SQL）速率

指标详细定义

系统指标

读写指标

连接指标

存储指标

性能指标

监控大盘

总览

资源

性能

读写

数据库 I/O Stall

连接

数据库状态

关键告警规则

运行情况

SQL Server 停机

SQL Server 重启

资源使用情况

内存使用率过高

发生死锁

连接使用情况

发生连接错误

典型问题场景及其排查/解决方法

SQL Server 性能差

监控体系搭建

自建 Prometheus 监控 SQL Server 的痛点

用阿里云 Prometheus 进行自建 SQL Server 的监控

自建 Prometheus 与阿里云可观测监控 Prometheus 版监控 SQL Server 优劣对比

你可能感兴趣的:(prometheus)