机智的告警策略,完善监控系统的重要一环

前言

在当今信息时代,系统的稳定性和可靠性对于任何企业来说都至关重要。随着信息技术的不断发展,各种复杂的系统架构层出不穷,而这也带来了更多潜在的故障和问题。因此,建立有效的监控和告警系统成为了保障系统正常运行的关键一环。

我们已讨论过如何建立一个全面、高效的智能监控系统来帮助企业检测异常情况。(参见《智能监控,高效观测 IT 系统瓶颈》)。当然,若想实时监控系统的性能和运行情况,快速发现问题并解决,及时的告警通知是必不可少的。观测云支持对监控器的检测结果进行告警策略管理,通过发送告警通知,让用户及时了解监测的异常数据情况、高效排查并恢复故障,从而使系统稳定运行。本文将为您介绍告警策略的配置信息以及如何通过配置自定义告警通知。

开始配置告警策略

观测云支持在监控器检测规则配置界面或直接进入告警策略管理进行告警策略的配置。当监控满足触发条件后,会立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、告警聚合及告警沉默(设置重复告警通知)。

机智的告警策略,完善监控系统的重要一环_第1张图片

通知配置

通知配置中支持自定义配置事件等级和通知对象,您可以针对单个异常等级配置所需的的单个或多个通知对象,以便将不同等级的告警通知发送给多团队和成员 。

机智的告警策略,完善监控系统的重要一环_第2张图片

事件等级

事件等级包括紧急、重要、警告、无数据、信息。不同的异常事件等级搭配不同的颜色,帮助您清晰地分辨异常情况的紧急程度 ,快速确定排障优先级以免耽误最佳解决问题时间。

事件等级详情可参考:事件等级说明 - 观测云文档

机智的告警策略,完善监控系统的重要一环_第3张图片

通知对象

观测云支持通过邮件、群通知、Webhook 自定义、短信等方式通知告警,其中覆盖了多种通知对象类型如下:

对象类型 说明
空间成员 邮件通知,通过在管理 > 成员管理,添加通知对象。
团队 邮件通知,一个团队可添加多个空间成员,通过在管理 > 成员管理 > 团队管理,添加通知对象。
钉钉机器人 群通知,通过在监控 > 通知对象管理,添加通知对象。
企业微信机器人 群通知,通过在监控 > 通知对象管理,添加通知对象。
飞书机器人 群通知,通过在监控 > 通知对象管理,添加通知对象。
Webhook 自定义 用户自行设定,通过在监控 > 通知对象管理,添加通知对象。
短信 短信通知,一个短信组可以添加多个空间成员,通过在监控 > 通知对象管理,添加通知对象。观测云免费版无短信通知,其他版本短信通知 0.1 元 / 条,按天计费,没有免费额度。

需要在通知对象管理配置的对象,可参见:通知对象管理 - 观测云文档

值得一提的是,当历史发送过的异常告警事件恢复后,观测云将会发送恢复通知到对应的通知对象,让相关团队和成员及时了解异常告警事件的最新状态。

告警聚合

基于上文提到选定的事件等级,您可以自定义配置告警聚合进行告警通知,从而更加高效的管理告警通知。

机智的告警策略,完善监控系统的重要一环_第4张图片

告警聚合默认配置不聚合,在该模式下,告警事件会按照每 20 秒时间间隔合并为一封通知发送至对应通知对象;而规则聚合模式下,您可以选择全部、监控器 / 智能巡检 / SLO、检测维度、标签四种聚合规则并联动聚合周期来发送告警通知。

聚合规则说明如下:

聚合规则 说明
全部 基于告警策略配置的等级维度,在所选的聚合周期内生成对应的告警通知。
监控器 / 智能巡检 / SLO 按照监控器、智能巡检的检测规则或 SLO 的唯一 ID,联动聚合周期生成对应的告警通知。
检测维度 按照检测维度联动聚合周期生成对应的告警通知,例如 host。
标签 可通过全局标签联动监控器,并按照聚合周期生成对应的告警通知;标签支持多选。 注意:若事件同时存在多个标签值,则按照页面配置的标签顺序优先命中到对应的告警通知,多个标签值的关系为 OR。

聚合周期则支持在规则聚合的模式下,您可以自定义设置一个时间范围(1-30分钟内),那么在这个时间段内新增的事件会被聚合成一条告警通知发送。如果超出这个聚合周期,新增的事件将会被聚合到新的告警通知中。

机智的告警策略,完善监控系统的重要一环_第5张图片

告警聚合功能帮助您将繁杂的告警通知有条理地发送到成员和团队,不仅能够节约相关成员再次分类管理的时间,还可以联动全局的异常情况进行故障的深度分析和有效解决,保持系统的稳定性。

告警沉默

若同一个异常事件不是非常紧急,但是告警通知频率高,您可以通过设置重复告警通知的时间间隔这一方式来减少告警通知频率。需要注意的是,设置告警沉默后事件会继续产生,但是告警通知不会再发送,你可以在事件管理中查看产生的事件。

机智的告警策略,完善监控系统的重要一环_第6张图片

场景示例

以上就是告警通知配置的全部过程,我们将以某主机监控器(主机 {{ host }} 内存使用率过高)为例,配置相关的告警通知。

在建立上述主机监控器过程中,我们可以在配置页面通过告警策略配置将该监控器的紧急和告警级别异常事件分别通知给空间成员以及相关钉钉群。由于告警通知数量较大,我们选择以“监控器 / 智能巡检 / SLO”为聚合规则,“15分钟”为聚合周期对告警通知进行聚合,告警沉默设置为15分钟内,相同告警不发送通知。我们就能够在主机内存情况数据突破设定阈值时让运维人员及时获得告警通知快速定位故障。

当然,您配置好的所有告警策略都可以在列表里统一管理,包括告警策略名称、告警是否聚合以及其他相关操作,也支持您直接跳转关联的监控器进一步查看异常情况。

机智的告警策略,完善监控系统的重要一环_第7张图片

结语

通过本文的介绍,希望您能够更加深入地了解如何通过告警策略配置自定义告警通知的重要性以及实际操作方法。建立一个全面、高效的告警通知系统对于保障系统的稳定运行至关重要。观测云提供的定制化的告警通知策略将帮助您及时发现和解决潜在的问题,确保系统的稳定性和可靠性。后续更多分享,值得期待!

你可能感兴趣的:(监控告警,告警策略)