Grafana - Alert 时间/状态

Key concepts and features

可以先看看一些术语,可以帮助理解下文。

时间相关

Evaluate every/for

在 Grafana Alert 中,Evaluate every 和 Evaluate for 是两个重要的配置选项,用于定义告警的评估周期和持续时间。

Evaluate every

Evaluate every 表示告警的评估周期,指定了告警规则执行的频率。在每个评估周期内,Grafana Alert 将会按照告警规则检查监控指标,并判断是否满足告警条件。如果满足条件则会触发告警。Evaluate every 的时间间隔通常与监控数据的采集间隔相同或者是其倍数。
举个例子,如果您的监控数据采集间隔为 10 秒,则 Evaluate every 设置为 10s,告警规则将会每隔 10 秒执行一次,检查是否触发告警。 需要注意的是,Evaluate every 的值必须是 10s 的倍数。

Evaluate for

Evaluate for 表示告警规则需要满足多长时间后采取告警动作。例如,如果 Evaluate for 设置为 5 分钟,则告警规则将会等待 5 分钟来确认条件是否满足,如果 5 分钟内条件持续满足,则触发告警。
举个例子,如果您的 Evaluate every 设置为 10s,Evaluate for 设置为 5m,那么告警规则会在每 10 秒执行一次,如果连续 5 分钟内满足告警条件,则会触发告警。
需要注意的是,Evaluate for 的设置应该被根据特定情况调整,调整时需要在灵敏度及性能之间取得平衡。

Notification policies

Timing options:

Group wait

Group wait 指定了一个警报分组中每个通知接收者的等待时间。如果一组警报处于“pending”状态并且有多个接收者,那么当第一个接收者在此时间内未响应警报时,警报管理器将等待 Group wait 时间,然后将警报发送给下一个接收者。默认30s.

Group interval

Group interval: 指定了多久警报管理器将重新发送同一警报分组的活动警报状态到警报接收方。如果一个警报分组处于“pending”状态,并且在 Group wait 的时间内,警报管理器将会将警报发送到接收者。在以后的时间内,如果仍然处于“pending”状态,警报管理器则将在 Group interval 间隔后再次尝试发送警报。默认5m.

Repeat interval

repeat interval 指定了在重复发送通知之间的延迟时间。如果您希望始终将警报通知发送到接收者而不是根据其响应时间或忙碌状态,那么可以设置此选项。当警报出现后,Grafana 将等待 Repeat interval 时间后再次向警报接收方发送通知。默认4h.

状态相关

Alert rule state

Normal

表示警报规则的触发条件尚未满足(处于非 Pending 或 Firing 状态),一切都在正常运行。

Pending

表示触发条件已经满足,但警报规则正在等待一定的时间间隔,以确认这是一个持续的条件。

Firing

表示警报规则的触发条件已经满足,并且已经触发了警报。

警报将首先过渡到 Pending,然后再到 Firing,因此在触发警报之前至少需要两个评估周期。

Alert instance state

指 Grafana 中创建的警报规则的当前状态。此状态指示警报规则是否处于活动状态或非活动状态,以及是否根据配置的条件触发了任何警报。

Normal

表示当前未满足警报条件(处于非 Pending 或 Firing 状态),一切都在正常运行。

Pending

表示触发条件已经满足,但警报规则正在等待一定的时间间隔,以确认这是一个持续的条件。

Alerting

表示当前满足警报条件并正在发送警报。

NoData

表示没有从数据源接收到任何数据。

Error

表示评估时发生了错误。

Alert rule health

OK

表示评估警报规则时没有错误。

Error

表示评估警报规则时出错。

Nodata

表示评估报警规则时没有从数据源接收到任何数据。

你可能感兴趣的:(Prometheus,kubernetes,grafana,kubernetes,容器,运维,云原生)