告警策略与根因定位

异常检测 -> 告警策略 -> 根因分析都是 AIOps 中非常关键的步骤。

告警策略模型通常和业务类型、用户偏好及应用场景等业务相关,解决不同场景下特定问题。

根因定位:定位发生异常时那些属性导致了异常;定位哪些指标的异常导致事件异常的发生;

FOCUS:《Focus: Shedding Light on the High Search Response Time in the Wild》,目标是解决在运维过程中,发现高搜索响应时间之后,使用机器学习算法发现异常的原因和规则。

  1. FOCUS 使用系统每天产生的日志数据来训练决策树,从决策树中可以分析得到引发高搜索响应时间(HSRT)的条件,由于每天的数据会训练出一棵决策树,因此多天后会有多棵决策树产生;
  2. 在多棵决策树中挖掘出相似的会引发高搜索响应时间(HSRT)的条件,这些条件在多天中重复出现,可判断为长期的引起高搜索响应时间(HSRT)的可能条件;
  3. 最后评估挖掘出的引发高搜索响应时间(HSRT)条件中每个属性的影响,从而得出优化系统性能的方案。

HotSpot:多维根因定位

告警策略与根因定位_第1张图片

告警策略是 AIOps 流程中异常检测的下一环有着至关重要的作用,往往联动决定着在特定场景下异常检测告警模块的效果好不好:在告警触达,业界多会进行告警收敛、降噪和抑制等相关的规则和算法的探索,致力于提供精简有效的信息,减少告警风暴及干扰。而更进一步的故障定位(根因分析)方向,现主要有基于规则的定位、基于关联性分析的定位、基于知识图谱的相关探索等,通过算法和规则提升故障定位的精召率。

参考:时间序列异常检测(三)—— 告警策略与根因定位 - 知乎

你可能感兴趣的:(AIOps,机器学习)