通过pc算法和随机游走来做根因定位,CloudRanger论文解读

CloudRanger:云原生系统根因识别
CloudRanger: Root Cause Identification for Cloud Native Systems论文解读

1. Abstract

提出一种动态因果关系分析方法来构造应用程序之间的影响图,而不需要给定拓扑。
提出了一种基于二阶随机游走来识别罪魁祸首的服务

2. INTRODUCTION

云服务服务众多,监控管理复杂

  1. 动态新增 删除微服务。弹性伸缩
  2. 需要同时度量业务事务的整体性能和单个微服务的性能。因为一个微服务挂了,影响不到整体。对于云原生系统,传统的性能基线方法可能是一项艰巨的任务,因为必须为每个业务事务和微服务构建基线。基线还必须跟上每个微服务版本迭代的步伐,但由于微服务的持续交付特性,这是相当具有挑战性的。
  3. 与传统的庞然大物相比,云原生系统中的业务交易通常具有更长的调用路径,并且有数十个分布式微服务参与。下游节点中的任何性能问题或故障都可能迅速向后传播到上游节点,如果没有及时识别和隔离问题,最终会导致整个系统崩溃。一些云设计模式,例如断路器,可以用来缓解问题,以提高系统的弹性,但它阻碍了问题的快速识别

为了解决以上问题,提出Cloud Ranger。主要包括四个步骤:异常检测、影响图(也为故障图)构建、相关度计算和根本原因识别。

监视其在服务端点中的性能。一旦检测到异常,根据观察到的性能指标,基于动态因果关系分析构造影响图。然后使用基于对图的二阶随机游走的启发式调查算法来识别有问题的服务。

因此,它不受服务动态增减和性能基线的影响。

<

你可能感兴趣的:(AIOPS)