如何使用错误预算来保护服务可靠性

如何使用错误预算来保护服务可靠性_第1张图片
“错误预算”描述了系统在对您的业务产生实际影响之前可以离线的时间量。错误预算与服务级别协议 (SLA) 和服务级别目标 (SLO) 一起使用,以便在系统不可用导致违反合同时通知组织。

将错误预算纳入应用程序可靠性策略提供了一种平衡风险与稳定性的系统方法。错误预算承认偶尔的中断、错误的部署和简单的错误是不可避免的。他们的作用是告诉您您可以忍受多少次此类事件。可用的错误预算还决定您的下一个任务是构建新功能还是解决另一个错误修复。

什么是错误预算?

服务的错误预算只是衡量服务处于失败状态而不招致合同、财务或监管处罚的最长时间。可用错误预算源自您在发送给客户的 SLA 中承诺的正常运行时间数字。您可以通过将错误预算基于 SLO 来更加严格。

  • SLA - 您公开承诺的正常运行时间,例如 99.95%。如果服务的实际正常运行时间低于此数字,大多数使用 SLA的组织将根据合同有义务向客户提供补偿。
  • SLO - 您内部目标的正常运行时间,例如 99.99%。这意味着 99.95% 到 99.99% 之间的正常运行时间数字是不合需要的,并且表明需要改进可靠性。但是,这并不意味着您有责任补偿客户。
  • 错误预算- SLA 或 SLO 允许的停机时间量的计算。
    您可以使用简单的乘法来计算错误预算。例如,SLA 规定您的服务在一年内将具有 99.99% 的可用性,为您提供的总错误预算为 52 分 35 秒。持续 30 分钟的中断不会直接影响您的业务。持续一小时的错误将超出错误预算,并且需要对客户进行赔偿。

以下是其他一些示例:

你可能感兴趣的:(kubernetes,容器)