SLA的基本概念

SLA的基本概念

     现在的产品和系统都非常的复杂,彼此连接依赖越来越复杂,为了整体的高速运转,对每个部件的稳定性越来越高,越来越精密,发展到一定程度,人力已经无法掌控,任何一个组件出异常都有可能牵一发而动全身,影响全局。每个部件的稳定性和精密程度决定了整体的工程质量,也决定了整体的发展速度。
 
     一. 定义SLI(Service Level Indicator 关键量化指标)  
     SLI关注下面五点:
  1.  要测量的指标是什么?

  2. 测量时的系统状态?

  3. 如何汇总处理测量的指标?

  4. 测量指标能否准确描述服务质量?

  5. 测量指标的可靠度(trustworthy)?

     二. SLO
          Service-Level Objective 服务等级目标)指定了服务所提供功能的一种期望状态。
          SLO是用SLI来描述的,一般描述为:5XX的失败率小于0.005%等。访问正常率>99.99%等。

      三. SLA
      SLA,即服务等级协议。
          一个有明确SLA的服务最理想的运行状态是:  增加额外资源来改进系统所带来的收益小于把该资源投给其他服务所带来的收益。           一个简单的例子就是某服务可用性从99.9%提高到99.99%所需要的资源和带来的收益之比,是决定该服务是否应该提供4个9的重要依据。

     四. 举一个亚马逊的S3服务水平协议
      可用性保证(Service Commitment )
          保证“每月99.9%的正常运行时间”。S3 SLA保证一个月里所有以5分钟为单位的时间片中,平均有99.9%是可用的。SLA容许的最遭情况等于每月有40分钟不可用。
      服务补偿(Service Commitment )
          如果达不到SLA的承诺,Amazon会提供服务补偿,如果达不到 99.9%的服务水平,那么Amazon将减免下个月10%的费用。如果可用性下降到99.0%以下,换算后相当于一个月内至少有将近7个小时无法服务, 那么Amazon将减免25%的费用。
          假设一个用户存放了500G的数据。把500G数据放进S3并且在一个月内全部数据都使用10次的话,总共的费用大约是$1000。如果发生5小时的故障,那么该用户将得到$100的退款。如果故障时间从7个小时到一整个月的话, 该用户将得到$250的补偿。 


      

你可能感兴趣的:(运维技术)