03、分布式事务-BASE理论篇

章节归属

分布式事务系列

背景

Base 理论是对 CAP 中一致性和可用性权衡的结果,是由 ebay 的架构师对大型互联网分布式实践的总结后提出,是基于 CAP 定理逐步演化而来的。

核心思想

既然无法做到强一致性,那么每个应用可以根据自身的业务特点,采用适合于自己的方式来使系统达到最终一致性。

概念

BASE 全称是由三个短语缩写组成(不是四个)BA + S + E:

  • Basically Available :基本可用
  • Soft State :软状态
  • Eventually Consistent :最终一致性
image.png

Basically Available(基本可用)

整个系统在某些不可抗力的情况下,仍然能够保证“可用性”,即一定时间内仍然能够返回一个明确的结果;这里有2个重要的点:

  • 时效变化:响应时间可以适当延长;如大促时,响应时间可以适当延长。
  • 功能变化:部分功能降级;如给部分用户直接返回一个降级页面,从而缓解服务器压力;但是结果必须是明确的,如降级页面中有明确的结果,不让用户困惑。

Soft State(软状态)

是指允许系统中的数据存在中间状态,并认为该中间状态的存在不会影响系统的整体可用性,即允许系统节点之间的数据副本同步的过程存在延时。

用户在商城下单时,因网络超时等因素,订单处于“支付中”的状态,待数据最终一致后状态将变更为“成功”状态。

Eventually Consistent(最终一致性)

上面讲到的软状态不可能一直是软状态,必须有时间期限,即同一数据的不同副本的状态,虽然不需要实时一致,但一定要保证经过一定时间后必须是一致的。因此所有客户端对系统的数据访问最终都能够获取到最新的值,而这个时间期限取决于网络延时,系统负载,数据复制方案等因素。


image.png

在 CAP 中的一致性要求在任何时间查询每个节点数据都必须一致,它强调的是强一致性,而最终一致性是允许在一段时间内每个节点的数据不一致,但是经过一段时间每个节点的数据必须一致,它强调的是最终数据的一致性。例如,银行系统中的非实时转账操作,允许 24 小时内用户账户的状态在转账前后是不一致的,但 24 小时后账户数据必须正确。

客户端服务端两个不同的视角来看最终一致性,有助于加深对其的理解。

1. 最终一致性的客户端视角

从客户端来看,一致性主要指的是多并发访问时更新过的数据如何获取的问题,最终一致性有以下 5 个变种。

一致性变种 说明
因果一致性 如果进程 A 通知进程 B 它已更新了一个数据项,那么,进程 B 的后续访问将返回更新后的值,且一次写入将保证取代前一次写入。与进程 A 无因果关系的进程 C 的访问遵守一般的最终一致性规则。
读己之所写(Read-Your-Writes) 一致性 当进程 A 自己更新一个数据项之后,它总是访问到更新过的值,且不会看到旧值。这是因果一致性模型的一个特例。
会话(Session)—致性 这是上一个模型的实用版本,它把访问存储系统的进程放到会话的上下文中。只要会话还存在,系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止,就要建立新的会话,而且系统保证不会延续到新的会话。
单调(Monotonic)读一致性 如果进程已经看到过数据对象的某个值,那么任何后续访问都不会返回在那个值之前的值。
单调写一致性 系统保证来自同一个进程的写操作顺序执行。

上述最终一致性的不同方式可以进行组合,例如,单调读一致性和“读己之所写”一致性就可以组合实现。从实践的角度来看,这两者的组合读取自己更新的数据,一旦读取到最新的版本,就不会再读取旧版本,对基于此架构上的程序开发来说,会减少很多额外的烦恼。

2. 最终一致性的服务端视角

从服务端来看,如何尽快地将更新后的数据分布到整个系统,降低达到最终一致性的时间窗口,是提高系统的可用度和用户体验度非常重要的方面。

分布式数据系统有以下特性:

缩写 语义
N (Num) 为数据复制的份数。
W (Write) 为更新数据时需要进行写操作的节点数。
R (Read) 为读取数据的时候需要读取的节点数。
公式 结论 举例
W+R>N 强一致性 写的节点和读的节点重叠,例如,对于典型的一主一备同步复制的关系型数据库(N=2, W=2,R=1),则不管读的是主库还是备库的数据,都是一致的
W+R≤N 弱一致性 例如,对于一主一备异步复制的关系型数据库(N=2,W=1,R=1),如果读的是备库,则可能无法读取主库已经更新过的数据,所以是弱一致性

对于分布式系统,为了保证高可用性,一般设置 N≥3。设置不同的N、W、R 组合,是在可用性和一致性之间取一个平衡,以适应不同的应用场景,如:

  1. N=W 且 R=1,则任何一个写节点失效,都会导致写失败,因此可用性会降低。但是由于数据分布的 N 个节点是同步写入的,因此可以保证强一致性。

  2. N=R 且 W=1,则只需要一个节点写入成功即可,写性能和可用性都比较高。但是读取其他节点的进程可能不能获取更新后的数据,因此是弱一致性。在这种情况下,如果 W<(N+1)/2,并且写入的节点不重叠,则会存在写冲突。

总结

总的来说,BASE 理论面向的是大型高可用可扩展的分布式系统,和传统事务的 ACID 是相反的,它完全不同于 ACID 的强一致性模型,而是通过牺牲强一致性来换取可用性,并允许数据在一段时间是不一致的。


分布式系统的 CAP 定理与 BASE 理论

BASE原理与最终一致性

你可能感兴趣的:(03、分布式事务-BASE理论篇)