ACID,BASE和CAP理论学习笔记

前言

计算机的前沿技术都来自于计算机科学大佬的理论知识,在探索集群分布式的道路上不可避免的就会和一些理论知识打交道,其中就包括了ACID、BASE、CAP理论,下面以自己的读书学习笔记为文记录该过程。

ACID

ACID,是指数据库在写入或更新资料的过程中,为保证事务的正确可靠,所必须具备的四个特性:

  • 原子性(Atomicity):一个事务中的所有操作,或者全部成功,要么全部失败,没有中间状态。事务在执行过程中发生错误,会被回滚到事务开始的状态,就像这个事务从来没有执行过一样。
  • 一致性(Consistency):在事务开始之前和事务结束以后,数据库的完整性和一致性没有被破坏。这就表示写入的数据必须符合所有的预设约束、触发器、级联回滚等。
  • 隔离性(Isolation):数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执行时由于交叉执行从而导致的数据不一致。事务隔离分为4个隔离级别。
    • 未提交读(Read uncommitted):隔离级别最低,允许脏读。例如事务A正在处理一个更新数据操作(1-10自增),此时事务还未提交,B事务访问该数据,此时B事务是可以读取到该数据项从1-10的中间值。
    • 提交读(Read committed):只允许读取已经被提交的数据。以上面例子为例,B事务只能读取到A事务的最终值10,中间值是无法读取到的。
    • 可重复读(Repeateable read):保证在事务处理过程中,多次读取同一个数据时,其值都和事务开始时刻是一致的。因此该事务级别禁止了不可重复读取和脏读取,但是有可能出现幻影数据(同样事务操作,在前后两个时间段内执行同一个数据项的读取,可能出现不一致的结果)。
    • 串行化(Serializable):要求所有事务都被串行执行,不能并发执行。
  • 持久性(Durability):事务处理结束后,对数据的修改就是永久的,即便系统故障也不会丢失。

具有ACID特性的数据库系统,可以保证在写入或更新数据时,事务是正确可靠的。ACID的目标是保证数据的正确性和一致性。

CAP

在理论计算机科学中,CAP定理(CAP theorem),又被称作为布鲁尔定理(Brewer's theorem),它指出对于一个分布式计算系统来说,不可能同时满足以下三点:

  • 一致性(Consistency):等同于所有节点访问同一份最新的数据副本
  • 可用性(Availability):每次请求都能获取到非错的响应-但是不能保证获取的数据为最新数据
  • 分区容错性(Network partition):分布式系统在遇到任何网络分区故障的时候,仍然需要能够保证对外提供满足一致性和可用性服务,除非是整个网络都发生了故障

一个分布式系统无法同时满足以上三点需求,而只能满足其中两项,下面是CAP定义示意图。

CAP-Theory.png
放弃CAP定理 说明
放弃 P 如果希望能够避免系统出现分区容错性问题,一种较为简单的做法是将所有的数据(或者仅仅是那些与事务相关的数据)都放在一个分布式节点上。这样虽无法100%地保证系统不会出错,但至少不会碰到由于网络分区带来的问题。同时,放弃P,也意味着放弃了系统可扩展性。
放弃 A 一旦系统遇到网络分区或其它故障,那么受到影响的服务需要等待一定的时间,因此在等待期间系统无法对外提供服务,即可不用。
放弃 C 这里放弃一致性指放弃数据强一致性,而保留数据的最终一致性。系统无法保证数据实时一致性,但能承诺数据最终一致性。这也引用了一个时间窗口概念,具体多久取决于系统设计和节点之间复制的时间长短。

对于分布式系统而言,分区容错性可以说是最基本的要求,因为在分布式系统中,分布式系统中的组件必然需要部署到不同的节点,否则也就无所谓分布式系统了,因此必然出现子网络。而对于分布式系统而言,网络问题又是一个必然出现的问题,因此分区容错性也就成为了一个分布式系统必然需要面对和解决的问题。因此系统架构师大多尽力放在如何平衡C(一致性)和A(可用性)上。

BASE

BASE是Basically Available(基本可用)、Soft state(软状态)和Eventually consistent(最终一致性)三个短语的简写。

核心思想:

即使无法做到强一致性(Strong consistency),但每个应用都可以根据自身的业务特点,采用适当的方式来使系统达到最终一致性(Eventual consistency)。也就是牺牲数据的一致性来满足系统的高可用性,系统中一部分数据的不可用或者不一致时,仍需要保持系统整体 主要可用

BASE理论三要素。

BASE理论

基本可用

基本可用是指分布式系统在出现不可预知故障的时候,允许损失部分可用性。

  • 响应时间上的损失:正常情况下,一个在线搜索引擎需要在0.5秒之内返回给用户相应的查询结果,但由于出现故障,查询结果的响应时间增加了1~2秒。
  • 功能上的损失:正常情况下,在一个电商网站上进行购物的时候,消费者几乎能够顺利完成每一笔订单,但是在一些节日大促购物高峰的时候,由于消费者的购物行为激增,为了保护购物系统的稳定性,部分消费者可能会被引导到一个降级页面。

软状态

软状态是指允许系统中的数据存在中间状态,并认为该中间状态的存在不会影响系统的整体可用性,即允许系统在不同节点的数据副本之间进行数据同步的过程存在延时。

最终一致性

最终一致性强调的是系统中所有的数据副本,在经过一段时间的同步后,最终能够达到一个一致的状态。因此,最终一致性的本质是需要系统保证最终数据能够达到一致,而不需要实时保证系统数据的强一致性。

BASE理论面向的是大型高可用可扩展的分布式系统,和传统事务的ACID特性是相反的,它完全不同于ACID的强一致性模型,而是提出通过牺牲强一致性来获得可用性,并允许数据在一段时间内不一致,但最终达到一致状态。

总结

在了解了ACIDBASECAP定理之后,又对分布式的架构有了新的理解,通过这些理论知识我们也能更好的学习后面的分布式架构,例如:Zookeeper、SpringCloud、Dubbo...。

参考资料

ACID-维基百科

CAP定理-维基百科

什么是数据库ACID?

BASE理论

关于ACID,BASE和CAP定理的探究

你可能感兴趣的:(ACID,BASE和CAP理论学习笔记)