一、CAP理论
在理论计算机科学中,CAP定理,也就是以计算机科学家Eric Brewer的名字命名的Brewer定理,指出分布式数据存储不可能同时提供以下三种保证中的两种以上:
- 一致性(Consistency):每次读取都会收到最新的写入或错误。
- 可用性(Availability):每个请求都接收一个(无错误)响应——而不保证它包含最近的写入。
- 分区容忍性(Partition tolerance):尽管网络在节点之间丢弃(或延迟)任意数量的消息,系统仍继续运行。
尤其是,CAP定理暗示,在存在网络分区的情况下,必须在一致性和可用性之间进行选择。注意,CAP定理中定义的一致性与ACID数据库事务中保证的一致性有很大不同。
一致性(Consistency)
一致性就是数据保持一致,在分布式系统中,可以理解为多个节点中数据的值是一致的。因此您可以从任何节点读取或写入数据并获取相同的数据。
一致性又可以分为强一致性与弱一致性。
- 强一致性
强一致性可以理解为在任意时刻,所有节点中的数据是一样的。同一时间点,你在节点A中获取的key1的值与在节点B中获取到key1的值应该都是一样的。 - 弱一致性
弱一致性包含很多种不同的实现,目前分布式系统中广泛实现的是最终一致性。 - 最终一致性
所谓最终一致性,是弱一致性的一种特例,保证用户最终能够读取到某操作堆系统特定数据的更新。随着时间的迁移,不同节点上的同一份数据总是在向趋同的方向变化。也可以简单的理解为在一段时间后,节点简单的数据会最终达到一致性状态。对于最终一致性最好的例子就是DNS系统,由于DNS多级缓存的实现,所以修改DNS记录后不会在全球所有DNS服务节点生效,需要等待DNS服务器缓存过期后向源服务器获取新的记录才能实现。
可用性(Availability)
可用性意味着即使集群中的一个节点出现故障,也能够访问该集群。
通常我们通过下面这样的一个公式来直观得描述当前系统的可用性:
uptime : 线上运行时间
downtime:停机时间
考察时间为指定瞬间,则称瞬时可用性;考察时间为指定时段,则称时段可用性;考察时间为连续使用期间的任一时刻,则称固有可用性。它是衡量设备在投入使用后实际使用的效能,是设备或系统的可靠性、可维护性和维护支持性的综合特性。
可用性的反面是故障时间,网站或者分布式系统会因为很多原因导致不可用,比如:程序bug、运维更新错误、环境配置升级变化,机器硬件故障、被恶意攻击、不小心踢掉了网线/电源插座、市政施工挖断了光纤、程序员删库跑路、地震海啸自然灾害等待。
如果按照年为单位计算系统的故障时间,公式如下:
故障时间秒数=(1-可用性) * 365 * 24 * 3600
可见,如果只有1个9的可用性,体验是极其糟糕的,1年下来有1个多月不能使用。一些大型网站号称能过做到4个9,那么1年有52分钟故障时间,其实已经是不错的情况了。如果要宣传自己拥有10个9的可用性,那么意味着100年以内只会故障3秒钟;所以各大厂商的无脑吹嘘也要适可而止。
分区容忍性(Partition tolerance)
分布式系统由多个节点(组)组成,对外来看是一个整体,节点(组)与节点(组)之前通过某种通信方式进行互相交流,也就是说集群内的节点(组)组成了一个节点网。但是节点(组)与节点(组)节点是通过网络进行通信的,由于网络的故障会导致节点(组)与节点(组)的通信中断,这时候概观整个网,就不再是整体,而是一个一个的分区组成。分区容忍性描述的就是可以容忍这样的情况发生,并且正常提供服务。
概括地说就是:分区容错意味着集群继续工作,即使两个节点(组)之间存在“分区”(通信中断)(两个节点(组)都已启动,但无法通信)。
网络分区
网络分区是指将网络分解为相对独立的子网,比如进行分离的优化或者由于网络设备的失效而导致的网络分裂。在这两种情况下,子网的分区容忍行为是预期的。这意味着即使在将网络划分成多个子系统之后,它仍然能够正常工作。
例如,在具有多个子网的网络中,节点A和B位于一个子网中,节点C和D位于另一个子网中,如果两个子网之间的网络交换设备失败,则发生分区。在这种情况下,节点A和B不能再与节点C和D通信,但所有节点A-D的工作方式与以前一样。
二、CAP图示
上面已经对CAP中包含的三个基本特性作为理论性的说明,这一小节以图示的方式来分别描述一下这些特性具体讲的是什么。
原文地址:https://mwhittaker.github.io/blog/an_illustrated_proof_of_the_cap_theorem/
让我们考虑一个非常简单的分布式系统。我们的系统由两台服务器组成,G1和G2。这两台服务器都在跟踪相同的变量v,其值最初为v0。G1和G2可以相互通信,也可以与外部客户进行通信。我们的系统是这样的。
客户端可以请求从任何服务器进行读写。当服务器接收到请求时,它会执行它想要的任何计算,然后对客户端进行响应。例如,下面是写的情况:
下面是读的情况:
现在我们已经建立了我们的系统,让我们来研究一下系统是一致的、可用的和允许分区的意味着什么。
一致性
在一致的系统中,一旦客户端向任何服务器写入值并获得响应,它就希望从读取的任何服务器获得该值(或更新的值)。
这里是一个不一致系统的例子。
我们的客户端将v1写入G1,G1完成了,但是当它从G2读取时,会得到陈旧的数据:v0。
另一方面,这里是一个一致的系统的例子。
在此系统中,G1在向客户端发送确认之前将其值复制到G2。因此,当客户机从G2读取时,它获得了v的最新值:v1。
可用性
在可用的系统中,如果我们的客户端向服务器发送请求,而服务器没有崩溃,那么服务器最终必须响应客户端。不允许服务器忽略客户端的请求。
分区容忍性
这意味着G1和G2之间的发送任何消息都可以被删除。如果所有的消息都被丢弃了,那么我们的系统就会像这样。
为了能够容忍分区,我们的系统必须能够在任意网络分区的情况下正确工作。
三、CAP权衡
在文章的开始就说了三个特性不能完全满足,只能满足其中二个。现在就来论证一下不能同时满足。
假设确实存在一致、可用和分区容忍度的系统。我们做的第一件事就是将我们的系统分区。看起来像这样。
下一步,我们发起对G1的请求将v1写入。由于我们的系统是可用的,所以G1必能响应。又由于我们的系统是分区的,那么G1就不能讲它的数据复制给G2。Gilbert和Lynch称这为α1执行阶段。
下一步,我们对G2发送请求。同样的,因为我们系统是可用的,所以G2必能响应。G2不能从G1中获取更新的数据,它返回数据v0。Gilbert和Lynch称这为α2执行阶段。
客户端已经将v1写入到G1了,不过请求G2却访问v0。这就是不一致的。
上面我们假设存在满足三个特性系统,但是通过描述发现该系统并没有同时满足这三个特性,所以我们的假设是不成立的,不可能有同时满足这三种特性的系统存在。
在我们设计系统的时候如何进行取舍呢?下面的这篇文章讲得比较详细,跳转阅读:
分布式系统的CAP理论