分布式理论(一)-CAP理论

#概述

    CAP理论是分布式系统最基础的理论,在我们设计一个分布式系统时,不可避免地要涉及到CAP理论。

    CAP即:

-Consistency(一致性)

-Availability(可用性)

-Partition tolerance(分区容错性)

一个分布式系统理论上只能满足其中的两项,如下图所示:

#CAP的定义

-Consistency 一致性

    Consistency : Every read receives the most recent write or an error.一致性:每次读取要么返回最新结果,要么返回错误。

-Availability(可用性)

    Availability : Every request receives a (non-error) response – without the guarantee that it contains the most recent write.可用性:每个请求都会得到一个非错误的响应, 但是不保证是最新的结果

-Partition tolerance(分区容错性)

Partition tolerance : The system continues to operate despite an arbitrary number of messages being dropped (or delayed) by the network between nodes.分区容错性:尽管网络中断或者延迟,系统仍然可用。

#C、A、P冲突

为什么不能同时满足CAP呢?作为一个分布式系统,我们P是理所当然存在的,所以我们接下来讨论的是我们会在C、A中如何抉择。

下图有两个节点,存着同一份数据Vo, A, B是分别运行在G1, G2上的应用


在正常情况下,操作过程如下(如下图所示):

(1)A执行了更新操作,G1的数据由V0变成了V1;

(2)G1发送消息m给G2,G2的数据由V1;

(3)B读取到G2中的数据V1。

如果发生网络分区故障,那么在操作的步骤(2)将发生错误:G1发送的消息不能传送到G2上。这样数据就处于不一致的状态,这个时候B来读取G2上的数据就会出现读取不到最新数据的情况。


这个时候,我们很显然有两种办法:1.牺牲一致性,保证可用性,给用户返回旧的数据V0;2.牺牲可用性,保证一致性,阻塞等待,直至网络恢复,数据更新完成,才返回更新完的数据V1。

#取舍策略

CAP只能满足其中的两项,所以我们可以得到三种策略:

1.CA without P:如果系统不需要P分区容错,CA是可以都保证的,但是这与我们设计分布式系统的初衷背道而驰;

2.CP without A:保证系统的强一致性,牺牲系统的可用性。这点在银行的业务上面很常见,在节点数据出现问题时,我们通常宁愿牺牲可用性,也要保证数据的强一致性,毕竟谁也不希望自己的钱无缘无故的不见了;

3.AP without C:保证系统的可用性,牺牲系统的一致性。这点在我们平常的购物抢购上面也很常见,通常某个抢购商品的库存不是真实的库存,很多时候等你点击购买的时候会发现商品已售罄。这就是我们为了保证整个抢购的整个流程能不受阻止,牺牲了一致性的策略。

#总结

现如今,对于多数大型互联网应用的场景,主机众多、部署分散,而且现在的集群规模越来越大,节点只会越来越多,所以节点故障、网络故障是常态,因此分区容错性也就成为了一个分布式系统必然要面对的问题。那么就只能在C和A之间进行取舍。取C和取A也可能在同一个系统中存在,没有最好的策略,只有最适合业务场景的策略。

你可能感兴趣的:(分布式理论(一)-CAP理论)