CAP理论和细节

第74篇

极客时间《从0开始学架构》课程笔记。

什么是CAP？

CAP是指CAP 定理（CAP theorem），又被称作布鲁尔定理（Brewer's theorem），是计算机科学家埃里克·布鲁尔（Eric Brewer）在 2000 年提出的一个猜想。2002 年，赛斯·吉尔伯特（Seth Gilbert）和南希·林奇（Nancy Lynch）发表了布鲁尔猜想的证明，使之成为分布式计算领域公认的一个定理。

Consistency（一致性）：对某个指定的客户端来说，读操作保证能够返回最新的写操作结果。
Availability（可用性）：非故障的节点在合理的时间内返回合理的响应（不是错误和超时的响应）。
Partition Tolerance （分区容错性）：当出现网络分区后，系统能够继续“履行职责”。

CAP解释版本1

对于一个分布式计算系统，不可能同时满足一致性（Consistence）、可用性（Availability）、分区容错性（Partition Tolerance）三个设计约束。

CAP解释版本2

在一个分布式系统（指互相连接并共享数据的节点的集合）中，当涉及读写操作时，只能保证一致性（Consistence）、可用性（Availability）、分区容错性（Partition Tolerance）三者中的两个，另外一个必须被牺牲。

版本2的定义更加精确。版本1的定义更加容易记忆。

CAP应用

在分布式环境中，CAP3要素中的P要素必须选择，因为网络本身无法100%可靠。
所以在理论上没有CA架构，只有CP和AP。

CP架构（Consistency/Partition Tolerance）

为了保证一致性，当发生分区现象后，N1 节点上的数据已经更新到 y，但由于 N1 和 N2 之间的复制通道中断，数据 y 无法同步到 N2，N2 节点上的数据还是 x。这时客户端 C 访问 N2 时，N2 需要返回 Error，提示客户端 C“系统现在发生了错误”，这种处理方式违背了可用性（Availability）的要求。

AP架构（Availability/Partition Tolerance）

为了保证可用性，当发生分区现象后，N1 节点上的数据已经更新到 y，但由于 N1 和 N2 之间的复制通道中断，数据 y 无法同步到 N2，N2 节点上的数据还是 x。这时客户端 C 访问 N2 时，N2 将当前自己拥有的数据 x 返回给客户端 C 了，而实际上当前最新的数据已经是 y 了，这就不满足一致性（Consistency）的要求了。

CAP关键细节点

CAP 关注的粒度是数据，而不是整个系统。
在 CAP 理论落地实践时，需要将系统内的数据按照不同的应用场景和要求进行分类，每类数据选择不同的策略（CP 还是 AP），而不是直接限定整个系统所有数据都是同一策略。
CAP 是忽略网络延迟的。
布鲁尔在定义一致性时，并没有将延迟考虑进去。理论上认为当事务提交时，数据能够瞬间复制到所有节点，而实际上无法做到，几毫秒的复制时间也是延迟。
正常运行情况下，不存在 CP 和 AP 的选择，可以同时满足 CA。
架构设计的时候既要考虑分区发生时选择 CP 还是 AP，也要考虑分区没有发生时如何保证 CA。
放弃并不等于什么都不做，需要为分区恢复后做准备。
CAP 理论的“牺牲”只是说在分区过程中我们无法保证 C 或者 A，但并不意味着什么都不做。分区期间放弃 C 或者 A，并不意味着永远放弃 C 和 A，可以在分区期间进行一些操作，从而让分区故障解决后，系统能够重新达到 CA 的状态。

CAP、ACID、BASE

ACID

ACID 是数据库管理系统为了保证事务的正确性而提出来的一个理论，ACID 包含四个约束。

1.Atomicity（原子性）:一个事务中的所有操作，要么全部完成，要么全部不完成，不会在中间某个环节结束。
2.Consistency（一致性）:在事务开始之前和事务结束以后，数据库的完整性没有被破坏。
3.Isolation（隔离性）:数据库允许多个并发事务同时对数据进行读写和修改的能力。隔离性可以防止多个事务并发执行时由于交叉执行而导致数据的不一致。
4.Durability（持久性）:事务处理结束后，对数据的修改就是永久的，即便系统故障也不会丢失。

CAP与ACID的差异

ACID 中的 A（Atomicity）和 CAP 中的 A（Availability）意义完全不同
ACID 中的 C 和 CAP 中的 C 名称一样，但含义完全不一样。ACID 中的 C 是指数据库的数据完整性，而 CAP 中的 C 是指分布式节点中的数据一致性。
ACID 的应用场景是数据库事务，CAP 关注的是分布式系统数据读写。

BASE

BASE 是指基本可用（Basically Available）、软状态（ Soft State）、最终一致性（ Eventual Consistency），核心思想是即使无法做到强一致性（CAP 的一致性就是强一致性），但应用可以采用适合的方式达到最终一致性。

基本可用（Basically Available）：分布式系统在出现故障时，允许损失部分可用性，即保证核心可用。
软状态（Soft State）：允许系统存在中间状态，而该中间状态不会影响系统整体可用性。这里的中间状态就是 CAP 理论中的数据不一致。
最终一致性（Eventual Consistency）：系统中的所有数据副本经过一定时间后，最终能够达到一致的状态。

CAP与BASE的差异

BASE 理论本质上是对 CAP 的延伸和补充，是对 CAP 中 AP 方案的一个补充。

CAP 理论是忽略延时的，而实际应用中延时是无法避免的。 CAP 中的 CP 方案，实际上也是实现了最终一致性，只是“一定时间”是指几毫秒而已。
AP 方案中牺牲一致性只是指分区期间，而不是永远放弃一致性。BASE 理论就是指在分区期间牺牲一致性，但分区故障恢复后，系统应该达到最终一致性。

小结

CAP 是分布式系统设计理论
ACID 是数据库事务完整性的理论
BASE 是 CAP 理论中 AP 方案的延伸