Bigtable和Dynamo的比较

Amazon的dynamo和Google的bigtable是两种非常有代表性的分布式数据库，现在流行的分布式数据库中很多设计思想都来自这两个数据库。同时它们的架构又是非常不同的，将这两个数据库放在一起讨论，有助于理解分布式数据库架构的设计。

要了解一个分布式数据库的实现，可以从这几个方面着手：

看看数据是怎么分布的。毕竟是分布式数据库，肯定是由很多节点组成的系统。那么数据是依据什么逻辑来分布到这些节点上的。
考虑如何保证数据不丢失。为了实现数据的高可用，往往会进行多副本存储，那么副本是怎么拷贝的，副本之间怎么保持一致。
查看集群伸缩时的操作。集群中增加或减少节点时，数据是否需要迁移，怎么进行迁移，是否需要人工接入。

这几个方面可以说是分布式数据库的核心设计，其他的方面比如数据模型，读写接口也很重要，但设计和实现的困难程度相比上面这几个要差一些。把这四个问题搞清楚，基本上就可以从整体上了解一个分布式数据库是如何实现的了。下面来分别看下dynamo和bigtable是如何处理这几个问题的。

数据分布

Dynamo

按照DDIA这本书中描述，将数据分布到多个节点中，常用的只有两个方式：by hash 或者 by range。by hash 就是通过key计算出一个hash值，然后根据hash来决定将数据写到哪个节点；by range 的意思就是按照key其所在的范围来决定写到哪个节点。

Dynamo 是一个去中心化的架构，集群中每个节点都是对等的。它采用了类似一致性 hash的方式来分布数据。一致性hash的基本逻辑很简单，集群所有的节点均匀的分布在hash环中，计算出key的hash值，然后看这个值落在哪个hash环位置，向后寻找第一个节点，然后将数据写在这个节点中。dynamo的做法是，找到值落在hash环的位置后，向后寻找N个节点，将数据分别写入到这N个节点中（这也是dynamo实现数据副本的方式，后面讨论）。

那么接下来要考虑的问题是，key space信息记录在哪里。key space信息指的是hash环是如何划分的。比如说，我现在要写一条数据，已经根据key算出了hash值，那么这个值在哪个区间，后面的节点是哪些，这个信息从哪里获取。前面提到了，dynamo中每个节点都是对等的，这意味着每个节点中都有key space的分布信息。同时，客户端程序也会缓存一份key space信息，这样就可以直接将数据发送到目标节点。这种架构下，如果key space发生了变更，不可能让所有节点马上得到最新的信息。也就是说，客户端可能缓存着过期的key space信息，不过这个问题并不难解决。可以将客户端sdk实现为每次读写时都带上 key space 信息的版本号，让存储节点进行比对，如果客户端信息过期则返回错误提示以及最新的key space，然后客户端这边重新发起读写请求。

Bigtable

Bigtable 采用了by range的方式来分布数据，也就是把数据看作是有序的（按照key的字母序排序），每个存储节点指定一个range，所有key落在在此range中的数据都存储在这个节点（实际比这里描述的复杂一点，不过核心思想是一样的）。此外，bigtable是有中心节点的，它的架构中包括了一个master服务，以及一个chubby存储服务（chubby和zookeeper是非常类似的服务，zk实际上是chubby的开源实现）。它将节点和range的对应关系存储在chubby中（这个说法不是很准确，节点和range的关系被组织为树状结构，这棵树的根在chubby，剩余部分则在存储节点中）。和bigtable交互的客户端程序首先必须要和chubby服务建立一个连接，以便获取到最新的数据分布信息。然后在每次读写的时候则直接和存储节点交互。

数据副本

Dynamo

上面提到，在写数据的时候，dynamo会将数据写入到N个节点中，也就是数据有N个副本。集群中每个节点是对等的，也就是每个节点都有可能会处理写任何key的请求。收到写请求后，节点首先计算出key所在的N个节点是哪些，然后并发向这些节点发起写请求。这里的问题是：如果在写入时某个节点故障，导致数据副本之间不一致，该如何处理？对于短暂的不可用，dynamo使用了一个hinted handoff 的机制，举例来说，当需要将某个key写入到ABC三个节点中时，如果C节点故障了，那么dynamo会将key写入到ABC后面的第一个节点D中，并告诉节点D这条数据的原始位置，等到节点C恢复后，节点D会将数据再发送到节点C。对于持续较长时间的故障，节点恢复后，dynamo 使用merkle 树来进行节点间的数据比对，并将缺失的数据发送到恢复后的故障节点。这里merkle 树的优势有两个：一是加快的数据对比的速度，二是通过精准的匹配减少需要传输的数据量。

Dynamo不能保证数据副本间的强一致（通过舍弃严格的一致性要求，Dynamo做到了高性能和高可用）。具体来说，由于每个节点都可以处理写请求，可能出现多个节点写同一个key的情况，此时key所在的N个节点收到数据的顺序是乱的，导致同一个key在各个节点上的数据不一致。dynamo使用了vector clock来解决这个问题，其核心思想是：将数据的冲突版本记录下来，在客户端读取时全部返回，交由客户端程序来决定哪个版本是正确的。

除此之外，dynamo的副本机制提供了灵活的配置选项。数据的副本数N是可以配置的，针对读写一致性还可以配置R和W，R的含义是：在读取数据时，必须要从R个节点中读取到数据才能返回；W的含义是：在写入数据时，必须要写入W个节点成功后才能返回写入成功。对于一致性要求高的用户，可以使配置满足 N + W > R，这其实就是要求读写要在多个节点上成功。对于性能要求高的应用，可以将W 和 R配置的较小，使读写响应更快。

Bigtable

Bigtable 本身并没有做数据副本，它依赖底层的GFS来保证数据的冗余存储。Bigtale的数据都存储在一个个sst文件中，而这些文件又存储在GFS中。GFS把文件切片为一个个chunk，对每个chunk都存储了多个副本。同时使用了一种租约机制来保证数据的一致性，其写入过程和二阶段提交很相似：首先在多个副本中挑选一个为primary，客户端直接将数据复制到各个节点中，然后发送一个write命令给primary，由primary节点来通知各个节点如何更新数据。

此外，在bigtable之后的spanner数据库中，google使用了paxos来维持数据副本之间的一致性，这个做法现在被认为是主流的副本一致性方案，tikv的数据副本采用了相似的机制，不过使用的一致性算法是raft。

水平伸缩

Dynamo

由于每个节点都存储着一份全局的数据分布以及和成员节点信息，因此每个节点都可以承担添加新节点的工作，也就是说，管理员可以通过命令工具和任意一个节点联系，告诉它现在有一个新的节点添加到集群中。然后在集群内部，这个新的全局节点信息会通过类似gossip协议的方式传播到其他所有节点。这个传播的方式大概是：每个节点都会周期的和任意一个节点通信，同步自己的全局信息。这种方式在多数时候都能够使得所有节点达到最终信息一致。但是它的缺点是在新节点刚刚加入的一段时间内，整个集群中可能处于一个信息分裂的状态，也就是可能有的节点已经知道了新节点，有的节点还不知道。为了处理整个问题，dynamo在集群中指定了一些seed节点，所有的节点在一定的时间范围内都会和seed节点通信一次，这样就保证了新的节点在一个可以预期的时间内会传播到整个集群。

在新的节点加入后，它所负责的key还在其他的节点上，此时这些其他节点会逐渐的将数据迁移到新的节点上，这个过程以一种可控的方式进行，以避免影响到正常的读写请求。具体来说，dynamo使用了一个后台任务入场控制机制，每个后台任务有会一个入场控制器，这个控制器会周期的获取节点的资源使用情况，请求的延迟情况，用这些信息来决定后台任务应该何时运行，运行多久。

Bigtable

Bigtable通过master服务来控制添加节点的过程。具体来说，master中记录着每个节点负责的数据范围内，到新的节点添加进来后，master将现有节点负责的数据分配一些给这个新节点来负责，保证整个集群的负载是均衡的。由于数据的分布信息是只记录在master中的，客户端程序可以立即和master交互来获取新的分布信息。

新的节点加入后，bigtable并不会做数据的迁移，只是按照上面说的将一部分数据分配给新的节点负责，这个过程不会导致数据的迁移，原因是bigtable底层使用的是GFS。前面提到过，bigtable的数据是以sst文件的形式存储在GFS中，无论是哪个存储节点去GFS读取这个文件，都只需要使用文件路径就足够了。新节点和旧节点之间不需要迁数据，只是说负责读写的节点发生了变化。如果说底层GFS增加了新的节点，那么就需要迁移数据了（GFS同样是一个中心化的架构，它内部的master服务会负责这个数据迁移的过程）。

其他

除了上面这几个点之外，我们还可以查看在单个节点上使用了哪一种存储引擎，来了解底层数据的组织形式，以及读写的性能。Bigtable的数据虽然是写在GFS中的，但其实相比于写本地文件系统，用法上并没有大的区别，都是写文件。它以一种在当时看来非常独特的方式组织数据文件的格式，也就是SSTable，同时使用了LSM结构的思想来提升写入的性能，这其中包括：先将数据写入到内存，在后台将内存数据落盘，并和磁盘中的数据进行合并（这里的合并在后台进行，合并只包括顺序读、顺序写，删除这些操作，这也正是GFS所擅长的场景）。除此之外，bigtable还使用了bloom filter来提升读取的性能。（由于Bigtale的原因，LSM这种结构受到了很多关注，并逐渐有了很多开源的实现。现在，如果一个数据引擎如果使用sst文件存数据，写入数据时先写内存，后台进行落盘以及compaction，都被称作是基于LSM结构实现）。

Dynamo论文中没有提及在单个节点上存储引擎的实现，不过依照dynamo架构实现的开源数据库cassandra和scylla在单机存储引擎上都使用了类似LSM的数据结构，数据在磁盘上以SST的格式存储，通过后台compation来降低存储放大。

Bigtable和Dynamo的比较

数据分布

Dynamo

Bigtable

数据副本

Dynamo

Bigtable

水平伸缩

Dynamo

Bigtable

其他

你可能感兴趣的:(Bigtable和Dynamo的比较)