数据分片--KV结构下的数据分片

数据复制与数据分片

简单来说，数据复制主要目的在于容错（也有部分目的是通过增加数据备份数来提供扩展能力）；而数据分片主要是以集群形式解决数据量过大的问题（目的在扩展性）。
两者并不矛盾，经常一起出现在大型分布式系统中来分别提升可用性和可扩展性。

KV数据库下的数据分片

数据分片就是将数据存储在不同的逻辑节点上，以减小单个节点的数据操作压力。数据分片需要认真选择分片策略，达到数据分布尽量平均的效果。如果数据分片不平均（举个极端的例子，所有数据恰好被分到同一个分区上，则完全没有达到分片的效果），数据量比较大（还有一层意思是某一分片上数据需要明显多于其他分片的数据操作）的分片，叫做热点（hot spot）。
一个避免热点的方法是对数据进行随机分片，缺点在于进行查询操作时需要对所有片发送请求。单纯键值数据模型的数据分片相对简单，因为读写操作都依赖单一主键。

按键区间分区

对于所有数据片而言，复制储存某一键区间的值（比如node1存储首字母a~e，node2负责f~j等等）。具体数据分布要按键的实际分布来决定。

按键区间分片

在各个数据片内，数据一般按字符顺序排序(参考SSTable)。这为区间查询的实现提供了方便。
按键区间分区缺点也很明显：容易出现逻辑上的热点问题。比如按时间戳分片，负责最近时间数据存储的节点大概率是热点。

按键哈希分片

为了避免区间方法导致的热点问题，很多数据存储采用了对键取哈希再分片的策略。一个良好设计的哈希函数可以把键分布的近乎平均。一般都是将键哈希之后对节点数取模决定数据分片，为了提供节点的扩容缩容、减少故障转移时数据的迁移量，引入了一致性哈希的概念。

按键哈希分片

需要注意的是，由于分片的依据是键的哈希，所以数据存储中丢失了键的相互顺序，这导致区间查询几乎不可用（还可以向所有数据片发送请求最后数据聚合得到结果）。
AWS的DynamoDB和Cassandra采用了两者相结合的形式，哈希键+区间键的方案，哈希键决定数据分片，区间键用于数据片内数据排序，提供区间查询。

热点负载缓解

对于某些已知热点，可以在键前后增加一两位随机字符，来把同一个key分别复制到不同数据片上，以此达到热点数据的请求分压。这意味着需要在业务代码中记录真实key与变化之后key的映射关系，增加了额外的复杂度。

数据分片--KV结构下的数据分片

数据复制与数据分片

KV数据库下的数据分片

按键区间分区

按键哈希分片

热点负载缓解

你可能感兴趣的:(数据分片--KV结构下的数据分片)