DDIA读书笔记 6 数据分区

6 数据分区

6.1 数据分区与数据复制

  • 面对海量数据集或者非常高的查询压力,只使用复制技术还不够,需要将数据分区,也称为分片
  • 分区通常和复制结合使用

6.2 键值数据的分区

  • 目标:将数据和查询负载均匀分布在所有节点上。
  • 负载不均匀的情况称为倾斜,基于范围区间和基于哈希值的方法都无法有效解决该问题,需要开发者在应用层解决

6.2.1 基于关键字区间分区

  • 基于关键字的区间范围来分区
  • 代表产品:Bigtable,HBase,RethinkDB和2.4版本之前的MongoDB
  • 每个分区内按照关键字排序保存

6.2.2 基于关键字哈希值分区

  • Cassandra和MongoDB使用MD5,V欧蓝德默认图使用Fowler-Noll-Vo函数

  • 缺点:失去了良好的区间查询特性。即使关键字相邻,但经过哈希之后会分散到不同的分区上

  • 一致性哈希(补充)

    • 传统哈希的缺点:当需要变更节点数时,这时大部分的数据都需要迁移,重新映射,数据的迁移成本是非常高的。

    • 简介:一致哈希算法是对 2^32 进行取模运算。你可以想象下,一致哈希算法,将整个哈希值空间组织成一个虚拟的圆环,也就是哈希环。在一致哈希中,你可以通过执行哈希算法,将节点映射到哈希环上,比如选择节点的主机名作为参数执行 c-hash(),那么每个节点就能确定其在哈希环上的位置了。

      当需要对指定 key 的值进行读写的时候,你可以通过下面 2 步进行寻址:首先,将 key 作为参数执行 c-hash() 计算哈希值,并确定此 key 在环上的位置;然后,从这个位置沿着哈希环顺时针“行走”,遇到的第一节点就是 key 对应的节点。

    • 一致性哈希如何避免传统哈希的问题:在一致哈希算法中,如果某个节点宕机不可用了,那么受影响的数据仅仅是,会寻址到此节点和前一节点之间的数据。比如当节点 C 宕机了,受影响的数据是会寻址到节点 B 和节点 C 之间的数据(例如 key-03),寻址到其他哈希环空间的数据(例如 key-01),不会受到影响。一致哈希算法具有较好的容错性和可扩展性一致哈希是一种特殊的哈希算法,在使用一致哈希算法后,节点增减变化时只影响到部分数据的路由寻址,也就是说我们只要迁移部分数据,就能实现集群的稳定了。

    • 冷热不均和虚拟节点:在一致哈希中,如果节点太少,容易因为节点分布不均匀造成数据访问的冷热不均,也就是说大多数访问请求都会集中少量几个节点上。

      就是对每一个服务器节点计算多个哈希值,在每个计算结果位置上,都放置一个虚拟节点,并将虚拟节点映射到实际节点

6.3 分区与二级索引

  • 二级索引通常不能唯一标识一条记录,而是用来加速特定值的查询

6.3.1 基于文档分区的二级索引

  • 二级索引:值->文档ID

  • 每个分区独立维护自己分区内的文档,而不关心其他分区中的数据

  • 查询时,需要将查询发送到所有的分区,然后合并返回的结果,也称为分散/聚集。缺点是读延迟大
    DDIA读书笔记 6 数据分区_第1张图片

6.3.2 基于词条的二级索引分区

  • 对所有数据构建全局索引,而不是每个分区维护自己的本地索引,全局索引也进行分区(区间或哈希)
    DDIA读书笔记 6 数据分区_第2张图片

  • 优点:比起基于词条的分区,读取更高效,但写入复杂,需要更新单个文档后再更新二级索引

  • 对二级索引的更新通常是异步的

6.4 分区再平衡

  • 固定数量分区
    • 首先创建远超实际节点数的分区数,然后为每个节点分配多个分区。如果集群中新增节点,该新节点可以从每个现有的节点上匀走几个分区,知道分区再次达到全局平衡
    • 产品:Riak,ElasticSearch,Couchbase,Voldemort,Redis的集群模式
    • 分区数量一般固定,这样使得相关操作更简单
  • 动态分区
    • 对于区间范围的分区策略,当边界设置得有问题,可能出现所有数据都集中在一个分区而其他分区为空。此时可以动态创建分区。但分区数据过大时,拆分为两个分区。如果分区数据小,则将这些进行合并(哈希分区策略也支持这种拆分和合并)
  • 按节点比例分区
    • 分区数和集群节点数成正比关系,每个节点具有固定数量的分区,而不是集群内有固定数量分区
  • 自动与手动再平衡操作
    • 自动方便,但会出现一些问题,比如将大量数据从一个节点转移到另一个及诶单,导致网络或目标节点负载过大
    • 最好是管理员接入,虽然慢一些,但可以防止意外。比如Couchbase,Riak和Voldemort会自动生成一个分区分配的建议方案,但需要管理员的确认才能生效

6.5 请求路由

  • 当客户端发送请求时,如何知道连接哪个节点,包括再平衡后

  • 属于服务发现问题

  • 处理策略:

    • 允许客户端连接到任意(Any而不是all)节点,如果该节点有数据就返回,否则该节点将请求转发给下一个节点。
    • 请求先发送到路由层,作为一个分区感知的负载均衡器,路由层负责将请求转发到对应的分区节点
    • 客户端感知分区和节点的分配关系,客户端直接连接目标节点
  • 核心问题:作出路由决策的组件(节点,路由层或者客户端),如何知道分区与节点的对应关系及其变化情况?

    • 方法一:使用zookeeper

      • 依靠独立的协议服务如zookeeper,节点都注册到zookeeper上,zookeeper维护了分区到节点的最终映射关系

      • 路由层或者分区感知的客户端可以向zookeeper订阅消息,一旦分区发生改变,或者增删节点,zookeeper会主动通知路由层或客户端,使路由信息保持最新
        DDIA读书笔记 6 数据分区_第3张图片

    • 方法二:使用gossip协议同步集群状态的变化。

      • 请求可以发送到任何节点,由该节点负责将其转发到目标分区节点

你可能感兴趣的:(DDIA读书笔记 6 数据分区)