分布式存储技术解读系列之二:Ceph 的数据分布算法 | 架构进阶

1. 引言

数据分布是分布式存储系统的要解决的首要问题,在分布式存储系统当中,最核心也是最基本的要求就是数据的分布算法或者规则能够解决以下几个问题:

(1) 数据负载均衡:数据能够均匀地分布在磁盘容量不等的存储节点;

(2) 故障隔离:保障不同的数据副本分布于不同的故障隔离域;

(3) 节点变动与数据迁移:正常节点上的迁移影响达到最小,数据量达到最少。

很多分布式存储系统都会用到一致性哈希算法来支撑其数据的均衡分布。例如在Aamzon的Dyanmo键值存储系统,OpenStack的Swift对象存储系统。而Ceph的数据分布主要是靠哈希和CRUSH算法支撑的,而CRUSH算法又是其核心算法。

2. Object_PG映射算法

2.1 映射过程

从客户端维度看Object-PG的过程,需要经过两个关键步骤:

(1)File —> Object:将文件按照固定粒度大小(2M/4M)进行切分,得到对象(Obj-ID);

(2)Object —> PG:通过哈希算法HASH(Obj-ID) % PG_Number,得到PG(PG-ID)。

首先,通过接口调用保障文件可以平均切分为多个2/4M的对象以及对象的有序标识号。然后,通过哈希算法将有序序列分散,经过取余计算将对象均匀分布在逻辑分区内的PG上。

2.2 

你可能感兴趣的:(综合技术探讨及方案专栏,分布式,ceph,算法)