为了更好的了解高可用设计,将各类常用服务关于高可用的设计原理汇总到一起,通过横向对比的方式去发现这些典型设计的共同之处和差异点。
MinIO 有单机单硬盘、单机多硬盘、多机多硬盘三种部署模式。单机单硬盘存在单点风险,数据没有安全保障,一般只用于测试环境、开发环境。单机多硬盘同样有单点风险,但数据有安全保障。多机多硬盘是最常用的部署方式,在多台(2-32)服务器上搭建服务,且数据分散在多块(最少4块,无上限)磁盘上,提供了较为强大的数据冗余机制(Reed-Solomon纠删码),规避了单点风险。
MinIO 采用多机多硬盘的分布式部署方式保证系统的高可用。下图是MinIO的存储示意图。一行是一个MinIO的服务,一个MinIO服务可以有多个Drive(本地硬盘),Set是一组 Drive 的集合。
看几个MinIO的概念:
Object:存储到 MinIO 的基本对象,如文件、字节流,Anything...
Bucket:用来存储 Object 的逻辑空间。每个 Bucket 之间的数据是相互隔离的。对于客户端而言,就相当于一个存放文件的顶层文件夹。
Drive:部署 MinIO 时设置的磁盘,MinIO 中所有的对象数据都会存储在 Drive 里。
Set:在同一集群内,MinIO 自己会自动生成若干Set(纠删组),用于分布存放桶数据。是一组 Drive 的集合,每个 Set 中的 Drive 分布在不同位置。一个对象存储在一个 Set 上。(For example: {1…64} is divided into 4 sets each of size 16.)。
DataDrives :纠删码中的数据盘,用来存储 Object 原始数据。
ParityDrives:纠删码中的冗余盘,用来存储 Object 计算出来的冗余数据。
MinIO 是通过数据编码,将原来的对象编码成 N 份,N 就是一个 Set 上面 Drive 的数量。对象被编码成N份之后,把每一份,写到对应的 Drive 上面,这就是把一个对象存储在整个 Set 上。
一个集群包含多个 Set,每个对象最终存储在哪个 Set 上是根据对象的名称进行哈希,然后影射到唯一的 Set 上面,这个方式从理论上保证数据可以均匀的分布到所有的 Set 上。
根据的观测,数据分布的也非常均匀,一个 Set 上包含多少个 Drive 是由系统自动根据集群规模算出来的,当然,也可以自己去配置。
一个 Set 的 Drive 系统会考虑尽可能把它放在更多的节点上面,保证它的可靠性。
对于上传的 Object,Minio 会将其划分为多个 Block 来计算纠删码。如果 Object Size > 10 MB,那么每个 block 的大小就是 10 MB。如果 Object Size < 10 MB,如果也划分一个 10 MB 的 block 就太浪费空间了,所以分配一个大小刚好为 Object Size 的 block 就够了。
一个 Set 中有多个 Drive(DataDrives + ParityDrives),所以 Minio 会先将一块 Block 按照 Drive 数量,划分为多个小块,这些小块在 Minio 中叫做 Shards。比如一个 Block 是 10MB, 而 Set 里有 6 个 Drive(3 DataDrives + 3 ParityDrives),此时 Minio 会将 Block 按照 10 MB / 3 DataDrives 的方式,将数据划分到 3 个 Data Shards,并额外再创建 3 个 空 Shards,用来存储编码后的冗余数据。
对于用户来说,直观的感觉是把某个Object存到了某个Bucket中,而不用关心这个对象具体放到了哪些服务的那些磁盘中。
Minio采用去中心化的无共享架构,对象数据被打散存放在不同节点的多块硬盘,对外提供统一命名空间访问,并通过负载均衡或者DNS轮询在各个服务器之间实现负载均衡。
多节点组成的分布式Minio集群可保证服务的高可用,一个N节点的分布式Minio,只要有N/2节点在线,数据就是安全的。不过需要至少有N/2+1个节点才能创建新的对象。
例如,一个16节点的Minio集群,每个节点16块硬盘,就算8台服务器宕机,这个集群仍然是可读的,不过需要9台服务器才能写数据。
分布式Minio自动引入了纠删码功能来保证数据安全,防范多个节点宕机和位衰减bit rot。分布式Minio至少需要4个硬盘。一个Set中的一定数量的硬盘发生的故障(故障硬盘的数量小于等于校验盘的数量),通过纠删码校验算法可以恢复出正确的数据。
只要遵守分布式Minio的限制,可以组合不同的节点和每个节点几块硬盘。比如,可以使用2个节点,每个节点4块硬盘;可以3个节点,每个节点2块硬盘;也可以使用4个节点,每个节点1块硬盘,诸如此类。在这些集群配置下,至少能保证1个节点宕机或者1块磁盘损坏的情况下不丢数据,能读数据,能恢复服务。节点越多、每个节点的硬盘越多可用性越高。