分布式存储系统Minio简介

概述

Minio 是一个基于Go语言的对象存储服务。它实现了大部分亚马逊S3云存储服务接口,可以看做是是S3的开源版本,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。区别于分布式存储系统,minio的特色在于简单、轻量级,对开发者友好,认为存储应该是一个开发问题而不是一个运维问题。

存储架构

Minio针对不同应用场景也设置了对应的存储架构:

1、单主机,单硬盘模式
分布式存储系统Minio简介_第1张图片该模式下,Minio只在一台服务器上搭建服务,且数据都存在单块磁盘上,该模式存在单点风险,主要用作开发、测试等使用

minio --config-dir ~/tenant1 server --address :9001 /disk1/data/tenant1

2、单主机,多硬盘模式
分布式存储系统Minio简介_第2张图片该模式下,Minio在一台服务器上搭建服务,但数据分散在多块(大于4块)磁盘上,提供了数据上的安全保障

minio --config-dir ~/tenant1 server --address :9001 /disk1/data/tenant1 /disk2/data/tenant1 /disk3/data/tenant1 /disk4/data/enant1

3、多主机、多硬盘模式(分布式)
分布式存储系统Minio简介_第3张图片该模式是Minio服务最常用的架构,通过共享一个accesskey和secretkey,在多台(2-32)服务器上搭建服务,且数据分散在多块(大于4块,无上限)磁盘上,提供了较为强大的数据冗余机制(Reed-Solomon纠删码)。

export MINIO_ACCESS_KEY=
export MINIO_SECRET_KEY=
minio --config-dir ~/tenant1 server --address :9001 http://192.168.10.11/data/tenant1 http://192.168.10.12/data/tenant1 http://192.168.10.13/data/tenant1 http://192.168.10.14/data/tenant1

数据安全

Minio使用了Reed-Solomon纠删码和校验和来保护数据免受硬件故障和无声数据损坏。

1、Reed-Solomon纠删码

纠删码是一种恢复丢失和损坏数据的数学算法, Minio默认采用Reed-Solomon code将数据拆分成N/2个数据块和N/2个奇偶校验块。这就意味着如果是16块盘,一个对象会被分成8个数据块、8个奇偶校验块,你可以丢失任意8块盘(不管其是存放的数据块还是校验块),你仍可以从剩下的盘中的数据进行恢复。分布式存储系统Minio简介_第4张图片

纠删码的工作原理和RAID或者副本不同,像RAID6可以在损失两块盘的情况下不丢数据,而Minio纠删码可以在丢失一半的盘的情况下,仍可以保证数据安全。 而且Minio纠删码是作用在对象级别,可以一次恢复一个对象,而RAID是作用在卷级别,数据恢复时间很长。 Minio对每个对象单独编码,存储服务一经部署,通常情况下是不需要更换硬盘或者修复。

此外,针对不同应用所需的数据安全级别不同,Minio还提供了存储级别(Storage Class)的配置,调整数据块和校验块的比例,做到对空间的最佳使用。

分布式存储系统Minio简介_第5张图片

比如在将比例调整为14:2后,存储100M的数据占用的空间仅为114M。

2、位衰减保护

位衰减又被称为数据腐化Data Rot、无声数据损坏Silent Data Corruption,是目前硬盘数据的一种严重数据丢失问题。硬盘上的数据可能会神不知鬼不觉就损坏了,也没有什么错误日志。针对这一问题,最新的Minio采用了HighwayHash算法计算校验和来防范位衰减,根据测试结果,其可以实现10GB/s的处理速度。

3、文件的修复

得益于Reed-Solomon纠删码,Minio可以更加灵活的对文件进行修复。目前,Minio提供了全量、bucket、文件夹、文件等各个粒度的修复操作:

分布式存储系统Minio简介_第6张图片

分布式存储系统Minio简介_第7张图片

分布式存储系统Minio简介_第8张图片

分布式存储系统Minio简介_第9张图片

相比一般的RAID方式,Minio可以在非常小的粒度下对文件进行修复操作,灵活性有了很大提高。

Minio的相关操作

Minio提供了客户端以及sdk以对系统和数据进行操作,目前sdk有java、js、python、go以及.NET版本。

其中,Minio客户端提供了一系列类UNIX命令,它主要是对Minio服务进行管理

分布式存储系统Minio简介_第10张图片

而sdk则主要提供了对bucket以及文件对象的操作,java应用可通过maven引入依赖。

分布式存储系统Minio简介_第11张图片

Minio提供的其他一些功能

Minio还提供了一些辅助功能以方便使用,比如其自带了一个管理界面,实现对文件等的操作。
分布式存储系统Minio简介_第12张图片

另外,它还支持集成prometheus,用以监控CPU、硬盘、网络等数据分布式存储系统Minio简介_第13张图片此外,它也提供了一些通知机制来记录具体的操作,目前主要支持AMQP,Redis,MySQL,Kafka,ES,Webhooks等

总结

Minio作为一个分布式存储系统,学习成本较低,安装运维简单,基本属于开箱即用,且sdk支持较为完善,可以尝试作为分布式存储需求的解决方案。

之前一直使用MongoDB的GirdFS存储文件,在并发处理能力和扩容能力上没有遇到问题。但是使用总是不够变量,各种功能都需要自己开发。存储上是wt文件,无法直接识别。

所以,希望找一款替代产品。目前开源的文件存储系统比较多,比较了多个,我们的要求是要支持S3存储,最终选定了minio。

从对比中,目前文件存储在ceph和minio中进行比较选型:

分布式存储系统Minio简介_第14张图片

参考资料:

https://docs.minio.io/docs/
https://blog.minio.io/highwayhash-fast-hashing-at-over-10-gb-s-per-core-in-golang-fee938b5218a
https://blog.csdn.net/wangsiman/article/details/80101654

你可能感兴趣的:(大数据)