SDS发展小观察

1、SDS科普

SDS(Software Defined Storage)即软件定义存储,简单地说就是将存储硬件和软件进行分离,采用标准化硬件作为载体(如X86架构),基于软件实现企业级存储功能和服务。

相对于传统存储硬件盒子,SDS中存储软件成为了核心。SDS通常都是分布式存储,形式分为文件存储(POSIX/NFS/CIFS)、对象存储(S3)和块存储(iSCSI/iSER/NVMeoF)三种。

SDS的兴起源于硬件的快速发展,CPU、网络、SSD等硬件成熟度、稳定性、性能不断提升,同时云计算对存储扩展性、可靠性、高性能、低成本的迫切需求,从而使得SDS成为可能。

从云计算到传统行业,从边缘到核心业务,SDS目前已经成为存储市场主流,替换传统SAN/NAS存储,即去IOE运动。SDS的产品模式分为独立存储和HCI超融合两种,后者中SDS决定着HCI的核心竞争力。

SDS开源软件和商业系统,可谓百家争鸣,多为面向HDD机械硬盘或SSD混合型容量存储。随着SSD技术和成本不断演进,新一代性能型全闪SDS即将成为主流趋势。同时,智能化SDS发展趋势凸显,即第五代智能存储。

 

2、发展简史

2003年,Lustre 1.0发布,一款面向HPC的开源高性能集群并行文件系统。

2006年,Gluster诞生,最初目标是代替Lustre和GPFS分布式文件系统。

2009年,Nutanix公司发布具有专利的超融合基础架构,公认为HCI鼻祖。

2010年,Sheepdog发布,一款极简风格的开源分布式块存储系统。

2011年,Sage Weil创立了Inktank公司主导Ceph的开发和社区维护。

2012年,Pure Storage发布第一代AFA全闪存阵列,引领全闪存储潮流。

2014年,VMWare正式发布VSAN第一个版本,内嵌于vSphere内核中。

2014年,FhGFS改名为BeeGFS,并在中小型HPC系统中得到关注和应用。

2014年,MinIO发布,一款极简风格的开源高性能分布式对象存储系统。

2015年,这年前后中国涌现一批基于开源Gluster/Ceph/BeeGFS的存储初创公司。

2015年,被普遍认为是中国SDS/HCI市场的元年,整个市场呈现高速增长的局面。

2017年,Qumulo发布新一代高性能全闪存文件存储系统,面向百亿级别文件数量应用。

2017年,这年前后中国涌现一批巨头入场,基于开源Ceph研发SDS存储产品。

2019年,根据IDC统计数字SDS/HCI已经成为市场主流,占据超过1/3外部存储市场份额。

2020年,信创产业开始将SDS纳入产品名录,中国市场出现新一代性能型全闪SDS产品。

 

3、技术流派

本身SDS产品技术路线而言,国内开源存储占了大多数,分为六大技术流派,各显神通。

Lustre,开源高性能并行文件系统,波澜不惊的20+年发展历程,常青树标杆。

Lustre最大特点就是可扩展的高性能,尤其TB级超高带宽,以及MPI并行支持。

Lustre缺陷同样非常明显,系统复杂性极高,数据可靠性过度依赖硬件。

Lustre专注高性能并行计算场景,几乎占据HPC TOP500半壁天下。

Lustre正在发展全闪存架构、集群元数据、副本/纠删码冗余机制,以突破更高带宽、百亿级小文件、Share-nothing架构下数据高可用等挑战。

 

Gluster,极简架构的开源分布式文件系统,目标是替换Lustre/GPFS,最为广泛流行。

Gluster最大特点是简单可靠,独特去中心架构下的高弹性扩展能力,更低硬件要求。

Gluster最明显的不足是海量文件下的元数据检索能力,小I/O能力不太够。

Gluster非常适合大文件带宽型应用场景,比如媒体资源、视频监控、HPC,适用面宽泛。

Gluster正在优化大规模集群管控、海量元数据管理、容器持久化存储、混合云存储等功能,以拓宽更多的应用场景。

 

Sheepdog,极简架构的开源分布式块存储系统,专为KVM/QEMU设计,昙花一现。

Sheepdog最大特点同样是简单易用,无中心架构扩展能力强,专注做好块存储功能。

Sheepdog显著短板是高级存储特性不足,背后无公司运营,系统稳定成熟度不够。

Sheepdog专为QEMU虚拟机设计,适用OpenStack,也可作为独立iSCSI块存储设备。

Sheepdog起点较早,2015年前后曾经发展势头很不错,2018年基本停滞,甚是可惜。

 

Ceph,开源分布式统一存储系统,追求完美架构,因OpenStack和对象存储成为云计算宠儿。

Ceph最大特点是统一存储,同时支持块儿、对象和文件存储,高级存储功能规格全面。

Ceph最大问题同样是统一存储,系统架构复杂度极高,文件功能一直未能达到生产成熟度。

Ceph最佳应用场景是OpenStack,天然生态融合,对象存储应用比较广泛已经超越块存储。

Ceph正在努力优化其文件系统成熟度、降低I/O延迟、支持高速网络和新型存储介质,以适应云计算的快速发展步伐。

 

BeeGFS,开源高性能分布式文件系统,Lustre挑战者,HPC领域存储新秀。

BeeGFS最大特点是开放硬件架构下的高性能,相对Lustre/GPFS更加灵活易用和更高扩展性。

BeeGFS不足之处是同样是系统复杂性极高,性能之外的高级存储功能缺失比较多。

BeeGFS聚焦HPC高性能计算场景(尤其是中小型),目前已经在TOP500/IO500崭露头角。

BeeGFS正在发展混合云化环境文件存储服务、全闪存架构性能优化、AI场景化应用优化,以及高级存储功能,以拓宽HPC高性能计算之外的更多应用场景。

 

Minio,极简架构的开源分布式对象存储系统,AWS S3兼容最好的开源实现,对象存储新贵。

Minio最大特点是轻量可靠,专注做好对象存储,独特扩展模式获得更高扩展性和易维护性。

Minio被诟病最多的同样是按集群扩展模式,单个桶无法扩容,仅支持EC纠删码延迟较大。

Minio主要应用场景为人工智能、大数据分析、云原生应用、数据备份容灾等。

Minio正在发展对接更多云生态应用、对象存储混合云化服务、高性能硬件环境下的性能优化,更好帮助构建云原生数据基础架构,并承载更多关键核心应用。

 

4、技术门槛

存储圈流传这样一个说法,搞存储是一个危险系数很高的职业。为啥呢?计算出问题通常都是局部单机故障,重启试试大概率就能解决,而存储一旦出问题就是全局系统故障,搞不好就成背锅侠。存储作为IT基础设施的底座,重要性不言而喻,谁整谁知道。

存储圈内人士总是对存储有无穷的敬畏,越是大牛越是如此。而存储圈外人士往往低估存储的门槛,认为只要投钱花时间就能搞出牛逼的存储产品。这里面直接忽略了科学理论、工程技术的系统复杂性和人的决定性因素。如果是这样,哪有什么卡脖子关键技术一说。

存储系统软件是一个复杂的系统软件工程,需要严谨的理论架构和工程化来保证数据安全性和系统稳定性,存储的底线和红线是不允许丢失数据。存储算法理论、系统架构、硬件结构、操作系统、软件工程等各个环节都非常复杂。系统复杂性决定了存储研发不可能是一件容易的事,对于存储新产品技术要在无人区不断摸索和试错,对理论创新、系统架构、工程化能力要求很高,这些都直接决定了存储的极高门槛。

就存储产品技术而言,中国至少落后硅谷一代,时间上真不大好估算,有些技术我们是压根没有掌握。国内存储采用开源路线居多,同质化现象极为严重,研发上采用Follow对标跟随策略,创新领先的东西极少,并没有出现类似硅谷百家争鸣的景象。这些同样佐证了存储门槛很高,一定要有客观清醒的认知。

 

5、全闪SDS

SSD固态硬盘技术成熟度和先进性不断增强,成本不断下降,取代大部分HDD机械硬盘是必然结果。第五代智能存储发展趋势,全闪满足不断提升的性能型场景需求和企业数字化转型。从存储颗粒芯片、主控芯片到主控软件,SSD能够实现完全国产化,而机械硬盘无法做到,全闪存是信创产业实现国产化存储替换的必由之路。

2015年被普遍认为是中国SDS/HCI市场的元年,整个市场呈现高速增长的局面,2019年根据IDC统计数字认为SDS/HCI已经成为市场主流,占据超过1/3的外部存储市场份额。同时,全闪存储(全闪阵列AFA和全闪SDS)成为主流趋势,占用外部存储市场的半壁江山。2020可能会成为中国全闪存的发展元年,多家存储厂商发布了新一代的AFA全闪阵列,TaoCloud则发布了FASS新一代性能型全闪SDS产品。

全闪SDS特点是高性能,尤其是随机读写、低延迟和高带宽,主要用于高性能场景。

  1. 云计算:云基础设施加速,高速云存储,帮助核心业务上云;
  2. 金融科技:数据库加速,高性能容器存储,帮助去IOE和国产化替换;
  3. 新基建:5G、AI、物联网、工业互联网,解决新兴行业性能痛点需求;
  4. 其他:4K/8K高清非编、HPC、海量小文件,满足行业技术升级需求;

全闪存趋势已经很明显,全闪和混闪在SDS中占比已经达到50%。分布式全闪存硅谷代表创业公司有Pure Storage、kaminario、Excelero、E8、Qumulo、Wekaio、Elastifile,国内目前全闪SDS产品凤毛麟角。全闪存如果已经是绝对主流,那意味着再入场可能为时已晚,2020年正当时。

 

6、免费开源

SDS开源软件发展繁荣兴盛,诸如Lustre、Gluster、Sheepdog、Ceph、BeeGFS、Minio六大技术流派,国内存储厂商几乎或多或少都享受着开源存储软件红利。开源软件降低了存储研发的门槛,基于成熟的开源存储系统可以快速构建起具有一定竞争力的存储产品体系,实现市场布局和自主可控国产化。借助开源软件打造存储,无非是出于几种考虑,或是看好顺应开源大势,或是图快吃红利,或是认为研发成本低,或是没有能力自主研发。

采用SDS开源存储软件同样面临诸多巨大挑战。开源系统本身复杂性高,吃透并且能够掌握难度是挺大的,通常都是跟随社区主导者的步伐发展。越是火热的开源存储,越是市场上同质化更加严重,容易陷入价格战的恶性竞争而非技术取胜,同质化竞争导致市场分散也限制了厂商的发展上升空间。开源软件需要严格遵守开源许可,尤其是走向国际化市场。另外,开源模式并不意味着免费或低成本。

对于国内存储厂商尤其是初创公司,自主研发SDS产品并且拥有完全知识产权的,实际上可以考虑免费和开源模式。这种模式下,技术先进性和世界顶级公司保持一致,降低全球化的门槛,从国内走向国际化,符合软件模式发展趋势。商业模式上来看,借助数字化新营销,免费软件模式能够实现零成本广泛获客,通过服务订阅和商业软件转化。

SDS软件定义存储的核心是软件,支持部署在裸金属、私有云、公有云及混合云上。SDS的理想目标是,简单稳定好用低成本,发展方向是免费开源软件和SaaS公有云化。当然,纵观开源社区,免费开源的关键在于谁来主导,掌控者得大发展(比如Redhat,也有例外),跟随者吃点红利小发展。

 

7、竞争格局

国内SDS产品基于开源路线为主,Ceph占绝对多数,其他有Gluster和BeeGFS。几乎全部都是第一代容量型SDS,落后硅谷一代技术,自研产品少。以下竞争格局根据厂商公开资料和存储圈内资讯整理而成,如有出入敬请拨正。

巨头企业:

华为:FusionStorage(参考Ceph,块存储)、OecanStor 9000(参考Ceph,文件存储)

浪潮:AS13000(开源Ceph,重点是文件存储)

新华三:OneStor(开源Ceph,块和对象存储)

曙光:Parastor(自研,文件系统,HPC场景)

深信服:EDS(开源Gluster+Ceph,块存储、文件和对象存储)

 

初创公司:

TaoCloud:XDFS(开源Gluster,以文件存储为主),FASS(自研,新一代全闪块存储)

XSKY:SDS系列产品(开源Ceph,块和对象存储)

杉岩:SDS系列产品(开源Ceph,块和对象存储)

鹏云:ZettaStor DBS(自研,块存储)

霄云:BOSS(自研,统一存储)

焱融:YRCloudFile(开源BeeGFS,文件存储)

龙存:Loong系列(自研,文件系统,HPC场景)

 

8、未来展望

数字世界那么大,存储必然有好发展。

2020年可能是全闪存储发展元年,全闪存已经是大势所趋,国内市场会加速度发展。

新兴技术、产业升级、新基建、信创产业,新兴需求驱动细分应用感知智能存储发展。

第五代智能存储,业界基本形成共识,人工智能技术将颠覆存储技术走向新境界。

 

预测未来的最好方法是创造它,JUST DO IT!

你可能感兴趣的:(分布式存储,程序人生,数据存储,SDS,软件定义存储,分布式存储)