揭秘全闪|千万级IOPS的超高性能是如何实现的?

1、 概述

1.1. 产品简介
FASS是大道云行面向高IO密集型应用场景,完全自主研发的分布式全闪存存储系统。基于高效的分布式存储软件设计和高性能的全闪存硬件平台,FASS可将多个节点的SSD资源通过高速以太网或Infiniband网络组成一个高性能、高可用、易扩展块存储资源池。通过iSCSI、iSER、NVMeoF存储接口,可广泛应用于如下各类高IO性能要求业务场景。
揭秘全闪|千万级IOPS的超高性能是如何实现的?_第1张图片

  • 强大的性能

FASS采用主流的服务器硬件和全NVMe硬盘配置,通过软件层面先进的体系结构设计、微控制器并行流水线设计、多级元数据索引管理,实现了三节点千万级IOPS、100us级延迟的强大性能。

  • 可靠的架构

FASS采用全对称分布式架构,可实现多节点的IO均衡与叠加,结合多副本、纠删码、快照等冗余与数据备份机制,消除了存储系统的单点故障,也保证了可靠的存储服务输出。

  • 大规模扩展

FASS的分布式集群支持3-512 scale out扩展,单卷可达32PB容量。通过数据分布与元数据管理的自动负载均衡,实现存储与计算的按需扩展,满足业务动态发展的苛刻要求。
揭秘全闪|千万级IOPS的超高性能是如何实现的?_第2张图片
△FASS产品概览

1.2. 设计哲学
性能驱动
定位于下一代全闪存存储产品,FASS的核心理念即性能驱动一切。

由于标准的操作系统并非为高性能IO模式设计,其任务调度、内存管理、系统调用在高并发IO场景下非常低效,成为全闪存储性能的最大瓶颈。

FASS团队很早就意识到了这个问题,开发了独有的XPE加速引擎以取代OS的低效调度,结合高效的微控制器模型,全NVMe软硬件设计,使得在有限硬件条件下,FASS也能发挥出超高的IOPS和延时性能。

软件定义
TaoCloud始终贯彻软件定义存储的理论,通过极致优化的存储软件,搭载配置合理的标准X86硬件,可以做到三节点千万级IOPS的惊人性能。软硬件解耦可以给各类数据中心带来更好的灵活性与经济性,有利于各类高性能云基础设施的建设。

分布式体系
FASS的数据与元数据管理都采用分布式模型设计,带来了极高的可靠性,从磁盘到物理节点到网络,都可以实现有效冗余,在各类故障情况下,保障数据以及元数据的完整性与高可用。

2、 原理架构

FASS基于标准服务器硬件设计了高性能的分布式块存储体系。
揭秘全闪|千万级IOPS的超高性能是如何实现的?_第3张图片

各个节点通过高速网络连接形成存储集群,FASS软件服务将各个节点上的高速SSD介质、CPU、内存等资源抽象整合,对外输出成单一块存储资源池,提供高速块存储服务。

2.1逻辑架构
FASS可以部署在主流的Linux环境,如CentOS、Redhat、Ubuntu、SUSE等,也已适配银河麒麟、深度等国产Linux操作系统。每个物理节点都需要安装FASS的suzaku软件服务。通过对各节点存储资源的管理与整合抽象,以逻辑存储卷的方式为对上层提供iSCSI/iSER、NVMeoF块存储服务和访问接口和统一管理控制。

FASS平台管理层支持提供命令行访问控制接口和REST API,并集成到Web GUI对整个存储集群进行节点管理、用户管理 、访问管理、存储空间管理、缓存管理、快照管理、监控管理等。
揭秘全闪|千万级IOPS的超高性能是如何实现的?_第4张图片
△FASS逻辑架构

FASS通过ETCD模块实现高可用集群管理,主要用于共享配置和服务发现,从而实现在故障情况下的重新选举、自动切换等高可用特性。硬件上,FASS支持部署于X86服务器或国产CPU硬件平台,如飞腾、申威、海光等服务器平台,推荐采用全NVMe SSD硬盘配置,以发挥FASS的最佳性能。集群最低三节点起配,硬件拓扑上包含三层网络:存储网络、业务网络和管理网络。

集群所有节点通过高速网速(推荐100GbE/200GbE RoCE或Infiniband)互联,以实现节点间的协作与数据分布与转移。业务网络提供存储访问,该网络的带宽建议与存储网络带宽一致。管理网络主要负责管理监控、配置维护,采用普通千兆网络即可。
揭秘全闪|千万级IOPS的超高性能是如何实现的?_第5张图片
△FASS硬件组网参考(注:实际部署建议配置冗余网络)

3、 定位与对比

3.1传统分布式存储
传统分布式存储产品受限于底层架构的设计,很多分布式存储无法实现对NVMe、RDMA等技术的有效支持,也未能针对闪存进了有效的软件优化,因而即使采用全闪存配置,也无法发挥硬件真正的性能。

3.2全闪存阵列
全闪存阵列(AFA)仍然属于存储阵列范畴,采用控制器架构并集成存储管理软件,以scale up为主要扩展方式。

AFA虽然一定程度提高了性能,但是成本高昂、灵活性差、扩展性低。随着闪存单盘性能突破100万IOPS,控制器是最大的性能瓶颈,scale up对于闪存性能是一种极大的浪费。

3.3分布式全闪存储
12块NVMe SSD硬盘即可耗尽一颗Intel CPU的全部lane,控制器或存储节点的计算能力,成为了全闪存储的最大瓶颈,Scale out是全闪存储的必然选择。随着高速网络、RDMA技术的成熟应用,us级的外部网络的延时使得跨节点扩展已经不再是全闪存储的瓶颈。

分布式全闪存储系统在标准硬件基础上,通过优秀的软件核心对硬件性能的极致压榨与叠加,可以更好实现高性能的SDS存储系统。
揭秘全闪|千万级IOPS的超高性能是如何实现的?_第6张图片
△对比分析

4、 总结展望

全闪存不只是SSD的堆叠,还需要从根本上去解决中国用户应用全闪存的痛点。高性能、高可用、高扩展、易管理,这些存储需求无法通过传统烟囱式模式以及简单的Scale-up纵向扩展来很好地解决。从全闪阵列到分布式,从分布式到全闪,这是殊途同归的,终极目标是分布式全闪系统,兼取闪存和分布式的长板,根本上解决云计算、大数据、人工智能等应用场景下面临的存储新挑战。

5、 参考资料

FASS技术白皮书(完整版)下载
欢迎乘坐FASS磁悬浮列车,下一站全闪时代
【POC邀请】您的存储集群需要FASS一下

你可能感兴趣的:(分布式存储技术博客,数据库,分布式)