浅谈VAST DATA公司

浅谈VAST DATA公司

    • 1. 概述
    • 2. White Paper
      • 2.1 Why Universal Storage
      • 2.2 Defining Universal Storage
      • 2.3 New Tech Lay A New Storage Fondation
      • 2.4 DASE(DisAggregated Shared Everything)

导师让了解一下VAST DATA这家企业,不知道要干嘛,看了一下它的白皮书,很多东西还是不太了解。不过总体架构还是能够基本理解,这里简单记录一下。

浅谈VAST DATA公司_第1张图片

1. 概述

  • 理念:全闪存消灭机械硬盘

  • 思路:Universal Storage避免存储分层,采用最便宜的QLC介质(四层存储单元,Quad-Level Cell),利用独特的数据保护和缩减技术,成本可以做到硬盘的水平

  • 架构:控制器采用容器技术部署,全部都是无状态的,可以扩充到1000个节点,后端通过NVMe-oF网状连接闪存框,闪存框里面有少量的SCM做写Cache,后面插大量的QLC盘。这种架构的好处就是容量和性能可以单独扩展,有分布式存储的好处,但是和一般的SDS不同的就是,控制框可以看到所有的SSD盘,这得依赖NVMe-oF。
    浅谈VAST DATA公司_第2张图片

  • 关键技术:回答以下问题

    • QLC的写寿命那么差,如何支持生产系统?

      寿命方面:系统通过NVMe-oF可以看到所有QLC Flash,做全局磨损均衡。

      保护方面:使用长条带,分组生成额外冗余位减少坏盘重构时间。在SCM里面做快速构建。

    • 还有,QLC的介质虽然可以采用消费级颗粒,但单位成本还是要比硬盘高啊?

      长条带实现高达98%的得盘率

    • 如何在数据缩减上下功夫,使得有效成本低于硬盘?

      传统重删和压缩:传统重删一般是KB粒度,不能基于Byte做重删;传统压缩基于Byte,但不是全局的

      VAST提出的数据缩减方案:全局去重、算指纹,相似指纹做压缩。

2. White Paper

2.1 Why Universal Storage

  • 用户需要把数据拷贝到相应的存储层去,用户不友好;
  • 自动化数据管理框架也不能简化“Where is my data ?”这个问题,频繁地移动数据对资源、性能都是一种损耗;
  • 数据全局化才更好,特别是对于AI训练来说,而不是局限在某个Flash层上;

2.2 Defining Universal Storage

  • 速度快,可以达到传统或现代应用需求
  • 可拓展
  • 成本低
  • 易访问

2.3 New Tech Lay A New Storage Fondation

  • Hyperscal Flash

浅谈VAST DATA公司_第3张图片

  • Stateless Containers

    无状态容器通过NVMe-oF网络连接到存储设备上,使得① 部署方便② 可靠性更强;

  • Storage Class Memory(SCM,3D-XPoint)

    SCM以其低写入延迟、较长的持久能力,而被作为写缓冲、全局元数据存储的存储介质,优势在于:

    • 写延时优化:在SCM种可以做数据缩减、全局磨损均衡,避免高QLC写入延迟
    • 写寿命优化:SCM具有长期存储能力,避免temp数据对QLC造成不必要的磨损
    • 数据保护性能优化:合并写入,一次性写到QLC中,避免QLC
    • 数据缩减索引优化:作为元数据存储容器,提供全局压缩字典,避免将索引数据拷贝到DRAM中
  • NVMe-over-Fabric(NVMe-oF)

    高速,可实现存算分离

    为什么要实现存算分离?因为存算一体不容易扩展,不灵活,且不容易做到全局数据缩减,以及数据保护(RAID)。

2.4 DASE(DisAggregated Shared Everything)

浅谈VAST DATA公司_第4张图片
DASE结构是VAST的架构,它依靠NVMe-oF连接实现存算分离,如上图。这是一种全局结构,其各个技术点在前文已基本描述,不再赘述。

你可能感兴趣的:(杂记,VAST,DATA,存储,分布式存储,存算分离)