使用Alluxio和Intel® Optane™持久内存加速和扩展大数据分析

国际数据公司(InternationalData Corporation, IDC)报告称,全球数据容量将从2018年的33 ZB(zettabytes)增长到2025年的175 ZB。随着数据增长的多样性和快速性,这种趋势变得越来越复杂,并且它还不断改变着数据收集,存储,处理和分析的方式。基于机器学习、深度学习、人工智能(AI)、新架构、新工具等方法的新分析解决方案正在开发中,以便从庞大的数据领域中提取和交付价值。

在这些解决方案中,计算和存储的分离架构变得越来越有吸引力,因为它使得公司能够独立扩展存储容量以便匹配计算的增长率,从而减少了资产支出和运维支出。但是,这种分离架构会引起某些类型工作负载的性能损失。我们之前的工作表明,由于常用的云适配器不支持事务写入,因此计算和存储的分离可能导致性能下降60%。

Intel® Optane™持久内存(Persistent Memory, PMem)是一项创新的内存技术,它引入了一个介于内存和存储之间的新类别,将可负担的大容量与对数据持久性的支持完美地结合在一起。用户能够在可承受的成本范围内构建更大的持久性内存层,为各种工作负载提供灵活的(包括易失性或非易失性)高性能存储层,包括但不限于云中虚拟机,内存数据库等。Intel®Optane™持久内存有两种不同的操作模式:Memory模式和APP Direct模式。

我们构建了一个由Alluxio和Intel Optane持久内存组成的新解决方案,并运行了一些测试性能的基准。您可以在下文找到相关的概述和结果。此外,您可以在我们编写的白皮书中获得更多详细信息。

Alluxio + Intel Optane持久内存

Alluxio和Intel的联合PMem层解决方案使得公司能够将本地仓库和云数据仓库统一到一个基于云的数据层中,提高了数据的可访问性和弹性,同时消除了对副本的需求,从而降低了复杂性和成本,提高了速度和灵活性。新的PMem层可以加速数据访问并消除数据瓶颈。

Alluxio作为一个位于计算与存储之间的开源编排层,可以通过使数据靠近计算来帮助提高各种工作负载的性能。借助Alluxio智能多层级架构,Intel® Optane™ PMem非常适合构建基于PMem的层,从而进一步提高性能和降低成本。我们的工作表明,AlluxioPMem层在相同成本的配置下展示了比DRAM层显著的性能提升:在SoAD模式下,PMem层相比不使用缓存配置速度提升2.13倍,在4TB决策支持工作负载的情况下(parquet格式)相比DRAM层速度提升1.92倍;在Memory模式下,PMem层相比不使用缓存配置速度提升1.24倍,在4TB决策支持工作负载的情况下相比DRAM层速度提升1.12倍[DMH1](parquet格式)。

基准与设计

Alluxio PMem层的设计

Memory模式下的旧版存储API,使用旧版存储API的应用程序不需要修改代码,这使得SoAD模式和Memory模式的PMem非常适用于Alluxio的智能多层级架构。利用Alluxio当前架构,通过在Memory模式下将其配置为内存层,在SoAD模式下将其配置为SSD层,可以轻松地在Alluxio中启用Intel®Optane™PMem。与DRAM相比,更大的容量使得Alluxio PMem层在Memory模式下可以缓存更多数据与增加更多工作负载。与SSD相比,更高的吞吐量使得Alluxio PMem层在SoAD模式下提供了更高的吞吐量。这个新的基于PMem的层为Alluxio创建了一个高性能、低成本的存储层。

Alluxio PMem层的性能

为了评估PMem层的性能,我们在一个由两个计算节点和三个存储节点构建的五节点环境中进行了多项不同配置的测试。每个计算节点都配备了两个Intel®Xeon® gold 6240处理器,并配备了相同成本的不同DRAM和PMem,以便进行ISO成本比较。对于DRAM,使用24x 32GB内存;对于PMem,使用8x 128GB PMem。对于存储节点,每个节点都配置了11个1TB硬盘用作数据存储。Ceph被用作分离对象存储系统,通过s3a连接器连接到Hadoop环境。Hadoop 3.1.2和Spark 2.3.0部署在计算节点上。下图显示了系统的拓扑结构。
使用Alluxio和Intel® Optane™持久内存加速和扩展大数据分析_第1张图片

测试方法

决策支持工作负载是一种典型的工作负载,可对决策支持系统的多个方面进行建模,包括查询和数据维护。我们为测试选择了54个代表Hadoop中典型SQL查询行为的查询。测试包括三种不同的配置:不使用Alluxio、PMem上的Alluxio、DRAM上的Alluxio。PMem的测试采用SoAD模式和Memory模式。进行了多轮测试,并选择中位数结果以降低结果差异。下图为SoAD模式下Alluxio PMem层的性能表现
使用Alluxio和Intel® Optane™持久内存加速和扩展大数据分析_第2张图片

Alluxio PMem层(SoAD模式)相比不使用缓存配置速度提升2.13倍,在4TB决策支持工作负载的情况下(parquet格式)相比DRAM层速度提升1.92倍。

您可以在我们的白皮书中查看更多的基准信息,包括配置和结果。我们希望它对您有帮助!

你可能感兴趣的:(spark,hadoop,大数据)