扩展云中的高性能并行文件系统

本文首发于HPC365官网:HPC365——超算的云桌面
摘要

在通向亿亿次计算的道路上,高性能并行文件系统是一个不可或缺的基础设施,可以使研究工作得以扩展。在全球的超级计算网站中,包括Lustre,BeeGFS和Gluster。以便在一系列环境(特定公共云和学术云)中可扩展地部署和调整每个并行文件系统,以探索用于高性能工作流的混合或纯云解决方案的可行性。这项工作将使这些系统符合一系列存储基准,包括Bonnie,IOzone,IOR和IO-500.

挑战

A.性能

虽然在多个服务器之间分配数据读写以扩展存储性能和带宽的概念是直观的,但各种文件系统设计可以通过其独特的体系结构在不同程度上得到利用。Lustre和BeeGFS通过将元数据和数据操作分离到不同的服务器来扩展,而像Gluster这样的分布式文件系统使用相同的节点,其中元数据和数据操作不分开。这些独特的架构需要设计考虑因素以实现最佳性能。这项工作的可交付成果是对这些考虑因素及其绩效结果或权衡的数据驱动,系统性的探索。
扩展云中的高性能并行文件系统_第1张图片
B.再现性

并行文件系统与底层资源无关,无论是裸机还是虚拟化、内部部署或云。通过评估设计考虑因素(例如,元数据与数据服务器的比率,每个服务器的CPU核心,文件条带设置,各个OS内核参数),我们将创建和优化基础架构作为代码实用程序,以自动化和配置存储系统的部署 本研究的目标。已有大型IT部署工具用于此类用途,例如Ansible或Puppet,用于大规模系统的配置管理。 在本实验过程中创建的部署代码将公开提供给科学计算社区。

机会

A.并行文件系统

Lustre,BeeGFS和Gluster是可扩展的存储解决方案,具有来自主要超级计算中心的丰富开发历史。就Lustre和BeeGFS而言,它们是2018年6月IO-500列表中排名最高的开源文件系统部署。Gluster表示使用分布式哈希表进行进一步研究的不同扩展方法。存储子系统组件的实例选择对整体性能至关重要。

公共和学术云提供了许多具有不同底层硬件实现的选项,这些都是实现最终性能的关键途径。我们的目标是探索云中构建的存储系统中的实例组合以及软件层的操作系统和文件系统配置。控制系统是使用默认配置的1PB,两个NSD节点GPFS设备。

B.基准

对文件系统进行基准测试可以被认为是一种具有多种工具和各种标准可供选择的艺术。虽然与实际应用程序性能并不一致,但是可接受的文件系统度量是输入/输出操作的第二次(IOPS),以及多次传输的各种文件的输入/输出操作。

在我们的研究中,我们打算使用这些指标,如Bonnie,IOzone或IOR等已建立的应用程序以及IO-500中的现代方法。我们还考虑了真实世界的科学工作流程,例如精确医学中的基因组变体调用(例如,GATK)和机器学习中的图像识别(例如,ResNet-50),如同相同工作流程的总运行时间所定义的那样,同时改变基础存储文件系统和配置。在我们的内部部署GPFS控制系统的初始测试中,我们在1,000次迭代中平均得到111,320±33,736 IOPS,模拟4 kB段中的512 kB文件。这些相同测试的最大顺序读取和写入带宽分别为30.2±7.1 Gbps和17.5±3.8 Gbps。在存储系统支持正常的生产工作负载的同时进行测试,因此代表了超额性能容量的实际平均值和进一步分析的基础。

你可能感兴趣的:(超算仿真)