文章时间:2021年11月前
会议/期刊:SC 2021
笔记时间:2021年11月17日周三
Session 网络
论文题目: SEEC: stochastic escape express channel
作者背景:Georgia Institute of Technology
论文地址:(https://dl.acm.org/doi/10.1145/3458817.3476140)
摘要:在移动到下一个路由器之前分配一个空闲缓冲区是noc中包移动的基本原则。为了解决线路头阻塞和避免死锁,通常采用虚拟通道(VC)的形式为网络通信中心提供大量的缓存资源,这些缓存资源消耗区域和功率。我们引入了随机逃逸快速通道(SEEC),以提高性能,并避免比最先进的noc缓冲区更少的死锁。SEEC中的网络接口定期发送称为搜索者的特殊令牌,以找到目的地为它们的数据包,并升级它们以使用一种称为Free-Flow (FF)的新型流量控制。ff包最低限度地遍历网络从一个链路到另一个链路,绕过路由器(无缓冲)到目的地。因此,ff包绕过NoC中的拥塞区域,而不需要更多的缓冲区。此外,在不需要回合限制或额外VCs的情况下,任何ff包最初涉及的死锁都可以被打破。我们还提出了一个名为Multi-Seec(MSEEC)的扩展,其使多个同时非交叉的FF数据包遍历进一步增强吞吐量。我们在一系列合成工作负载和真实应用中实现和评估SEEC和MSEEC,并观察到实际应用的平均数据包延迟的34--40%,以及吞吐量的吞吐量的平均改善10-50% - 现有技术在1/6的区域/电源预算。
论文题目:Flare: flexible in-network allreduce
作者背景:ETH Zurich, Zurich, Switzerland, Torsten Hoefler
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476178
摘要:allreduce操作是分布式应用程序中最常用的通信例程之一。为了提高它的带宽和减少网络流量,这个操作可以通过将它卸载到网络交换机来加速,交换机聚合从主机接收到的数据,并将聚合的结果发回给它们。然而,现有的解决方案提供了有限的定制机会,并且在处理稀疏数据的定制操作符和数据类型时,或者在关注聚合的再现性时,可能会提供不理想的性能。为了解决这些问题,在本工作中,我们设计了一个灵活的可编程交换机,使用一个实现sPIN编程模型的RISC-V体系结构作为构建块PsPIN。然后,我们设计、建模和分析在这个体系结构上执行allreduce的不同算法,显示出与最先进的方法相比的性能改进。
论文题目:HatRPC: hint-accelerated thrift RPC over RDMA
作者背景:The Ohio State University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476191
摘要:本文提出了一种新的基于Apache Thrift over Remote Direct Memory Access (RDMA)协议的提示加速远程过程调用(Remote Procedure Call, RPC)框架,称为HatRPC。HatRPC提出了一个分层提示方案,以优化异构RPC服务和功能。提出的提示设计由服务粒度和功能粒度的提示组成,以实现不同的优化目标,减少进一步优化底层RDMA通信引擎的设计空间。我们利用HatRPC和LMDB共同设计了一个名为HatKV的键值存储。HatRPC的有效性和效率是通过我们提出的Apache Thrift基准测试(ATB)、YCSB和TPC-H工作负载来验证和评估的。性能评估表明,与普通Thrift相比,所提出的HatRPC方法可以为ATB基准测试提供高达55%的性能改进,为TPC-H查询提供高达1.51倍的加速。此外,联合设计的HatKV可使YCSB的工作负荷提高85.5%。
Session 性能研究
1,
论文题目:Single-node partitioned-memory for huge graph analytics: cost and performance trade-offs
作者背景:Pacific Northwest National Lab,Washington State University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476156
摘要:由于成本的原因,非易失性内存nvdimm(如Intel Optane)在单节点大内存系统中很有吸引力。在使用Optane作为易失性内存进行大型图分析时,我们会评估性能和成本。我们研究了两个具有不同工作地点、访问模式和并行性的可伸缩图应用程序。我们评估单个和分区的地址空间——内存和AppDirect模式——并比较在gpu加速和基于cpu的超级计算机上的分布式执行
我们显示AppDirect可以比最大工作组(12%)更好地表现和缩放,即使在由不规则访问模式主导的情况下,如果大多数访问是Numa-Locate和Optane访问经常读取。令人惊讶的是,在内存和AppDirect之间,处理器 - 缓存性能可能由于行失效而变化;缓存策略的更新(通过非时间提示)可以提高25%。我们观察到单节点图分析经常具有> 4--10×成本/性能优势在超级计算机上的分布式存储器执行。
2,
论文题目:Accelerating applications using edge tensor processing units
作者背景:University of California
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476177
摘要:神经网络(NN)加速器已经被集成到广泛的计算机系统中,以适应人工智能(AI)和机器学习(ML)应用的快速增长需求。神经网络加速器共享为多维张量数据操作提供本地硬件支持的理念。因此,NN加速器是理论上的张量处理器,可以提高系统性能,以便任何使用张量作为输入/输出的问题。遗憾的是,商业上的NN加速器仅通过AI / ML特定的接口公开计算能力。此外,NN加速器揭示了很少的硬件设计细节,因此应用不能轻易利用张量操作NN加速器提供。
本文介绍了张量处理单元(GPTPU)的通用计算,开源开源,开源开放式架构框架,允许开发人员和研究社区发现NN加速器为应用程序启用的机会。GPTPU包括一个功能强大的编程接口,具有高效的运行时系统级支持 - 与GPGPU计算中的CUDA / OpenCL类似于CUDA / OpenCL - 以弥合应用需求和不匹配的硬件/软件接口之间的差距。
我们使用边缘张量处理单元(Edge TPUs)构建GPTPU机器,边缘张量处理单元是广泛使用的,也是许多商业NN加速器的代表。我们确定了几个新的用例,并重新讨论了算法。通过利用底层Edge tpu来执行基于张量算法的计算内核,我们的结果显示,GPTPU可以比高端cpu实现2.46的加速,并减少40%的能耗。
- 神威太湖之光中HPCG的大规模运行
论文题目:Enabling and scaling the HPCG benchmark on the newest generation Sunway supercomputer with 42 million heterogeneous cores
作者背景: 北京大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476158
摘要
我们研究并评估了最新一代神威超级计算机HPCG基准测试的性能优化技术。具体来说,提出了一种两级的阻塞方案,在保持较快的收敛速度的同时,在对称的Gauss-Seidel核中暴露足够的并行性,并开发了一种细粒度的核融合技术,以缓解小容量本地存储的带宽负载。提出了一种低开销的线程协作方法,有效地在线程之间移动数据,并通过数据传输操作来隐藏其成本。测试结果表明,优化后的HPCG代码能够利用73.0%的理论内存带宽,扩展到超过4200万个异构核,弱扩展效率为95.5%,性能为5.91 Pflop/s。我们还研究了在不完全遵守HPCG的具体规则的情况下如何提高性能,并设计了保持依赖关系的并行化和向量化方法,进一步将性能提高到27.6 Pflop/s。
Session 数据分析和存储系统
1,
论文题目:Error-controlled, progressive, and adaptable retrieval of scientific data with multilevel decomposition
作者背景:Missouri S&T,ORNL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476179
摘要:极端尺度模拟和高分辨率仪器产生的数据越来越多,这不仅给运行期间的数据存储带来了巨大的挑战,也给后期处理带来了巨大的挑战,在很长一段时间内,数据将被反复检索和分析。在满足广泛的事后分析需求的同时,尽量减少由不适当和/或过度的数据检索造成的I/O开销,这些挑战不应该被置之不理。在本文中,我们提出了一个数据重构、压缩和检索框架,能够1)细粒度的数据重构精度;2)根据不同的误差边界进行数据的增量检索和重组;3)针对不同的分析,自适应地进行多精度、多分辨率的数据检索。通过逐步的数据重组和适应性检索算法,我们的框架显著减少了在要求多个增量精度时的数据检索量和/或在使用粗分辨率时的下游分析时间。实验表明,在相同的渐进请求错误边界下,使用我们的框架检索的数据量比使用最先进的单错误边界方法少64%。通过对1024个核和总计约600gb数据的并行实验表明,我们的方法在写入持久性存储系统和从持久性存储系统读取数据时,分别比现有方法产生1.36×和2.52×的性能。
2,
论文题目:LogECMem: coupling erasure-coded in-memory key-value stores with parity logging
作者背景:华中科技大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3480852
摘要:内存中的键值存储通常用于提高现代HPC集群中的大数据工作负载。为了保持它们的高可用性,擦除编码最近被采用为一种低成本的冗余方案,而不是复制。然而,现有的擦除编码更新方案要么性能较低,要么内存开销较大。在本文中,我们提出了一种新的基于奇偶校验日志的架构,HybridPL,它创建了就地更新(数据和异或奇偶校验块)和基于日志的更新(其余奇偶校验块)的混合,以平衡更新性能和内存成本,同时保持有效的单故障修复。我们将HybridPL实现为一个名为LogECMem的内存中键值存储,并进一步设计了有效的多故障修复方案。我们对LogECMem进行了原型,并在不同的工作负载下进行了实验。我们证明LogECMem在保持高基本I/O和修复性能的同时,在低内存开销的情况下,比现有的擦除编码更新方案获得了更好的更新性能。
Session 存储和应用特征
1,
论文题目:Exploiting user activeness for data retention in HPC systems
作者背景:Texas Tech University,ORNL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476201
摘要:HPC系统通常依赖于固定生命周期(FLT)数据保留策略,该策略只考虑并行文件系统的数据访问的时间局域性。然而,我们基于领导级HPC系统跟踪的广泛分析表明,FLT方法往往无法捕捉用户行为的动态,并导致不必要的数据清除。在本研究中,我们提出了一种基于活动的数据保留(ActiveDR)解决方案,主张从整体的基于活动的角度考虑数据保留方法。通过评估用户活动的频率和影响,ActiveDR对不活动用户的文件清除流程进行优先级排序,并在并行存储上用延长的文件生命周期奖励活动用户。我们基于先前Titan超级计算机的痕迹进行的广泛评估表明,当达到相同的清除目标时,与当前的FLT保留方法相比,ActiveDR可实现高达37%的文件遗漏减少。
2,
论文题目:Pinpointing crash-consistency bugs in the HPC I/O stack: a cross-layer approach
作者背景:UIUC
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476144
摘要:我们提出了一个测试框架ParaCrash,用于研究在典型的HPC I/O栈中的崩溃恢复,并通过在各种并行文件系统(PFS)和I/O库中识别15个新的崩溃一致性错误来演示它的使用。ParaCrash使用一种“黄金版本”方法来测试整个HPC I/O堆栈:从崩溃中恢复后的存储状态,如果与不发生崩溃的部分执行所能达到的状态相匹配,那么存储状态就是正确的。它支持对多层I/O堆栈进行系统测试,同时正确识别出造成错误的层。
3,
论文题目:Characterization and prediction of deep learning workloads in large-scale GPU datacenters
作者背景:南洋理工
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476223
PS:这篇我翻到过
摘要:现代GPU数据中心对于研究界和业界提供深度学习(DL)模型和服务至关重要。在运行数据中心时,优化资源调度和管理可以带来显著的经济效益。实现这一目标需要深入了解工作特点和用户行为。我们提出了一个全面的研究特点的DL作业和资源管理。首先,我们对商汤科技的真实工作轨迹进行了大规模分析。我们从集群、作业和用户的角度揭示了一些有趣的结论,有助于集群系统的设计。其次,我们引入了一个通用的框架,它基于历史数据管理资源。作为案例研究,我们设计了(1)一种准最短服务优先的调度服务,该服务可将集群内的平均任务完成时间最小化至6.5×;(2)集群节能服务,提高集群整体利用率达13%。
Session 数据压缩和workflows
1,
论文题目:ndzip-gpu: efficient lossless compression of scientific floating-point data on GPUs
作者背景:University of Innsbruck, Austria
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476224
摘要:无损数据压缩是一种很有前途的软件方法,可以在不引入近似误差的情况下减少加速器簇上科学应用的带宽要求。适当的压缩器必须能够在使系统互连饱和的同时有效地压缩浮点数据,以避免引入不必要的延迟。
我们提出了ndzip- GPU,一种新颖的、高效的GPU并行方案,用于块压缩器ndzip,它最近在CPU浮点压缩速度上建立了一个新的里程碑。
ndzip-gpu结合了块内并行性和高效的内存访问模式,通过整数洛伦佐变换解关联多维数据,实现了高资源利用率。我们进一步引入了一种新的、高效的翘曲协同原语用于垂直钻头填充,提供了一个高吞吐量的数据缩减和扩展步骤。
使用一组有代表性的科学数据,我们比较了ndzip-gpu与其他五个现有的GPU压缩器的性能。当观察到任何压缩器的有效性强烈地依赖于数据集的特性时,我们证明ndzip-gpu为检查的数据提供了最佳的平均压缩比。在Nvidia Turing、Volta和Ampere硬件上,它实现了最高的单精度吞吐量,同时在双精度情况下保持了数据减少和吞吐量之间的良好权衡。
论文题目:Resilient error-bounded lossy compressor for data transfer
作者背景:UC,听过这个组的学术报告
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476195
摘要:当今的大规模科学应用或先进仪器正在产生大量的数据,这些数据需要通过带宽相对较低的网络/设备进行共享/传输(如广域网上的数据共享或从边缘设备传输到超级计算机)。有损压缩是解决大数据问题的候选策略之一。然而,几乎没有做什么工作来使它对静默错误具有弹性,这可能发生在压缩或数据传输阶段。在本文中,我们提出了一种基于SZ压缩框架的弹性误差有界有损压缩器。具体来说,我们设计了一个新的独立块模型,将整个数据集分解成许多独立的子块进行压缩。然后,针对SZ的各个阶段,精心设计并实现了一系列的错误检测/修正策略。我们的方法可以说是第一个基于算法的有损压缩容错(ABFT)解决方案。我们建议的解决方案在无错误的情况下产生的执行开销可以忽略不计。在发生软错误时,它确保解压后的数据严格限制在用户的需求范围内,压缩比的降低非常有限,开销也很低。
3,
论文题目:Productivity, portability, performance: data-centric Python
作者背景:ETH Zurich, Switzerland
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476176
摘要:Python已经成为科学计算的实际语言。用Python编程效率很高,主要是因为它围绕NumPy模块构建了丰富的面向科学的软件生态系统。因此,在高性能计算(HPC)中对Python支持的需求急剧上升。然而,Python语言本身并不一定提供高性能。在这项工作中,我们提出了一个工作流,它保留了Python的高生产率,同时实现了跨不同架构的可移植性能。工作流的关键特性是面向hpc的语言扩展和一组由以数据为中心的中间表示支持的自动优化。我们展示了CPU、GPU、FPGA和Piz Daint超级计算机(最高23328核)的性能结果和扩展,与之前的最佳解决方案相比,有2.47x和3.75x的加速,首次Xilinx和Intel FPGA注释Python的结果,在512个节点上的扩展效率高达93.16%。
Session 可扩展的IO和持久性内存
1,
论文题目:Online optimization of file transfers in high-speed networks
作者背景:University of Nevada
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476208
摘要:高速网络中的文件传输需要网络和I/O并行性来达到高速,然而,创建任意数量的I/O和网络线程会淹没系统资源并导致公平性问题。在本文中,我们介绍了Falcon,它结合了一个新的实用函数和最先进的在线优化算法来发现文件传输的I/O和网络并行度,可以在保持低系统开销和确保竞争传输之间的公平性的同时最大化吞吐量。我们对几个专用和生产高速网络的广泛评估表明,Falcon可以在短短20秒内找到接近最优的解决方案,比现有传输应用程序的性能高出2- 6倍。此外,不同于其他文件传输优化方案不能保证竞争传输之间的资源公平分配,当多个Falcon代理竞争网络资源时,借助其博弈论启发的效用函数,保证了Falcon收敛到纳什均衡。
2,
论文题目:Hardware-supported remote persistence for distributed persistent memory
作者背景:华中科技大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476194
摘要:持久内存(PM)的出现要求远程直接内存访问(RDMA)技术的发展,以支持远程数据持久性。以前的基于软件的解决方案需要远程CPU干预,并推迟了远程持久性的可见性。在本文中,我们设计了几个硬件支持的RDMA原语来将数据从RDMA网络接口卡(rnic)的易失性缓存刷新到PM。我们还提出了基于RDMA Flush原语的持久rpc,以支持远程数据持久性和快速故障恢复。我们通过其他RDMA原语来模拟RDMA Flush原语的性能,并将我们的建议与在一个配备了PM和InfiniBand网络的真实测试台上的几个最先进的rpc进行比较。实验结果表明,我们的方案可以将rpc的吞吐量提高高达90%,并将第99个百分位的延迟减少高达49%。实验研究也为设计基于rdma的分布式PM系统提供了指导。
3,
论文题目:Clairvoyant prefetching for distributed machine learning I/O
作者背景:ETH Zürich, Switzerland
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476181
摘要:I/O正在成为机器学习训练的主要瓶颈,特别是在分布式环境中。事实上,在大规模情况下,I/O需要85%的训练时间。解决这个I/O瓶颈需要仔细的优化,因为系统之间的最佳数据输入管道是不同的,并且需要在对本地存储、外部文件系统和远程节点的访问之间实现微妙的平衡。我们将介绍NoPFS,这是一种机器学习I/O中间件,它为I/O瓶颈提供了可伸缩、灵活和易于使用的解决方案。NoPFS使用clairvoyance:给定生成SGD训练的随机访问模式的种子,它可以准确预测样本将在何时何地被访问。我们将此与访问模式分析和性能模型相结合,以提供适应不同数据集和存储层次结构的分布式缓存策略。在ImageNet-1k、ImageNet-22k和CosmoFlow数据集上,NoPFS减少了I/O时间,并提高了高达5.4×的端到端训练。
Session 系统软件(1)
1,
论文题目:In-depth analyses of unified virtual memory system for GPU accelerated computing
作者背景:Clemson University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3480855
摘要:
在单独的CPU和GPU内存域上抽象共享内存空间减轻了许多HPC代码库的可移植性负担。但是,用户需要为系统管理的内存空间提供的易用性支付一定的性能开销。NVIDIA统一虚拟内存(UVM)目前是这种抽象的主要现实实现,并为UVM和未来Linux异构内存管理(HMM)兼容系统提供了一个功能等效的测试平台,以进行新的深入性能研究。对UVM和HMM的持续倡导推动了底层系统的改进。我们关注一个基于UVM的系统,并调查UVM开销的根本原因,这是一个非常重要的任务,因为多个硬件和软件组成部分的复杂交互以及有针对性的分析方法的需求。
在本文中,我们将深入研究UVM系统架构以及页面错误生成和服务的内部行为。我们使用目标基准来揭示特定的GPU硬件限制,以揭示驱动程序的功能,作为一个实时系统,当处理产生的工作负载。我们进一步提供了不同场景下各种应用程序的故障处理的定量评估,包括预取和超订阅。我们发现驱动工作负载依赖于应用程序访问模式、GPU硬件约束和主机操作系统组件之间的交互。我们认为主机操作系统组件的成本是巨大的,并且存在于各个实现中,值得密切关注。这项研究可以作为未来共享内存系统的代理,例如那些与HMM接口的系统。
2,
论文题目:Paths to OpenMP in the kernel
作者背景:美国东北大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476183
摘要:OpenMP实现对内核的要求越来越高。下一步,我们将考虑将OpenMP引入内核。我们的愿景是,将整个OpenMP应用程序、运行时系统和内核框架交织在一起成为内核,允许OpenMP实现以自定义的方式充分利用硬件。我们比较和对比了实现这一目标的三种方法。第一个是内核中的运行时(RTK),它将OpenMP运行时移植到内核,允许任何内核代码使用OpenMP pragmas。第二种,内核中的进程(PIK)添加了一个专门的进程抽象,用于在内核中运行用户级的OpenMP代码。第三种是自定义内核编译(CCK),它将OpenMP编译成一种无需任何中介就能利用内核框架的形式。我们描述了这些方法的设计和实现,并使用NAS和其他基准来评估它们。
3,
论文题目:Index launches: scalable, flexible representation of parallel task groups
作者背景:NVIDIA,LANL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476175
摘要:在现代基于任务的编程系统中,经常可以看到专门的语言构造,用于对打算并行执行的独立任务组进行推理。然而,大多数系统使用一种特别的表示方式,这种表示方式限制了表达能力,并且通常超出了给定应用程序域的范围。
我们引入了索引启动,它是一组任务的可伸缩和灵活表示。索引启动使用一种灵活的机制来指示给定任务所需的数据,允许它们用于更广泛的用例集,同时保持一种有效的表示。我们提出了一个索引启动的混合设计,包括静态和动态程序分析,以及它们如何在Legion和Regent中使用的特性,并展示了它们如何推广在其他基于任务的系统中发现的结构。最后,我们给出了可缩放的实验结果,证明了索引启动对于Regent中多个科学代码的高效分布式执行是至关重要的。
Session 系统软件(2)
1,
论文题目:Arithmetic-intensity-guided fault tolerance for neural network inference on GPUs
作者背景:CMU
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476184
摘要:神经网络(NNs)越来越多地应用于安全关键领域和易发生不可靠性(如软错误)的环境中,如航天器。因此,赋予神经网络推理容错性至关重要。基于算法的网络容错(ABFT)是网络系统容错的一种有效方法。
我们提出了一种用于神经网络推理的自适应ABFT方法,该方法利用了新兴部署场景中未开发的机会。gpu具有较高的计算内存带宽比率,而神经网络层具有广泛的计算强度。这使得一些层受到计算限制,而另一些层受到内存带宽限制,但目前的ABFT方法没有考虑这些差异。我们首先研究最适合这些场景的ABFT方案。然后我们提出强度引导ABFT,一种自适应、算法强度引导的方法,为每个神经网络层选择最有效的ABFT方案。与传统的ABFT方法相比,强度导向ABFT在许多神经网络上减少了1.09- 5.3倍的执行时间开销。
2,
论文题目:PEPPA-X: finding program test inputs to bound silent data corruption vulnerability in HPC applications
作者背景:University of Iowa
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476147
摘要:由于晶体管尺寸的缩小,瞬时硬件故障变得普遍,导致静默数据损坏(SDCs)。因此,需要对HPC应用程序进行评估(例如,通过故障注入),并对其进行保护,以满足可靠性目标。在评估中,目标程序使用一组给定的输入进行练习,这些输入通常来自程序基准套件。然而,这些输入很少显示出SDC漏洞,导致过度乐观的评估和生产中的意外高失败率。我们提出了Peppa-X,它可以有效地识别估计项目SDC弹性边界的测试输入。我们的关键见解是,在一个程序中,SDC的灵敏度分布在输入空间中通常保持不变。因此,我们可以通过抽样分布来指导sdc限制输入的搜索。我们的评估表明,Peppa-X可以识别现有方法即使多5倍的搜索时间也无法找到的程序的sdc限制输入。
3,
论文题目:Cuttlefish: library for achieving energy efficiency in multicore parallel programs
作者背景:印度理工,伯克利
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476163
摘要:低上限的电力预算对百亿亿次计算来说是一个挑战。动态电压和频率缩放(DVFS)和Uncore频率缩放(UFS)是用于限制HPC应用程序的能源足迹的两种广泛使用的技术。然而,现有的方法无法提供一个统一的解决方案来处理不同类型的并行编程模型和应用程序。
本文提出了Cuttlefish,一个编程模型无关的C/ c++库,用于在Intel处理器上运行的多核并行程序中实现能源效率。在线分析器定期分析特定于模型的寄存器,以发现正在运行的应用程序的内存访问模式。通过DVFS和UFS的组合,Cuttlefish动态调整处理器的核心和非核心频率,从而提高其能源效率。在20核Intel Xeon处理器上进行的评估使用了一组广泛使用的OpenMP基准,包括几个非常规任务和工作共享实用程序,实现了19.4%的几何平均节能,降低了3.6%。
Session 文件系统
1,
论文题目:Simurgh: a fully decentralized and secure NVMM user space file system
作者背景:德国古德堡大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476180
摘要:
非易失性主存(NVMM)的可用性为存储系统开启了一个新时代,特定于NVMM的文件系统可以支持极高的数据和元数据速率,这是许多HPC和数据密集型应用程序所需要的。然而,在NVMM文件系统中扩展元数据性能常常受到Linux内核存储堆栈的限制,而简单地将元数据管理移到用户空间会损害安全性或灵活性。
本文介绍Simurgh,它是一个硬件辅助的用户空间文件系统,具有分散的元数据管理,允许在用户空间内进行安全的元数据更新。Simurgh保证了更新的一致性、持久性和次序,同时又不牺牲可伸缩性。安全性是通过只允许受保护的用户空间函数访问NVMM来实现的,这可以通过两个建议的指令来实现。与其他NVMM文件系统的比较表明,与速度第二快的文件系统相比,Simurgh将元数据性能提高了18倍,应用程序性能提高了89%。
2,
论文题目:Lunule: an agile and judicious metadata load balancer for CephFS
作者背景:中科大,许老师的组,李诚老师
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476196
摘要:十多年来,Ceph分布式文件系统(cepfs)被广泛应用于从互联网服务到人工智能计算等许多关键领域,服务于日益增长的大数据。为了扩展海量元数据的访问,cepfs采用了动态子树分区的方法,将命名空间分层拆分,并将子树分布在多个元数据服务器上。然而,由于不准确的不平衡预测、忽略工作负载特征和不必要/无效的迁移活动,该方法存在严重的不平衡问题,可能导致性能低下。
为了消除这些低效,我们提出了一个新的CephFS元数据负载均衡器Lunule,它使用了一个不平衡因子模型来精确地决定何时触发重新平衡和容忍良性的不平衡情况。Lunule进一步采用了工作负载敏感的迁移计划器来适当地选择子树迁移候选对象。与基线相比,Lunule实现了更好的负载平衡,将元数据吞吐量提高了高达315.8%,并将5种实际工作负载及其混合情况下的尾任务完成时间缩短了64.6%。此外,Lunule能够处理元数据集群的扩展和客户端工作负载的增长,并在16个mds的集群上线性扩展。
3,
论文题目:DeltaFS: a scalable no-ground-truth filesystem for massively-parallel computing
作者背景:CMU
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476148
摘要:
高性能计算(HPC)以其大规模并发性的使用而闻名。但是,当每个客户端进程都必须与其他客户端的元数据突变进行全局同步和序列化时,并行文件系统的控制平面要利用核心可能是一个挑战。我们提出了DeltaFS,一种分布式文件系统元数据的新范式。
DeltaFS允许作业将其名称空间更改自我提交到日志,从而避免了全局同步的成本。后续作业根据需要选择性地合并以前作业产生的日志,我们将这一原则称为No Ground Truth,它允许高效的数据共享。通过避免不必要的元数据操作同步,DeltaFS利用作业进程所在节点上的并行性将元数据操作吞吐量提高到98X。这种加速随着工作规模的增加而增长。DeltaFS支持高效的作业间通信,通过显著提高客户端元数据操作的延迟(最高可达49X)和资源使用(最高可达52X)来减少总体工作流运行时。