SC21 论文简读[4] - 专业学科向

文章时间:2021年11月前
会议/期刊:SC 2021
笔记时间:2021年11月17日周三

Session 高性能数值方法

1,
论文题目:Reverse-mode automatic differentiation and optimization of GPU kernels via enzyme
作者背景:MIT CSAIL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476165

摘要:
计算导数是科学计算和机器学习中的许多算法的关键,如优化、不确定性量化和稳定性分析。Enzyme是一个LLVM编译器插件,它执行反向模式自动微分(AD),从而生成高性能的程序梯度语言,包括C/ c++、Fortran、Julia和Rust。在此之前,Enzyme等AD工具无法生成GPU内核的梯度。我们的论文提出了一种新技术的组合,使Enzyme成为第一个全自动反向模式AD工具,以生成GPU内核的梯度。由于不同于其他工具,Enzyme在通用编译器中执行自动区分,我们能够引入几个新颖的GPU和特定于ad的优化。为了展示我们方法的通用性和效率,我们计算了5个基于gpu的HPC应用程序的梯度,这些应用程序在NVIDIA和AMD gpu上执行。所有基准测试都在原始程序执行时间的一个数量级内运行。如果没有GPU和特定ad的优化,GPU内核的梯度要么无法在缺乏资源的情况下运行,要么有不可行的开销。最后,我们证明了通过增加线程数量或增加每个线程的工作来增加问题的大小,并不会实质上影响差异化带来的开销。

2,
论文题目:Overcoming barriers to scalability in variational quantum Monte Carlo
作者背景:University of Michigan
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476219

摘要:
变分量子蒙特卡罗(VQMC)方法由于其克服多体量子系统固有维数诅咒的能力,近年来受到了广泛的关注。VQMC和新出现的混合量子-经典变分量子算法计算范式之间存在着密切的平行关系。VQMC通过对参数化量子态进行蒙特卡罗采样的交替步骤,然后进行基于梯度的优化,克服了维数诅咒。虽然VQMC已经被应用于解决高维问题,但众所周知其难以并行化,主要是由于马尔可夫链蒙特卡罗(MCMC)采样步骤。在这项工作中,我们探索了当使用具有精确采样的自回归模型来代替MCMC时,VQMC的可扩展性。这种方法可以在采样任务中利用分布式内存、共享内存和/或GPU并行性而没有任何瓶颈。特别地,我们演示了VQMC的gpu可扩展性,可用于解决多达10000维的组合优化问题。

3,
论文题目:3D acoustic-elastic coupling with gravity: the dynamics of the 2018 palu, sulawesi earthquake and tsunami
作者背景:德国慕尼黑科技大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476173

摘要:我们提出了一个高度可伸缩的地震破裂和海啸产生的三维全耦合地球和海洋模型,并首次对实际地震海啸事件进行了完全耦合模拟,并对大型逆冲断层动态地震破裂产生海啸的三维基准问题进行了模拟。多千万亿次模拟,在三个不同的平台上演示了出色的性能,允许进行高分辨率的正向建模。我们最大的网格有≈2610亿自由度,至少能分辨15赫兹的声波场。我们自洽地模拟了地震、声波和表面重力波在弹性(地球)和声学(海洋)材料中的传播。从而深入了解海啸的产生过程,而不依赖于以前应用于解决这一挑战性问题的近似方法。采用自适应非结构四面体网格对复杂几何图形进行离散化,包括高分辨率测深、海岸线和分段地震断层。这不可避免地导致了元素大小和波速的巨大差异,可以通过ADER局部时间步进和不连续Galerkin离散化来缓解这种差异,从而在时间和空间上获得高阶精度。

Session 计算生物学

1,
论文题目:Accelerating large scale de novo metagenome assembly using GPUs
作者背景:Lawrence Berkeley National Laboratory
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476212

摘要:
宏基因组工作流程包括直接从环境中研究未培养的微生物。这些环境样本经现代测序机处理后,产生的庞大而复杂的数据集超过了宏基因组软件的能力。数据集的不断增加的大小和复杂性为能够亿亿级的元基因组汇编器提供了一个强有力的例子。然而,底层的算法主题并不适合gpu。这是一个挑战,因为大多数下一代超级计算机将主要依赖gpu进行计算。
在本文中,我们提出了第一个gpu加速本地装配方法的实现,该方法是广泛使用的大规模元基因组装配程序MetaHipMer的组成部分。本地装配使用的算法会导致随机内存访问和不确定性的工作负载,这使得GPU卸载成为一项具有挑战性的任务。我们的GPU实现比CPU版本的性能高出约7倍,在64个Summit节点上运行时,MetaHipMer的性能提高了42%。

2,
论文题目:FastZ: accelerating gapped whole genome alignment on GPUs
作者背景:普渡大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476202

摘要:认识到全基因组比对(WGA)的重要性,美国国立卫生研究院(National Institutes for Health)维护了连续WGA应用程序LASTZ。随着基因组数据的增长,迫切需要可扩展的、高性能的WGA。不幸的是,高灵敏度,'间隙'对齐使用动态规划(DP)是缓慢的,而更快的对齐与无间隙滤波通常不太敏感。我们开发了FastZ,一个gpu加速的,间隙的WGA软件,在灵敏度上与间隙的LASTZ相匹配。FastZ采用了一种新颖的检查器-执行器方案,其中(a)轻量级检查器省略了DP回溯,除了通常情况下的极短对齐,检查器执行有限的、热切的回溯以消除执行器,(b)执行器缩减避免了不必要的工作。此外,FastZ采用基于寄存器的循环缓冲极大地减少内存流量,并按大小将DP问题分组以实现负载平衡。FastZ运行在RTX 3080 GPU上,而我们的LASTZ多核实现分别比连续的LASTZ加速111倍和20倍。

3,
论文题目:Scalable FBP decomposition for cone-beam CT reconstruction
作者背景:日本 ,RIKEN
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476139

摘要:滤波反投影(FBP)是一种用于层析图像重建的基本计算密集算法。锥形束计算机断层扫描(CBCT)设备使用锥形x射线束,与旧一代CT使用的平行束相比。锥束数据集的分布式图像重建通常依赖于将成批图像划分到不同的节点。然而,这种简单的输入分解会限制输入/输出大小和可伸缩性。

提出了一种新的分布式FPB分解和重构算法。该方案允许任意大的输入/输出大小,消除了端到端管道中产生的冗余,并通过只用一个分段减少替换两个通信集合来提高可伸缩性。最后,我们在一个适用于所有当前一代CT设备(第7代)的框架中实现了所提出的分解方案。在我们使用多达1024个gpu的实验中,我们的框架可以在不到16秒(包括I/O)的时间内为真实数据集构建40963个卷。

Session 计算流体力学CFD

1,
论文题目:Preparing an incompressible-flow fluid dynamics code for exascale-class wind energy simulations
作者背景:National Renewable Energy Lab
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476185

摘要:美国能源部已经确认,百亿亿级风电场模拟是风能科学发现的关键。ExaWind项目的一个主要目标是构建高性能、预测性计算流体动力学(CFD)工具,以满足这些建模需求。GPU加速器将作为下一代的超级计算机的计算良种。在这里,我们报告我们的努力准备ExaWind非结构化网格求解器,Nalu-Wind,为exascale类机器。对于这种规模的计算,一个简单的不可压缩流算法端口到gpu是不够的。为了实现高性能,需要新的算法,应用感知,内存高效,并为最新一代GPU设备优化。我们努力的结果是风力涡轮机的非结构化网格模拟,可以有效地利用数千个gpu。特别地,我们使用代数多重网格求解器在Summit超级计算机上演示了一种史无前例的不可压缩流模拟,该解算器的规模超过4000个gpu。

2,
论文题目:Scalable adaptive PDE solvers in arbitrary domains
作者背景:Iowa State University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476220

摘要:高效、准确地模拟任意几何形状及其周围的偏微分方程(PDEs),特别是具有高水平的自适应,对不同的应用领域具有重要意义。上述过程中的一个关键瓶颈是快速构建一个“良好的”自适应细化网格。在这项工作中,我们提出了一种高效的基于八叉树的自适应离散化方法,能够从父域中雕刻出任意形状的空洞区域,这是围绕复杂物体进行流体模拟的基本要求。雕刻物体会产生一个不完整的八叉树。我们开发了高效的自顶向下和自底向上遍历方法来执行不完整八叉树的有限元计算。我们通过(a)显示适当的收敛分析和(b)计算大范围雷诺数(O(1 - 106))的通过球体的阻力系数来验证该框架,其中包括阻力危机机制。最后,我们将框架部署在一个当前项目的现实几何上,以评估COVID-19在教室中的传播风险

3,
论文题目:A next-generation discontinuous galerkin fluid dynamics solver with application to high-resolution lung airflow simulations
作者背景:德国大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476171

摘要:
基于不可压缩Navier-Stokes方程的高阶不连续Galerkin离散化,提出了一种新颖的、高度可扩展的、优化的紊流求解器,以最小化求解时间。求解器采用显式-隐式时间积分,步长可变。算法的核心部分是离散有限元算子的无矩阵求值。节点级性能通过张量积元素的和因子核优化,具有独特的算法选择,减少了算术操作的数量,提高了缓存的使用,并向量化了跨元素和面的算术工作。这些成分被集成到一个可扩展到超级计算机的大规模并行的框架中,通过使用最优复杂性线性求解器,如混合精度,混合几何-多项式-代数多重网格求解器的压力泊松问题。考虑的应用问题是机械通气条件下的人体呼吸系统的流体动力学模拟,使用非结构化/结构化自适应精细网格,用于生物医学工程典型的几何复杂领域。

Session 材料科学

1,
论文题目:Enabling large-scale correlated electronic structure calculations: scaling the RI-MP2 method on summit
作者背景:澳国立
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476222

摘要:二阶Møller-Plesset微扰理论使用恒等分辨率近似(i - mp2)是一种精确估计多体电子相关效应的最先进的方法。这对于预测复杂分子系统的物理化学性质至关重要;然而,这些计算的规模受到其极高的计算成本的限制。本文提出了一种新的多gpu算法和基于分子碎片的RI-MP2方法的实现,能够在12分钟内使用整个Summit超级计算机对超过18万个电子和4.5万个原子进行相关计算。与其他当前的GPU和CPU代码相比,该实现显示了显著的提速,在Summit上具有出色的强大可扩展性,在4600个节点上实现了89.1%的并行效率,并显示了近乎理想的弱扩展到612个节点。这项工作使得在大型超级计算机系统和商品集群上进行比以往更大的分子尺度上的从头开始相关量子化学计算成为可能,并有可能对化学、物理、生物和工程科学的进展产生重大影响。

2,
论文题目:Accelerating all-electron ab initio simulation of raman spectra for biological systems
作者背景:清华大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476160

摘要:拉曼光谱提供化学和成分信息,可作为各种材料的结构指纹。因此,包括量子微扰分析和基态计算在内的拉曼光谱模拟具有重要意义。然而,高精度的全量子力学(QM)模拟拉曼光谱以前仅限于小系统。对于像生物材料这样的大型系统,全质量管理模拟的计算成本是非常高的,并且它们的扩展仍然具有挑战性。在这里描述的工作中,通过使用鲁棒的新算法和实现多核架构的进展,我们能够执行快速、准确、大规模并行的全从头开始模拟生物系统的拉曼光谱,具有优秀的强和弱标度,从而为将质量管理方法应用于此类系统的结构研究提供了一个起点。

3,
论文题目:MFF: efficient and scalable layered materials force field on heterogeneous many-core processors
作者背景:山东大学,无锡超算中心
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476137

摘要:
LAMMPS是目前最流行的分子动力学(MD)组件之一,广泛应用于物理、化学和材料模拟等领域。层状材料力场(Layered Materials Force Field, LMFF)是我们在LAMMPS中Tersoff势和层间势(interlayer potential, ILP)基础上对LAMMPS势函数的扩展。LMFF旨在研究层状材料,如石墨烯和六氮化硼。
它是通用的,不依赖于任何平台。我们还对LMFF进行了一系列优化,优化工作是在新一代神威超级计算机SWLMFF上进行的。实验表明,该方法具有良好的可扩展性和可移植性。当通用LMFF被移植到Intel Xeon Gold 6278C,实现了2倍的性能改进。与最初的ILP和Tersoff电势相比,优化后的SWLMFF的总体性能提高了近200- 330X。在270万个原子的弱标度条件下,SWLMFF具有95% ~ 100%的并行效率。SWLMFF模拟的最大原子系统接近231个原子。并且可以在一天内实现纳秒级的模拟。

Session 数值离散化

1,
论文题目:Temporal vectorization for stencils
作者背景:中科院 张云泉
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476149

摘要:Stencil计算代表了科学和工程应用中非常常见的一类嵌套循环。利用现代cpu中的向量单元是实现最高性能的关键。以前的向量化方法通常考虑数据空间,特别是最内层的单位跨步循环。由于连续模板计算之间的数据共享,导致矢量负载重叠,这导致了众所周知的数据对齐冲突问题。
本文提出了一种新的模板时态矢量化方法。它在迭代空间中对模板计算进行矢量化,并将不同时间坐标的点集合到一个矢量中。时间向量化导致少量固定数量的向量重组,这与向量长度、模板顺序和维数无关。此外,它也适用于矢量化研究较少的Gauss-Seidel型板。时间矢量化的有效性被各种Jacobi和Gauss-Seidel模板所证明。

2,
论文题目:PAGANI: a parallel adaptive GPU algorithm for numerical integration
作者背景:Old Dominion University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476198

摘要:针对大规模并行体系结构中的多维数值积分问题,提出了一种新的自适应并行算法。自适应算法已经证明了最好的性能,但是很难实现有效的多核利用,因为自适应工作负载可能在集成空间中变化很大,而且不可能预测先验。现有的并行算法在独立的处理器上进行顺序计算,由于需要进行数据重新分配和处理器同步,因此存在瓶颈。该算法采用了一种高吞吐量的方法,对所有现有的子区域进行并行处理和细分。重复子区域分类和过滤在蛮力方法的基础上进行了改进,使算法能够有效地利用计算和内存资源。CUDA实现比最快的开源CPU方法显示了数量级的加速,并扩展了复杂被积函数的可达到的精度。我们的算法通常优于其他现有的确定性并行方法。

3,
论文题目:Reducing redundancy in data organization and arithmetic calculation for stencil computations
作者背景:中科院,张云泉
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476154

摘要:Stencil计算是各种科学和工程应用中最重要的核心内容之一。各种各样的工作都集中在向量化技术上,目的是利用核内数据的并行性。然而,当与平铺集成时,它们要么会引起空间数据冲突,要么会损害数据局部性。本文提出了一种新的空间计算折叠方法,以减少向量化过程中的数据重组开销,同时保留数据空间中的数据局部性。然后,我们提出了一种利用移位复用、镶嵌平铺和半自动代码生成增强的时间计算折叠方法。该算法旨在进一步降低算法计算的冗余度,实现寄存器在时间维度上的重用。在AVX2和AVX-512 cpu上的实验结果表明,与目前的技术相比,该方法获得了显著的性能改进。

Session 量子计算和模拟

1,
论文题目:Empirical evaluation of circuit approximations on noisy quantum devices
作者背景:North Carolina State University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476189

摘要:目前,噪声中尺度量子(NISQ)器件无法为具有许多栅极的深电路产生足够逼真的输出。这种器件会受到读出、多量子位门、串扰噪声以及短的去相干时间限制电路深度的影响。本文提出了一种产生更短的多量子位门电路的方法,其幺正变换近似于原始参考电路。它探索了在NISQ设备下产生的这种近似的好处。格罗弗算法、多控制Toffoli门和横场Ising模型的实验结果表明,这种近似电路比NISQ设备上较长的、理论上精确的电路产生更高的保真度结果,特别是当参考电路有许多CNOT门时。有了这种微调电路的能力,证明了量子计算可以在今天的设备上执行比以前更复杂的问题,有时甚至可以将总体精度提高60%。

2,
论文题目:SV-sim: scalable PGAS-based state vector simulation of quantum circuits
作者背景:Quantum Science Center,Pacific Northwest National Laboratory
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476169

摘要:在经典高性能计算中进行高性能量子电路仿真在NISQ时代仍然是必不可少的。鉴于可扩展状态向量量子模拟的主要障碍来自于与远程节点的大规模细粒度不规则数据交换,本文提出SV-Sim应用基于pgas的通信模型(即:对于节点内CPU/GPU的直接对等访问,对于节点间CPU/GPU集群的SHMEM),用于高效的通用量子电路仿真。

通过基于设备功能指针的精心设计,SV-Sim能够在一个统一的框架中抽象跨多个异构后端(包括IBM/Intel/AMD cpu、NVIDIA/AMD gpu和Intel Xeon Phi协处理器)的各种量子门。但仍然坚持卓越的性能和易于处理的接口,以更高级别的量子编程环境,如IBM Qiskit,微软q#和谷歌Cirq。为了克服GPU中缺乏多态性的障碍,并利用设备发起的单边通信,SV-Sim可以处理使用单个GPU/CPU内核在Python中动态生成的电路,而不需要昂贵的JIT或运行时解析,极大地简化了编程复杂度,提高了QC仿真的性能。

这对于变分量子算法尤其有吸引力,因为每次迭代电路都是在线合成的。对最新的NVIDIA DGX-A100、v100r - dgx -2、ALCF Theta、OLCF Spock和OLCF Summit HPC的评估表明,SV-Sim可以在各种最先进的HPC平台上提供可伸缩的性能,为量子算法验证和验证提供了一个有用的工具。SV-Sim已在http://github.com/pnnl/sv-sim发布。另外还提供了一个针对q# /QDK进行特别调整的版本。

3,
论文题目:SW_Qsim: a minimize-memory quantum simulator with high-performance on a new Sunway supercomputer
作者背景:无锡国家超算中心
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476161

摘要:量子计算的经典模拟在量子算法的数值研究和量子器件的验证中起着至关重要的作用。在这里,我们介绍了基于张量网络的量子模拟器SW_Qsim,它采用两级并行结构设计,用于在多核新神威超级计算机上高效实现。我们提出了一种矩形量子网格最小化内存收缩路径算法,以减少内存开销,并提供了SW26010pro内存有限的模拟容量。此外,在SW处理器上对张量运算进行了精心的优化,以实现高性能。设计了一种容错机制来提高极值尺度并行稳定性。我们对SW_Qsim的rqc模拟进行了基准测试,达到400量子位,使用2875万个核实现了近线性的强和弱伸缩,远远超过了以前的技术水平。这项工作揭示了在物理、化学和工程科学领域中使用的有效量子算法的发展。

Session 线性和多线性代数和应用

1,
论文题目:On the parallel I/O optimality of linear algebra kernels: near-optimal matrix factorizations
作者背景: ETH Zurich, Switzerland
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476167

摘要
矩阵分解是科学计算最重要的构建模块之一。然而,最先进的库在通信方面并不是最优的,没有充分利用当前的并行架构。我们提出了一种新的Cholesky和LU分解算法,该算法利用渐近通信最优2.5D分解。我们首先建立了一个理论框架来推导线性代数内核的并行I/O下界,然后利用它的观点来推导Cholesky和LU调度,两者都是每个处理器的通信[EQUATION]元素,其中M是本地内存大小。实证结果与我们的理论分析相吻合:我们的实现的通信明显少于Intel MKL、SLATE和渐进通信最优的CANDMC和CAPITAL库。我们的代码在几乎所有测试场景中都优于这些最先进的库,在Piz Daint超级计算机的512个CPU节点上,矩阵大小从2,048到524,288不等,将解决方案的时间减少了三倍。我们的代码是scalapack兼容的,可以作为开源库使用。

2,
论文题目:STM-multifrontal QR: streaming task mapping multifrontal QR factorization empowered by GCN
作者背景: 湖南大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476199

摘要
MultifrontalQR算法是一种高性能的稀疏矩阵正交分解算法,它由符号分析和数字分解两部分组成。本文提出了一种用于符号分析中自适应选择最优重排序算法的图卷积网络(GCN)。使用我们的GCN自适应分类器,与默认方法相比,平均数字分解时间减少了20.78%,额外的内存开销比之前的工作高出约4%。
此外,在数值分解方面,提出了一种优化的任务流并行处理策略,并采用了一种针对NUMA体系结构的更高效的计算任务映射框架——stm - multifront QR factorization。
在泰山服务器上进行的数值实验表明,与原始SuiteSparseQR相比,性能平均提高了1.22倍。与Intel Xeon 6248上的MKL稀疏QR相比,近80%的数据集获得了更好的性能。

3,
论文题目:LIBSHALOM: optimizing small and irregular-shaped matrix multiplications on ARMv8 multi-cores
作者背景: 国防科技大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476217

摘要
通用矩阵乘法(GEMM)是高性能计算中的一个关键子程序。虽然主流的线性代数库可以在大型和规则形状的GEMM上提供高性能,但它们不足以优化小型和不规则形状的GEMM,这在新的HPC应用程序中很常见。最近在这个方向上的一些工作已经在x86架构和gpu上取得了有希望的进展,但对于基于ARMv8架构的新兴HPC硬件来说,仍然有很大的改进空间。

我们展示了LibShalom,一个用于优化小型和不规则形状gemm的开源库,明确针对ARMv8架构。LibShalom基于经典的Goto算法,但对其进行了调整,以最小化数据打包和处理小矩阵所需的昂贵内存访问开销。利用解析方法确定GEMM核优化参数,提高了GEMM核的计算效率和并行化效率。我们将LibShalom应用于三个ARMv8多核架构,并将其与五个主流线性代数库进行比较。实验结果表明,LibShalom可以在GEMM工作负载和硬件架构上持续优于现有的解决方案。

你可能感兴趣的:(SC21 论文简读[4] - 专业学科向)