SC21 论文简读 [1] -- HPC,性能建模,硬件

文章时间:2021年11月前
会议/期刊:SC 2021
笔记时间:2021年11月12日周五

Session E级机上的最佳实践

1,
论文题目:Generalizable coordination of large multiscale workflows: challenges and learnings at scale
作者背景: LLNL ORNL LANL,IBM
论文地址: early bird version,SC'21

Abstract
机器学习技术的进步和大多数当前超级计算机的异构架构推动了对大型多尺度模拟的需求,这些模拟可以自动和自主地耦合不同的组件并将它们映射到相关资源以解决多尺度的复杂问题。然而,尽管工作流技术最近取得了进展,但当前的能力仅限于耦合两个尺度。在首次使用三个分辨率尺度的演示中,我们提出了一个可扩展且可推广的框架,该框架使用机器学习和原位反馈耦合模型对。我们扩展了大规模并行多尺度机器学习建模基础设施 (MuMMI),这是一个最近的获奖工作流程,并将框架推广到其原始设计之外。我们讨论了执行大规模多尺度模拟活动的挑战和学习,该活动在 Summit 上利用了超过 600,000 个节点小时,并在超过 83% 的时间内实现了超过 98% 的 GPU 占用率。我们展示了创新以实现几个数量级的扩展,包括同时协调 24,000 个作业,以及每天管理数 TB 的新数据和总共超过 10 亿个文件。最后,我们描述了我们框架的通用性,并在即将发布的开源版本中讨论了所提供的框架如何用于新应用程序。

其他:
GPU98%的占用率,是很惊人的数字,期待去看他们的工作。

2,
论文题目:Linux vs. lightweight multi-kernels for high performance computing: experiences at pre-exascale
作者背景: 日本超算中心,富士公司
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476162

Abstract
在HPC社区一个关于操作系统的共识是,基于lightweight kernel (LWK) 的OS比Linux在大规模的环境下表现更好。我们开发了一个基于lightweight multi-kernel的操作系统,部署在两台超算上,来和linux做比较。Oakforest-PACS,使用Intel Xeon Phi (x86),运行一个经过修改的linux版本,Fugika,当前世界第一的超算设备,基于aarch64架构的Fujitsu's A64FX,使用一个高度调整的linux环境。
本文讨论新的OS,和对FUgaku系统中tuning挑战的详细描述。惊喜tuning的LWK是linux性能将近2倍,给整体性能带来4%的提升,一些特殊情况下,性能提升达到29%。我们disclose了fugaku的16w台节点的profile。

其他:
有点没看懂性能提升到底是多少。
看到16w台设备的实验,好多钱啊

3,
论文题目:Revealing power, energy and thermal dynamics of a 200PF pre-exascale supercomputer
作者背景: Oak Ringe NL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476188

Abstract
当前我们到了E级机的时代,理解电量消耗和他对HPC架构和应用的约束是很重要的。本文的工作基于Summit,分析了组件级别,节点级别,系统级别的电量消耗,对4k个节点(4626),对2020年一整年,每1HZ记录了超过100个metrics。
我们分析了84w个作业的电量特征和能量效率,以及25w个GPU失败的日志来找问题。
据我们所知,这是第一篇关于HPC系统级别的电量分析。

其他
毕竟Summit只有你们有嘛

Session 当前的实践

  1. AMD CPU+ NVIDIA GPU是和组合工作的
    论文题目:Non-recurring engineering (NRE) best practices: a case study with the NERSC/NVIDIA OpenMP contract
    作者背景: Lawrence Berkeley National Laboratory
    论文地址:https://dl.acm.org/doi/10.1145/3458817.3476213

摘要
NERSC超级计算机Perlmutter由AMD cpu和NVIDIA gpu组成。NERSC用户希望能够使用OpenMP来利用高能力的gpu。本文描述了NERSC/NVIDIA如何构建非循环工程(NRE)合同,将OpenMP gpu卸载支持添加到NVIDIA HPC编译器中。该文件描述了该合同如何整合了双方的优势,并鼓励合作,以提高最终交付的质量。我们包括了我们的最佳实践,以及这个特定的合同如何考虑到正在出现的OpenMP规范、NERSC工作负载需求,以及如何在GPU硬件上最有效地使用OpenMP。本文包括使用NVIDIA HPC SDK中分布的NVIDIA编译器获得的OpenMP应用程序性能结果。

  1. HPC中低权限需求的容器应用
    论文题目:Minimizing privilege for building HPC containers
    作者背景: Los Alamos National Laboratory
    论文地址:https://dl.acm.org/doi/10.1145/3458817.3476187

摘要
HPC中心面临着对软件灵活性日益增长的需求,越来越多的人一致认为Linux容器是一个有前途的解决方案。但是,现有的容器构建解决方案需要根权限,不能直接在HPC资源上使用。随着超级计算机多样性的扩展和HPC架构越来越不同于普通计算资源,这种限制变得更加复杂。我们的分析表明,这个问题可以用低特权容器来解决。我们详细介绍了Linux内核的相关特性,提出了一种新的容器特权分类,并比较了两种开源实现:基本无特权的无根Podman和完全无特权的charlicloud。我们演示了在HPC资源上构建低特权容器现在可以工作,并且将继续改进,为普通用户提供更好的工作流来安全地、正确地构建容器。以这种方式最小化特权可以提高HPC用户和开发人员的生产率,并减少对百亿亿次应用程序的支持工作量。

论文题目:Systematically inferring I/O performance variability by examining repetitive job behavior
作者背景:美国东北大学,Sandia National Laboratory
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476186

摘要:监控和分析I / O行为对于有效利用并行存储系统至关重要。遗憾的是,随着I / O需求和资源争用的增加,I / O性能变化正变得一个重要的问题。本文使用新的方法研究了大规模高性能计算(HPC)系统的I / O行为和性能可变性,该方法从同一应用程序中识别出利用I / O表征工具的相同应用程序,然后检测潜在的I /o在相同应用程序的工作中的性能变化。我们展示并讨论了我们的独特方法如何用于执行时间和特征分析,以检测生产HPC系统中的有趣I / O性能变化模式,以及它们对操作/管理大型系统的影响。

Session Trends in Scalable Computing

  1. 量子计算版本的MPI
    论文题目:Distributed quantum computing with QMPI
    作者背景: [Torsten Hoefler]
    论文地址:https://dl.acm.org/doi/10.1145/3458817.3476172

摘要
量子计算机的实际应用需要数百万个物理量子位元,单个量子处理器要达到这样的量子位元数将是一个挑战。因此,在分布式环境中研究量子算法的资源需求是及时的,在分布式环境中,多个量子处理器通过一个相干网络相互连接。我们引入了消息传递接口(Message Passing Interface, MPI)的扩展,以支持分布式量子算法的高性能实现。反过来,这些实现可以用于测试、调试和资源估计。除了量子MPI的原型实现外,我们还提出了分布式量子计算的性能模型SENDQ。该模型的灵感来自于经典的LogP模型,这使得它在为分布式量子计算机编程时为算法决策提供信息非常有用。具体来说,我们考虑了针对物理和化学问题的两种量子算法的几个优化,并在SENDQ模型中详细说明了它们对性能的影响

  1. HPC中区块链的应用
    论文题目:BAASH: lightweight, efficient, and reliable blockchain-as-a-service for HPC systems
    作者背景: University of Nevada
    论文地址:https://dl.acm.org/doi/10.1145/3458817.3476155

摘要
分布式弹性对于减轻数据移动和I/ o成本的增长,同时在HPC系统中保持数据准确性至关重要。本文提出采用类似区块链的去中心化协议来实现这种分布式弹性。采用这种方法的关键挑战在于区块链的目标系统(例如,无共享、松耦合、TCP/IP堆栈)与HPC在存储子系统、资源分配和编程模型上的独特设计之间的不匹配。我们提出了BAASH,用于高性能计算的区块链即服务,以即插即用的方式部署。BAASH用两个关键组件弥补了HPC和区块链之间的差距:(i) HPC共享存储架构的轻量级共识协议,(ii)补偿MPI的新的容错机制,以保证分布式弹性。我们已经实现了一个原型系统,并在一个500核的HPC集群上对超过200万个事务进行了评估。结果表明,所提出的技术的原型显著优于一般的区块链系统,并在MPI中表现出强大的可靠性。

3,
论文题目:Representation of women in HPC conferences
作者背景:Reed College
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476164

摘要
女性在高性能计算机劳动力中被严重低估。要解决这一差距,就需要准确衡量妇女代表性及其相关因素。本文的目标是提供当前的,广泛的,可重复的数据在这一性别差距。具体来说,本研究提供了关于妇女在高性能计算会议中的代表性的深入统计数据,特别是对同行评议论文的作者,他们是该领域未来发展的基石。

为此,我们分析了9次HPC和与HPC相关的同行评议会议的参与者数据。除了性别分布,我们还查看了论文发表后的引文统计数据和作者的研究经验、国家和工作部门。

我们的主要发现是,女性仅占所有HPC作者的10%,地域差异大,部门差异小。在经验丰富的阶层中,代表性特别低。这个10%的比率甚至低于整个计算机科学的20- 30%的比率。

Session HPC和应用

1,
论文题目:TensorKMC: kinetic Monte Carlo simulation of 50 trillion atoms driven by deep learning on a new generation of Sunway supercomputer
作者背景: 中科院
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476174

摘要
原子动力学蒙特卡罗方法在多尺度物理模拟中起着重要的作用,因为它连接了微观世界和宏观世界。然而,它的准确性受到经验潜力的限制。因此,我们提出了一种三重编码算法和空位缓存机制来有效地集成从头算神经网络势(NNPs)和AKMC,并在TensorKMC代码中实现它们。我们将程序移植到SW26010-pro上,为NNPs创新了一个快速特征算子和一个大融合算子,充分利用新一代神威超级计算机强大的异构计算单元。我们进一步优化内存使用。通过这些改进,TensorKMC可以模拟多达54万亿的原子,并实现出色的强和弱缩放性能,高达27,456,000核。

2,
论文题目:High-throughput virtual screening of small molecule inhibitors for SARS-CoV-2 protein targets with deep fusion models
作者背景: Lawrence Livermore National Laboratory
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476193

摘要
基于结构的深度融合模型最近被证明优于几种基于物理和机器学习的蛋白质配体结合亲和力预测方法。作为多机构COVID-19大流行应对的一部分,计算筛选了超过5亿个小分子,对抗导致COVID-19的新型冠状病毒(SARS-CoV-2)的四种蛋白质结构。为了评估50多亿个SARS-CoV-2蛋白靶点上的对接姿势,深度融合技术进行了三次增强。首先,深度融合的概念被细化为一个结构,相干反向传播模型(相干融合),以提高绑定-亲和预测精度。其次,采用分布式遗传超参数优化方法对模型进行训练。最后,开发了一种可扩展的、高通量筛选能力,以最大限度地增加评估配体的数量,加快实验评估的路径。在这项工作中,我们介绍了基于机器学习的高通量筛选方法和使用我们的计算管道找到SARS-CoV-2抑制剂的结果。

3,
论文题目:High performance uncertainty quantification with parallelized multilevel Markov chain Monte Carlo
作者背景: 德国海德堡大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476150

摘要
复杂现实现象的数值模型常常需要高性能计算(HPC)。不确定性进一步增加了问题的维度,并带来更大的挑战。

我们提出了一种多级马尔可夫链蒙特卡罗并行策略,一种最先进的,算法可扩展的不确定性量化(UQ)算法,用于贝叶斯逆问题,以及一个新的软件框架,允许大规模并行跨正向模型评估和UQ算法本身。主要的可伸缩性挑战表现为MLMCMC方法引入的强数据依赖关系,这禁止了琐碎的并行化。

我们的软件是作为模块化和开源的MIT不确定性量化库(MUQ)的一部分发布的,并且可以很容易地与任意用户代码耦合。我们使用分布式和统一数字环境(DUNE)和ExaHyPE引擎来演示它。后者提供了一个现实的、大规模的海啸模型,在该模型中我们从浮标高度数据识别海啸的来源。

Session:高性能图算法

1,
论文题目:TriPoll: computing surveys of triangles in massive-scale temporal graphs with metadata
作者背景:LLNL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476200

摘要:了解网络数据中的高阶相互作用是网络科学的一个关键目标。对元数据三角形(或元数据丰富图中的模式3个循环)的调查通常是这种研究的兴趣所在。在这项工作中,我们开发了TriPoll,一个分布式HPC系统的原型,能够测量包含边和顶点元数据的海量图中的三角形。我们将我们的方法与之前在三角分析方面所做的工作进行了对比,后者通常集中于简单的三角计数,通常是在没有元数据的简单图中。我们评估TriPoll的可扩展性,当测量涉及元数据的真实和合成图上的三角形时,多达数千亿条边。我们利用减少通信的优化来演示一个在2440亿边web图上的三角形计数任务,用时大约是竞争方法的一半,同时还支持元数据感知功能。

2,
论文题目:Discovering and balancing fundamental cycles in large signed graphs
作者背景:Texas State University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476153

摘要:通过全局符号平衡计算一致状态是社会网络分析的关键步骤。本文提出了一种基于新顶点和边缘标记技术的带符号图快速平衡算法graphB+,并实现了其快速检测和平衡所有基本循环的并行实现。graphB +的主要好处是,标签可以用线性时间复杂度计算,只需要一个线性的内存数量,平衡循环的运行时间是线性周期顶点度的长度但独立图形的大小。我们使用OpenMP和CUDA并行化了graphB+。Titan V GPU需要0.85秒才能平衡包含1000万个顶点和2200万条边的Amazon图形的边缘符号,这相当于每秒识别、遍历和平衡1400万个基本周期。

3,
论文题目:cuTS: scaling subgraph isomorphism on distributed multi-GPU systems using trie based data structure
作者背景:Washington State University,PNNL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476214

摘要:子图同构是一种模式匹配算法,广泛应用于化学信息学、生物信息学、数据库和社会网络分析等领域。这是一个昂贵的计算和证明np困难的问题。gpu的大规模并行性非常适合求解子图同构问题。然而,目前的GPU实现还远远达不到可达到的性能。此外,当前方法对内存的巨大需求限制了可以处理的问题大小。本工作分析了在GPU上处理子图同构的基本挑战,并开发了一种高效的GPU实现。我们还开发了一个gpu友好的基于trie的数据结构,以大幅减少中间存储空间的需求,从而能够处理大型基准测试。我们还开发了第一个用于gpu的分布式子图同构算法。我们的实验评估证明了我们的方法的有效性,通过比较执行时间和可以处理的案例数量与最先进的GPU实现。

Session 应用性能优化

论文题目:Bootstrapping in-situ workflow auto-tuning via combining performance models of component applications
作者背景:Southern Illinois University
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476197

摘要:在现场工作流程中,多个组件(如仿真和分析应用程序)与流数据传输耦合在一起。可能配置的多样性需要一个自动调优器来进行工作流优化。现有的自动调优方法是计算昂贵的,因为为了训练自动调优代理模型或探索配置空间,必须通过重复运行整个工作流对许多配置进行采样。
为了降低这些成本,我们通过利用分析工作流结构来组合组件应用程序的性能模型,有选择地生成测试配置来测量和指导机器学习工作流代理模型的训练。因为训练可以集中在性能良好的配置上,所以得到的代理模型可以对良好配置实现较高的预测精度,尽管训练使用较少的总配置。因为训练可以集中在性能良好的配置上,所以得到的代理模型可以对良好配置实现较高的预测精度,尽管训练使用较少的总配置。实际应用程序的实验表明,对于固定的计算机时间预算,我们的方法可以识别出比其他方法更好的配置。

论文题目:Meeting the real-time challenges of ground-based telescopes using low-rank matrix computations
作者背景:澳国立
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476225

摘要:自适应光学(AO)是一种可以测量和减轻大气湍流对光束畸变影响的技术。AO必须实时操作,通过控制数千个驱动器来塑造部署在地面望远镜上的可变形镜子的表面,以补偿这些扭曲。从矩阵向量乘法(MVM)中获得命令向量,该命令向量触发每个执行器应如何操作以弯曲镜像的一部分。我们识别并利用来自欧洲南方天文台超大望远镜MAVIS仪器的这些控制矩阵的数据稀疏结构。我们在x86和基于加速器的系统上提供性能评估。我们提出了低秩矩阵(TLR)逼近对MVM求解时间的影响,并评估产生的图像质量。与常规致密MVM相比,TLR-MVM的性能提高了两个数量级,同时保持了图像质量。

3.针对数据并行中表格数据的NAS方法改进
论文题目:AgEBO-tabular: joint neural architecture and hyperparameter search with autotuned data-parallel training for tabular data
作者背景: 法国,Argonne National Laboratory
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476203

摘要
为大型表格数据集开发高性能预测模型是一项具有挑战性的任务。神经架构搜索(Neural architecture search, NAS)是一种同时生成和评估具有不同架构的多个神经网络以自动发现高性能模型的AutoML方法。NAS中的一个关键问题,特别是对于大型数据集,是评估每个生成的架构所需的大量计算时间。虽然数据并行训练有可能解决这个问题,但直接的方法可能会导致严重的准确性损失。为此,我们开发了AgEBO-Tabular,它结合了老化进化(Aging Evolution, AE)对神经结构的搜索和异步贝叶斯优化(BO)对超参数的搜索以适应数据并行训练。我们在来自百亿亿次计算项目-癌症分布式学习环境(ECP-CANDLE)的两个大型预测建模表格数据集上评估了我们的方法的有效性。

Session 性能分析与优化

论文题目:CAKE: matrix multiplication using constant-bandwidth blocks
作者背景:哈佛大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476166

摘要:提出了一种基于内存层次结构的矩阵乘法运算的新方法。Constant-bandwidth (CB)块提高了受外部内存带宽限制的架构的计算吞吐量。配置CB块的形状和大小,从任何内存层次(例如,内部SRAM)操作,我们实现高吞吐量,同时保持外部带宽(例如,DRAM)不变。我们解释了,令人惊讶的是,CB块如何在计算吞吐量增加时保持恒定的外部带宽。类似于将一个蛋糕分成几块,我们将cb分区系统命名为cake。我们展示了在外部带宽构成瓶颈的现实系统上,CAKE在计算时间上优于最先进的库,证明了CAKE解决内存墙问题的能力。
CAKE通过在titing和调度中直接使用理论上最优的cb分区块实现了卓越的性能,避免了广泛的设计搜索的需要。

论文题目:HPAC: evaluating approximate computing techniques on HPC OpenMP applications
作者背景:LLNL
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476216

摘要:当我们接近摩尔定律的极限时,研究人员正在探索未来高性能计算(HPC)系统的新范式。近似计算通过承诺提供强大的计算能力而获得了关注。然而,由于高性能计算科学应用对精度的严格要求,在高性能计算中广泛采用近似计算方法需要深入了解应用对近似的适应性。

我们开发了HPAC,一个支持代码注释和转换的编译器和运行时框架,以及OpenMP HPC应用程序的准确性和性能权衡分析。我们使用HPAC对近似计算技术应用于HPC应用程序时的有效性进行深入分析。

结果揭示了近似的可能性能增益及其与并行执行的相互作用。例如,在LULESH代理应用程序中,由于减少了内存访问,因此提供了实质性的性能提升。然而,在白细胞基准近似中会导致并行执行中的负载不平衡,从而限制了性能增益

  1. 纠删码的新工作
    论文题目:Accelerating XOR-based erasure coding using program optimization techniques
    作者背景:日本动画公司
    论文地址:https://dl.acm.org/doi/10.1145/3458817.3476204

摘要:Erasure coding (EC)为大规模系统提供了数据冗余。基于xor的电子商务是一种易于实现的优化电子商务的方法。本文解决了最先进的基于xor的EC方法(~4.9 GB/s编码吞吐量)和英特尔基于另一种方法的高性能EC库(~6.7 GB/s)之间的显著性能差距。基于我们的观察,我们提出了一种新的方法,基于xor的EC实际上生成了一个领域特定语言的XORing字节数组程序。我们形式化了编译器构造的直线程序(SLPs),并使用各种程序优化技术对SLPs进行优化。我们的优化流程有三个方面:
1)使用语法压缩算法减少XORs的数量;
2)使用deforestation减少内存访问,一种函数式程序优化方法;
3)使用程序分析中的(red-blue) pebble game 减少缓存遗漏。我们提供了一个实验库,它的吞吐量高达8.92 GB/s,优于Intel的库。

Session 加速器架构

1,
论文题目:Hardware acceleration of tensor-structured multilevel ewald summation method on MDGRAPE-4A, a special-purpose computer system for molecular dynamics simulations
作者背景:日本 ,RIKEN
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476190

摘要:
我们开发了MDGRAPE-4A,一个用于分子动力学模拟的专用计算机系统,由512个自定义系统片上lsi节点组成,具有专用的处理器核心和互连,旨在实现生物分子模拟的强大可扩展性。为了减少评估库仑相互作用所需的全球通信,我们进行了MDGRAPE-4A和新算法的联合设计,张量结构多层Ewald求和法(TME),该公司在定制的LSI电路上生产硬件模块,用于在三维环面网络上进行粒子网格操作和网格网格可分离卷积。我们在FPGA上使用3D fft实现了顶级网格电位的卷积,同时使用基于FPGA的八叉树网络来收集网格电荷。长距离库仑部分的运行时间为50 μs,与短程部分的运行时间大部分重叠,额外的成本约为10 μs/步长,仅造成5%的性能损失。

2,
论文题目:Accelerating bandwidth-bound deep learning inference with main-memory accelerators
作者背景:The University of Texas at Austin
论文地址:https://dl.acm.org/doi/10.1145/3458817.3476146

摘要:
矩阵-矩阵乘法运算(GEMMs)在许多高性能计算和机器学习应用中非常重要。它们通常被映射到离散加速器(如gpu)来提高性能。然而,我们发现大型高/瘦矩阵和胖/短矩阵从离散加速中获益甚微,而且在CPU上的性能也不好。这种矩阵在重要的工作负载中很普遍,比如大型数据中心中的深度学习推理。我们展示了通过在主CPU内存中进行处理来加速这些gemm的巨大潜力,其中内存单元(pim)中的处理利用了其他未开发的带宽,而不需要数据复制。我们开发了一个新的GEMM执行流和相应的内存端地址生成逻辑,该逻辑利用了GEMM局域性,并支持长时间运行的PIM内核,尽管CPU使用了复杂的地址映射函数。我们在通道、设备和设备内PIM级别上对StepStone变体的评估表明,最小延迟比CPU高12倍,对于严格的查询延迟约束,吞吐量高2.8倍。最近的推荐和语言模型的端到端性能分析表明,StepStone的性能比快速CPU高出16倍,并且比最佳的优先主存加速方法高出2.4倍。

3,
论文题目:LCCG: a locality-centric hardware accelerator for high throughput of concurrent graph processing
作者背景:华中科技大学
论文地址:https://dl.acm.org/doi/10.1145/3458817.3480854

摘要:在现代数据中心中,大量并发的图处理任务正在大型图上进行处理。然而,现有的硬件/软件解决方案存在不规则的图遍历和激烈的资源争用问题。在本文中,我们提出了LCCG,一个Locality-Centric可编程加速器,它增强了多核处理器实现更高的吞吐量Concurrent Graph处理任务。具体地说,我们在加速器设计中开发了一种新颖的拓扑感知执行方法,根据图的拓扑动态规范多个作业的图遍历,这能够完全整合来自并发作业的图数据访问。通过在多个作业中重用相同的图数据,并合并对这些作业的顶点状态的访问,LCCG可以提高核心利用率。我们在一个模拟的64核处理器上进行了大量的实验。结果表明,LCCG将前沿软件系统的吞吐量提高了11.3 ~ 23.9倍,仅增加了0.5%的区域成本。LCCG的加速速度是目前最先进的硬件图形处理加速器(分别是HATS、Minnow和PHI)的4.7 ~ 10.3 倍、5.5 ~ 13.2倍和3.8 ~ 8.4倍。

你可能感兴趣的:(SC21 论文简读 [1] -- HPC,性能建模,硬件)