目录
1.形势分析
1.1.我国新基建战略与先进计算产业
1.2.数据中心/云计算中心/超算中心的核心部件以X86服务器为主
1.3.大国在HPC领域的较量
2. HPC调度技术介绍
2.1.调度技术一览
2.2 Slurm
2.2.1.Why Slurm?
2.2.2.Slurm的关键功能
2.3.应用
2.3.1.超算应用
2.3.2.应用范式
2.4.资源
2.4.1.集群
2.4.2.计算
2.4.3.网络
2.4.4.存储
2015 年, 美国启动国家战略计算规划NSCI5). 该规划提出要创造一整套可持续、多机构参与的国家战略规划及联邦政府投资战略,让高性能计算为美国带来最大化的效益, 维持并提升美国在高性能计算研究、开发与部署领域的科学、技术与经济领导地位。作为NSCI 的一部分, 美国能源部正在执行ECP 计划6). ECP为研制3 台E 级计算机投资18 亿美元, 第1 台E 级机Aurora 将在2021 年上半年完成, 持续性能将达到1 EFlops (每秒百亿亿次)。第2 台E 级机Frontier 将在2021~2022 年问世. 第3 台El Capitan的峰值性能将达4~5 EFlops, 持续性能23 EFlops, 将在2023 年完成. 与超级计算机研制配套, ECP为软件与应用研发另外投入18 亿美元。
日本的E 级机计划已经实施数年, 其第一台E 级计算机富岳(Fugaku)" 基于ARM 处理器实现, 以保护软件资产. 为此研制了新一代ARM 处理器A64FX 48C。2019 年下半年, Fugaku 的初阶系统安装到位, 其能效在Green500 中排名第一(16.9 GF/W)7), 证明基于众核处理器的系统能效有可能超过基于GPU 的异构加速系统。2020 年6 月, 富岳" 全系统完成并荣登世界超级计算机TOP500 榜首, 其峰值速度513.85 PFlops/s, Linpack 性能415.53 PFlops, Linpack效率达到80.8%8)。包含10 个超算中心的日本的超级计算基础设施HPCI 也同步发展, 日本的计算资源将得到大大提升。
欧盟认识到由于欧洲缺少高性能计算机硬件厂商, 在E 级计算的全球竞赛中已经被动. 为此, 在2017 年启动了E 级计算的Euro HPC 计划, 欧盟通过“地平线2020" 框架计划在2020 年年底前给Euro HPC 投资10 亿欧元, 在下一期框架计划(20212028) 再投入27 亿欧元, 参与Euro HPC 的欧盟成员国将提供更多的配套经费. 欧盟将基于目前的PRACE 基础设施, 在2023 年前打造欧洲的E 级计算基础设施(3 台左右E 级机).。欧洲高性能计算基础研究和应用的基础好, 在新的计算模型、语言、算法和大规模数值模拟技术等方面有深厚积累。
中国正在实施十三五" 重点研发专项\高性能计算", 其目标是突破E 级计算机核心技术, 依托自主可控技术, 研制满足应用需求的E 级高性能计算机系统,研发一批关键领域/行业的高性能计算应用软件, 构建高性能计算应用生态环境, 建立具有世界一流资源能力和服务水平的国家高性能计算环境. 目前专项正在为实现这一目标而努力。中国三家E级机研制单位江南计算所、国防科大和中科曙光公司根据不同技术路线研制的三台E级原型系统已经完成并分别安装在济南、天津和深圳国家超级计算中心。
曙光硅立方视频简介:
http://www.ict.cas.cn/kxcb/sp/202009/t20200907_5687863.html
调度的本质是解决资源请求的无限性和资源的有限性之间的矛盾。例如:Linux(Task/CPU)、K8S(Pod/Node)、Hypervisor(Guest OS/Host OS)。
各种调度算法:FCFS先到先服务、SJF短作业优先、Round Robin轮询、Priority Based优先级、Dynamic Priority Based动态优先级、CFS完全公平调度、Lottery Scheduling彩票调度。
HPC调度要解决的问题:HPC集群上资源与作业的矛盾。
the workload manager (WLM) |
负载管理器 |
负责调度作业的资源分配 |
the resource manager (RM) |
资源管理器 |
负责生成和监视应用程序进程,并跟踪/管理这些进程的资源 使用情况; |
the global file system (FS) |
全局文件系统 |
FS经常包含多个元素,包括用于输入和 输出数据文件的并行文件系统(PFS),以及通常包含主目录、可执行文件和支持库的 网络文件系统(NFS)。除了大规模后端存储之外,文件系统可以包括缓存元素,其形式或者是位于集群外围的“burst buffers”,或者位于分布在整个集群中的非易失性 RAM(NVRAM)的存储体中; |
the fabric manager (FM) |
网络管理器 |
负责监督高速网络,为节点间通信定义地址和路由模式。 这包括每个计算节点上的一个或多个本地网络接口卡(NIC) |
the reliability and survivability (RAS) |
可靠性和生存性系统 |
用于监视硬件和固件故障并提供警报 |
作为一个集群负载管理器,SLURM 提供三种关键功能:
根据上面的描述,我们可以分解其背后的理论基础和知识体系为:分布式/并行计算和操作系统。
分布式技术概览:
linux内核功能概览:
举例气象领域业务处理流程:
输入(驱动数据、观测数据)->前处理(可选,数据传输、同化)->计算(模式移植与工作流)->后处理(质量控制/同化) ->可视化
(1)神威E级架构
Summit节点示意图:
GPU拓扑示意图:
(三套网络:千兆监控、万兆管理、IB计算,两层架构:接入层、核心层)
IB原理简图:
分布式存储三要素:顾客、导购和货架