超算集群系统的组成

当前HPC的主要架构包括集群和MPP(大规模并行处理)两种,集群架构是目前最广泛的超级计算机架构。
典型的HPC集群系统主要由五类计算(或网络)设备和三类网络组成。
五类设备主要是指管理节点及登录节点、计算节点、交换设备、I/O设备和存储设备。当前有很多高性能服务器都采用CPU+加速处理器异构的方式,因此有些集群系统还包括加速节点。
1)登录节点
登录节点相当于用户访问集群系统的网关。用户通常登录到此节点上编译并提交作业。由于登录节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,一般采用硬件冗余的容错方法,如采用双机热备份的方式,或者采用RAID(独立磁盘冗余阵列)技术保证用户节点的数据安全性。
登录节点一般对计算性能要求不高,整套集群根据需求配置数台机架式服务器即可。
2)管理节点
管理节点是集群系统各种管理措施的控制节点。
3)计算节点
整个集群的计算核心。有胖节点(多路)和瘦节点(双路)之分。
4)异构节点
通常异构节点同时使用CPU、GPU或MIC,可以大幅度提升计算效率。
5)交换设备
集群各节点之间需要通过网络连接在一起。
6)I/O设备和存储设备
存储数据和提高读/写带宽。
7)管理网络
用户管理节点和各计算节点、I/O节点的互连,所连接的机器就是集群内部的本地机器,所以不需要高带宽和低延迟,同时还可以容忍一定的过预订率。千兆网很适合。
8)计算网络
用于各计算节点的互连,是并行任务执行时的进程间通信的专用网络,并行计算的核心就是它和集群内其他节点交换信息的能力,通常称为IPC。
计算网络现在多用InfiniBand网络或者万兆以太网等。
9)存储网络
存储网络需要向HPC集群的节点提供数据访问服务。
有两种方法访问数据:一是数据由外部文件系统提供文件级别的访问,包括网络附属存储;二是数据块级别的访问,包括直连式存储或存储区域网络可以分别使用基于SCSI或SCSI RDMA协议的光纤通道或IB存储。

你可能感兴趣的:(超算)