“算力”(Computility,也被称为计算能力或计算力)通常而言是指计算机、服务器、GPU或其他硬件设备执行计算任务的速度和能力。算力的英文名是computility。其中的compu-是计算的词根,表达“算”的含义,-utility是效用、实用的意思。computility用来表达计算的能力,即算力。近年来,“算力”被全社会高度关注,同时对于算力的准确量化描述也非常混乱,例如:
“每秒算力可达116亿亿次”
问题:执行的啥计算任务呀?也没有讲数据类型(整型?浮点数?),也不提精度(整型多少位?双精浮点?单精度浮点?),也不讲是AI算力还是通用算力,等等。
由此,也出现了“已有算力不够用,新建算力用不了”的怪事。本系列文章试图澄清算力的各种信息,并提出算力分层定义的观点,总共分为三层:
对算力分层描述的重要意义在于:
浮点数运算能力通常使用以下单位描述:
整型数据运算能力通常使用TOPS(Tera Operations Per Second)来描述,即每秒多少万亿次(10^12)。对于64位CPU处理器,指的就是64位整型数据的处理能力。但在GPU和DSA的领域,描述多少TOPS,可能是INT32,也有可能是INT8,还有可能是INT4。(备注:对于CPU性能的强弱,还有DMIPS(Dhrystone Million Instructions executed Per Second)来描述,即每秒执行多少百万条指令)。
在科学计算领域,?FLOPS以前通常指双精度浮点数(FP64)。现在也被用于人工智能领域,但通常指的是其他精度(FP32/FP16/BF16/INT8等类型),同时还引入了一些新的浮点数格式。下面是一些常见的计算中使用的浮点数格式:
9.现在你看到这个计算中心,每秒可以计算多多多少次。就需要留意”计算格式/计算精度”了。另外,引入了POPS这个名词,POPS是神经网络处理器(NNP)性能的单位,全称为“Per Second Operations Per Second”,即每秒钟的计算数量,这个单位似乎使用频率不高。
另外,神经网络处理器(NNP)性能描述虽然引入了POPS作为单位,全称为“Per Second Operations Per Second”,即每秒钟的计算数量。也同样存在类似的问题,也少人使用。
(图1)NVIDIA A100,硬件算力是9.7TFLOPS
(图2)Intel的i9-12900K,硬件算力才0.8192TFLOPS
硬件算力为啥差一个数量级呀,是intel不要脸了吗?
当然不是,这是因为GPU和CPU的设计目标不同,算力分为通用算里和专用算力(GPU算力、AI算力)。GPU在设计时专注于进行大量并行计算,因此它们采用了更多的小计算单元(即ALU)和更多的流处理器,这使得它们能够在单位时间内完成更多的计算。而CPU则更加注重单线程处理能力和数据缓存,具有更多指令集条数、更高效的缓存和更快的时钟速度,每个计算单元大,但数量相对较少。这就是为什么GPU的算力可以达到数以TFLOPS级别,而CPU通常只能达到数百GFLOPS的原因。这也是通用算力和AI算力的根本性差异。
CPU堆核心数和GPU堆核心数也不是一个概念。
展开一点点,GPU和CPU的核心虽然都是进行运算的单元(ALU)。CPU的设计目标是满足各种可能的应用,强调通用性,例如各种办公软件,网络服务,用户交互软件等等。GPU和DSA强调某一些领域和算法的大规模并行计算,例如图像渲染,深度学习等;
超级计算机的TOP500排名的性能指标,包括Rmax(最大性能)和Rpeak(理论性能)。Rmax是指超级计算机在实际运行中所能达到的最大计算性能,即每秒钟所能计算的浮点数的数量(FLOPS)。而Rpeak是指超级计算机按照其设计时理论上所能达到的最大计算性能,实际上Rmax值往往会低于Rpeak值。排名靠前的超级计算机通常具备更高的计算性能、更强的可扩展性和更高的能效比。尽管TOP500排行榜的排名主要依据性能指标,但也会考虑其他因素,如超级计算机应用领域、处理器类型、计算节点数量等。相对比较严谨。
世界第一台E级超算是美国橡树岭国家实验室(ORNL)的Frontier,在2022 年 6 月高性能计算的TOP500 榜单中,Frontier 位列第一名,速度为 1.685 EFLOPS。(题外话:有新闻说该超算出现大量故障,机器甚至于无法完整运行一整天。不知现在怎样了?)
现在,您应该知道“每秒算力可达116亿亿次”的算力中心,通常只是混淆描述算力规模,根本无法和TOP500的超算1.685 EFLOPS类比了吧!这些算力中心基本无法进行科学计算,甚至于在运行类似ChatGPT这种AI大模型实际能效比也不高。
所以,对于描述算力中心的描述,我国还出现的“智算”、“超级大脑”等名词。如果基础软件不行,也就徒剩“初级算力”的spec参数和猛力造词,比气势!
智算出处:《后汉书·荀彧传论》:“常以为中贤以下,道无求备,智筭有所研疎,原始未必要末,斯理之不可全诘者也。”
最后,以澎峰科技与西研院联合研发的RISC-V高性能通用计算型服务器为例,HS-S1-2服务器描述的算力为4TFlops(FP64)的初级算力,已然挤进来了国产处理器的第一梯队,但计算软件栈仍有许多工作要展开。我们期待RISC-V高性能服务器不单能满足国内自主可控的需求,最终还能卷向全球!