英特尔淡化混合 CPU-GPU 引擎,将 NNP 合并到 GPU 中

英特尔淡化混合 CPU-GPU 引擎,将 NNP 合并到 GPU 中_第1张图片

早在 2022 年 2 月,当英特尔宣布其“Falcon Shores”项目以构建混合 CPU-GPU 计算引擎时,该项目允许在单个插槽中独立扩展 CPU 和 GPU 容量,看起来这家芯片制造商正准备与竞争对手 Nvidia 较量AMD 开始使用混合计算电机,Intel 称之为 XPU,AMD 称之为 APU,而 Nvidia 并没有真正拥有,如果你想严格了解它的“超级芯片”是什么,什么不是。

正如我们当时指出的那样,这种“插槽中的极光”方法将 CPU 和 GPU 小芯片的可变组合放入 Xeon SP 插槽中,具有完全相同的主内存和小芯片之间的极低延迟链接允许更复杂的与 Xeon SP 中的 AMX 矩阵数学单元相比,AI 推理可以处理比 AVX-512 向量单元中更多的 HPC 浮点处理,而不会使客户求助于 Max 系列产品线中的延迟更高的离散 GPU,甚至来自 Nvidia 或 AMD 的独立 GPU。

当英特尔加速计算系统和图形业务总经理宣布时,在今年 3 月 Koduri 离开英特尔后该业务已停止,英特尔承诺 Falcon Shores 将提供超过 5 倍的性能每瓦性能,X86 插槽中的计算密度提高 5 倍以上,内存带宽和容量提高 5 倍以上,所谓的“极限带宽共享内存”。

我们假设将这些数字与“Ice Lake”Xeon SP 服务器插槽进行了比较,并且两者都是当时的顶级零件。

英特尔淡化混合 CPU-GPU 引擎,将 NNP 合并到 GPU 中_第2张图片

Falcon Shores 定于 2024 年推出,人们普遍预计将直接插入未来“Granite Rapids”Xeon SP 使用的相同“Mountain Stream”服务器平台。

我们推测英特尔可以做一些疯狂的事情,比如给 GPU 一个仿真层,让它看起来像一个大而胖的 AVX-512 矢量数学单元,以简化编程。

到今年 3 月,随着 Koduri 离开英特尔,该公司开始倒退,不仅在 Xeon SP 插槽内提供看起来像是五种不同 CPU-GPU 小芯片的组合,而且还取消了“Rialto Bridge”启动器“Ponte Vecchio”Max 系列 GPU 将在阿贡国家实验室的“Aurora”超级计算机中完成大部分 2 exaflops 峰值处理。

当时有传言称,第一批 Falcon Shores 设备将于 2025 年问世,而且上面只有 GPU 小芯片,这使得该设备基本上是 Ponte Vecchio 的独立 GPU 替代品,代替了 Rialto Bridge。Rialto Bridge 之所以被刷新,是因为英特尔希望在其路线图上采用两年 GPU 节奏这是合理的,因为这正是 Nvidia 和 AMD 正在做的事情。

在最近于汉堡举行的 ISC23 超级计算会议上,英特尔阐明了其对 Falcon Shores 的意图,确认该设备不仅将成为纯 GPU 计算引擎,而且混合 XPU 的时机还不成熟。

超级计算组总经理在 ISC23 活动的简报中解释说:“我之前关于将 CPU 和 GPU 集成到 XPU 中的推动和强调还为时过早。” 坦率地说,McVeigh 可能要为 Koduri 甚至 Jim Keller 做出的决定承担责任,Koduri 两年多前离职成为 AI 初创公司 Tenstorrent 的首席执行官,现任首席技术官。

原因是我们觉得我们所处的市场比我们一年前想象的要活跃得多,所有的创新都围绕着生成 AI 大型语言模型。虽然其中大部分已经在商业领域,但我们看到它在科学努力中也得到了更广泛的采用。

当您置身于工作负载瞬息万变的动态市场中时,您真的不想强迫自己走固定 CPU 与 GPU 比率的道路。你不想固定供应商,甚至 X86 和 Arm 之间使用的架构,哪些是最好的,因为它允许灵活性,允许它们之间的良好软件支持,与你在成熟市场中相比。

当工作量固定下来,当你非常清楚它们时,他们不会发生巨大变化,整合很棒。我们已经做了很多很多次整合。它有助于降低成本,降低功耗。但你是固定的。您与这两个组件的供应商是固定的,您与它们的配置方式是固定的。我们只是觉得我们对今天的市场状况进行了真正的清算,现在还不是整合的时候。

鉴于 Nvidia 将销售大量“Grace”CPU 和“Hopper”GPU 超级芯片,而 AMD 至少有一个大客户(劳伦斯利弗莫尔国家实验室)购买了大量其“Antares”Instinct MI300A 混合 CPU-GPU 计算引擎,我们确信 Nvidia 和 AMD 会完全不同意这种评估。

也许这样的 XPU 集成不适合英特尔,它必须削减成本并专注于在其核心服务器 CPU 市场上赚钱,就像自 1990 年代末和 2000 年代初安腾崩溃以来它一直没有关注的那样。或者更准确地说可能不适用于 Intel CPU 内核和 Intel GPU 内核。

或许 Intel CPU 内核和 Nvidia GPU 内核会更受市场欢迎?直到现在,Nvidia 还没有服务器 CPU 业务,所以也许这种潜在合作伙伴关系的时间已经过去,它可能已经看到 NVLink 端口添加到“Sapphire Rapids”和一个巨大的 HBM3 复合体。

无论如何,这并不是英特尔第一次考虑在其至强服务器芯片中的 X86 内核之外进行辅助计算的“frankenchip”设计。这也不是它第一次撤回这些努力。

英特尔于 2014 年 6 月透露混合 CPU-FPGA 设备正在开发中,并于 2016 年 3 月在开放计算峰会上展示了混合 15 核 Broadwell-Arria 10 GX 原型。2018 年 5 月,混合 CPU-FPGA 产品正式推出,CPU 端升级为 20 核 Skylake chiplet,Arria 10 GX 为封装的 FPGA 端。

当然,英特尔多年来一直在单一芯片上销售带有 CPU 和 GPU 的英特尔至强 E3 处理器,但很少谈论集成 GPU 中固有的潜在浮点数学功能不仅价格低廉,而且基本上免费。

Intel 多年前就不再谈论混合 CPU-FPGA 设计,也从未谈论过其低端 CPU-GPU 的可能性,更不用说它如何做一些事情了,比如原定于 2024 年与 Granite Rapids Xeon 一起推出的 Falcon Shores SP。

现在,Falcon Shores 多芯片 GPU 定于 2025 年推出,与“Clearwater Forest”Xeon SP kicker 一起用于 Granite Rapids。

谈到科学芯片,McVeigh 在 ISC23 简报会上的路线图介绍中说了一些非常有趣的话。一、路线图:

英特尔淡化混合 CPU-GPU 引擎,将 NNP 合并到 GPU 中_第3张图片

自 2022 年 5 月以来,英特尔一直在出货 Gaudi2 矩阵数学引擎,这些引擎来自于 2019 年 12 月以 20 亿美元收购 Habana Labs。而我们几乎一无所知并于今年 3 月录制的 Gaudi3 后续作品,看起来将在 2024 年初问世。

之后,在 Falcon Shores 多芯片 GPU 在 2025 年达到路线图时,高迪与 Ponte Vecchio 和 Falcon Shores GPU 之间的分界线消失了。

如果您有一个具有大量混合精度矩阵数学的 NNP 和一个具有大量混合精度矩阵数学的 GPU,如果您可以指望 Falcon Shores 具有同等的魅力,那么您可能不需要 Gaudi4。

特别是如果你需要像英特尔那样削减成本以实现其在 2023 年削减 30 亿美元成本并在 2024 年和 2025 年(含)期间再削减 50 亿至 70 亿美元成本的目标。

McVeigh 表示,Falcon Shores 将同时针对 HPC 和 AI 工作负载,升级到 HBM3 内存,并将“汇集我们 Gaudi 产品的最佳优势,其中包括标准以太网交换”和“为规模设计的 I/O”。

英特尔淡化混合 CPU-GPU 引擎,将 NNP 合并到 GPU 中_第4张图片

I/O 看起来像是 CXL over PCI-Express 将 CPU 连接到 Falcon Shores GPU,但如果我们没看错的话,它将使用 Habana Labs 创建的增强版以太网结构将 GPU 连接在一起。

Gaudi1 芯片可以扩展到 128 个与运行 RoCE 的以太网结构互连的设备。每个 Gaudi1 都有十个 100 Gb/秒以太网端口,您可以在一个节点中放置四个设备或八个设备,并扩展到 32 个节点或 16 个节点以达到 128 个完全互连的节点。

Gaudi2 设备可扩展到 24 个以 100 Gb/秒的速度运行的集成以太网端口,这些端口以全对全、非阻塞拓扑将八台设备相互连接:

英特尔淡化混合 CPU-GPU 引擎,将 NNP 合并到 GPU 中_第5张图片

为了创建八路 Gaudi2 系统,每个设备上的 24 个端口中的 21 个用于在矩阵引擎之间建立全对全链接。

每个设备的三个端口以交错方式聚合到总共六个 QSFP-DD 端口,从 Gaudi2 机箱出来,提供互连以扩展 16 或 32 个 Gaudi 外壳,正如我们所说,这是通过常规以太网交换机完成的。

不难想象,这种 Gaudi 以太网结构将升级到 400 Gb/秒甚至 800 Gb/秒的端口,这些端口来自 Falcon Shores GPU,并使用类似的快速以太网交换机将更多设备连接在一起。

更令人遗憾的是,英特尔不再拥有以太网交换业务,因为它已经将其收购的 Barefoot Networks 的 Tofino 产品线搁置起来。客户将不得不选择基于 Broadcom、Nvidia、Marvell 或 Cisco Systems 芯片的以太网交换。

看起来英特尔也将从 Gaudi 设备中获取脉动阵列,我们称之为矩阵数学引擎并使用它们来代替 Ponte Vecchio 设计中使用的 X e 矩阵数学引擎。所以,Gaudi4 不要指望它是一个独特的产品。

收购 Nervana Systems 和 Habana Labs 所产生的价值 23.5 亿美元的 NNP 实验就这么多了。未来的 NNP 是英特尔的 GPU。

唯一会购买 Gaudi2 和 Gaudi3 的公司是那些迫切需要任何矩阵数学功能并且还致力于英特尔未来的 Falcon Shores GPU 的公司。

你可能感兴趣的:(网络研究院,python,算法,人工智能,GPU,芯片)