gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解

gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解_第1张图片

来源:内容由半导体行业观察(ID:icbank)翻译自「tomshardware」,作者:Paul Alcorn,谢谢。

AMD是目前唯一一家同时拥有x86处理器和独立显卡的供应商,至少在英特尔Xe发布之前就是如此,这使Red Team的互连技术具有一定的灵活性。这项技术在高性能计算(HPC)领域特别有用,AMD在昨天的Rice Oil and Gas HPC会议上的演示就证明了这一点。

AMD在2018年的Next Horizon活动中就曾宣布,它将在数据中心MI60 Radeon Instinct GPU之间扩展Infinity Fabric,以实现GPU之间的100 Gbps链接,就像Nvidia的NVLink一样。今年5月,AMD在其前沿超级计算机(Frontier super)的发布会上透露,它将扩展这种方法,使CPU和GPU之间的内存保持一致。

gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解_第2张图片

(图片来源:Twitter)

一年一度的Rice Oil and Gas HPC还未结束,根据Intersect 360 Research分析师Addison Snell 昨天的推文显示,AMD宣布,未来的Epyc + Radeon将会基于Infinity Fabric,在GPU和CPU之间采用内存一致性,类似于AMD在其Raven Ridge Ryzen产品中启用的功能。

我们还看见了在Rice Oil and Gas上展示的一些幻灯片,这是 由Extreme Computing Research Center高级研究科学家Hatem Ltaief 的推文提供的。

gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解_第3张图片 gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解_第4张图片 gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解_第5张图片 gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解_第6张图片 gpu cpu 共享内存 提高传输速度_AMD连接CPU和GPU的新架构详解_第7张图片

(图片来源:Twitter @HatemLtaief @addisonsnell)

AMD的图表突出显示了不同计算解决方案(例如半定制SoC和FPGA,GPGPU和通用x86计算内核)能效之间的差异,并强调了相对于功耗和提供该性能所需的硅面积的FLOPS性能。如我们所见,通用CPU落后了,但是使用专用SIMD路径矢量化代码的优化可以提高两个指标的性能。但是,GPU在功率效率和尺寸方面仍然占据优势 。

就像公司使用Ryzen APU一样,利用内存一致性,可以实现两全其美,根据幻灯片显示,这两方面包括统一数据以及为所有代码提供“简单的CPU + GPU入口”。

AMD还提供了一些没有内存一致性功能的GPU的例子,结果表明,内存一致性架构可以减轻许多编码负担。

众所周知,AMD采用了异构系统架构(HSA - deep dive here),将Carrizo的固定功能块集成在了一起。与在CPU和GPU之间采用Infinity Fabric进行连接,从而实现扩展的方法类似,HSA也提供了一个内存一致性的共享虚拟内存池,它消除了组件之间的数据传输,从而降低延迟并提高性能。

例如,当CPU完成数据处理任务时,数据可能仍需要在GPU中进行处理。这要求CPU将数据从其内存空间传递到GPU内存,GPU随后会处理数据并将其返回给CPU。这个复杂的过程增加了延迟,并导致性能下降,但是共享内存使GPU可以访问CPU正在使用的相同内存,从而减少并简化了软件堆栈。

数据传输通常比实际计算本身产生更多的功耗,因此消除这些传输可提高性能和效率。通过在离散的GPU和CPU之间共享内存,再将这些好处扩展到系统级,可以使AMD在HPC领域比其竞争对手更具优势。

尽管AMD似乎仍然是HSA基金会的成员,但它不再积极促进HSA与媒体的交流。无论哪种情况,很明显,开放式体系结构的核心仍然掌握在AMD手中,它可能会严重依赖于开放的ROCm软件生态系统,而这个生态系统是由DOE赞助的。

AMD在这方面开辟了道路,并为百亿级别的系统赢得了发展的机会,包括最近的El Capitan超级计算机,该超级计算机将采用两个exaflops,并使用新的Infinity Fabric3.0。此外,英特尔也在开发Ponte Vecchio架构,该架构将被用于美国能源部(DOE)阿尔贡国家实验室的Aurora超级计算机上。英特尔的方法主要依靠其OneAPI编程模型,并且还旨在将CPU和GPU(被称为Rambo Cache)之间的共享内存池连接在一起。随着更多信息的披露,我们也会更多地了解这两种方法之间的差异。

在这种情况下,英伟达在超级计算机领域可能会遭受损失,因为它只有GPU而没有CPU,因此无法启用类似的功能。要在可接受的功率范围内达到百亿级的性能,是否需要这种类型的体系结构以及底层的统一编程模型?这是一个悬而未决的问题。AMD和Intel都赢得了美国DOE百亿级超级计算机的合同(更广泛的服务器生态系统通常采用获胜的HPC技术),Nvidia作为提供一致性功能的CXL联盟的一部分,尽管Nvidia的GPU加速计算在HPC和数据中心领域中占据主导地位,但Nvidia尚未宣布有关的消息。

*点击文末阅读原文,可阅读英文原文

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2241期内容,欢迎关注。

★Chiplet最强科普

★群雄争食5nm盛宴

★eMRAM时代终于要来了?

“芯”系疫情|ISSCC 2020|日韩芯片|华为|存储|氮化镓|高通|康佳

ae14b7b79d2b8143aca190b519865fa8.gif

你可能感兴趣的:(gpu,cpu,共享内存,提高传输速度)