存内计算——助力实现28nm等效7nm功效

算力是数字经济时代的核心生产力,并且近年来需求剧增。而我国当前的算力供给上仍面临巨大的挑战,一方面,国外的高端算力芯片被美国禁售,另一方面,国内的芯片产业仍处于发展阶段[1]。如何获取算力提升,成为当前时代芯片研究的重要命题。

一.算力突破

研究如何获取算力提升,要从算力的来源上考虑。芯片算力可大致总结为以下计算公式:

因此,获取算力提升的主要切入点是晶体管密度、芯片面积、单位晶体管的算力,这三个方面分别主要涉及制作工艺、光刻口径、计算架构

(1)晶体管密度:

晶体管密度的主要影响因素是制造工艺、基板材料,同样的面积内,封装的可用晶体管越多,就能提供越强的算力。

制造工艺方面,受限于美国的无理封锁,当前国内量产芯片的最先进制造工艺为14nm,国际上量产芯片最先进的制造工艺为3nm。清华大学尹首一教授认为,国内芯片制造工艺将长期处于在14nm,国内芯片产业与研究不能指望通过制造工艺获得性能提升。在国际领域,虽然芯片制造商仍能享受到制程工艺带来的升级,但从苹果A17 Pro芯片的性能表现、高通仍然采用基于4nm的升级工艺制造今年旗舰芯片的市场行为来看,产业界最先进的工艺制程已经不及预期。

存内计算——助力实现28nm等效7nm功效_第1张图片

图 1 A17Pro SPEC2017 CPU测试[2]

基板材料方面,随着制造工艺步入埃米级别,芯片制造工艺受到硅原子性质的影响越来越大,产业界和学界也在探索新的材料用于制造芯片,通过“弯道超车”的方式提升晶体管密度,比如英特尔等厂商正在研发的玻璃基芯片[3]、北京大学彭练矛教授团队正在研发的碳基芯片[4]。

(2)芯片面积

芯片面积和晶体管密度考虑的是类似的问题,在一颗芯片内提供更多的可用晶体管,就意味着能提供更多的算力。但是在当前,GPU的单芯片面积基本已经达到上限,想通过面积获得进一步的算力提升,可以从拓展角度考虑,有两个探索的方向:平面拓展和垂直拓展。

平面拓展就是在光刻时使用光照拼接技术,实现两个曝光区域的物理连接,来把芯片做大,通过计算架构的优化设计,保证晶圆中晶体管的可用性,Cerebras公司和Tesla公司已经实现了晶圆级芯片。垂直拓展就是把芯片或其中的部分器件三维堆叠起来,如AMD的3D缓存技术。

存内计算——助力实现28nm等效7nm功效_第2张图片

图 2 AMD 3D缓存技术示意图[5]

(3)单位晶体管提供的算力:

单位晶体管提供的算力和计算架构息息相关,计算架构的优化改进或使用新的计算架构,能够对芯片算力产生更根本的影响。计算架构上面临的主要问题有:基本器件的设计架构不同导致的晶体管数量不同,需要探索更优的基本器件结构设计;冯诺依曼架构的“存储墙”导致的访存瓶颈,限制了算力的发挥,需要降低带宽对算力的限制;功耗限制导致的dark select问题,即为了保证芯片功耗,不能同时点亮芯片上的所有晶体管,需要优化设计来避免。

面对以上的部分问题,产业界和学界已经给出了相应的解决方案。在计算架构的优化方面,有数据流、可重构、存算一体三条路径。首先,数据流芯片尝试不使用指令而是直接通过数据驱动计算,避免外部存储访问,来解决晶体管利用率低的问题。Google的TPU芯片已经证明了,这种方式虽然在单芯片性能上逊于GPU,但能在系统级算力上实现超越[1]。具体来讲,单核TPU v4的性能是低于A100 GPU的,只有它的88%,但1024颗TPU v4的集群性能,超过了A100 GPU的集群性能,最高达到了1.96倍。4096颗TPU v4芯片示意图如下图3所示。

存内计算——助力实现28nm等效7nm功效_第3张图片

图 3 4096颗TPU v4芯片集成[6]

可重构芯片尝试在芯片内布设可编程的计算资源,根据计算任务的数据流特点,动态构造出最适合的计算架构,国内团队设计并在12nm工艺下制造的CGRA芯片,已经在标准测试集上实现了和7nm的GPU基本相当的性能。存算一体尝试通过集成存储和计算在一个芯片甚至一个容器内,来突破访存限制,发挥芯片的最大算力。下面我们将重点介绍存算一体技术。

二.存算一体

存算一体是一种新型计算架构,直接利用存储器本身进行数据处理,从根本上消除数据搬运,实现存储与计算融合一体化,成为后摩尔时代集成电路领域的重点研究方向之一。

(1)存算一体技术优势:

存算一体技术具有很大的优势,存算融合的特点使其天然具备较大算力、低延迟、高带宽等优势。相比传统架构,存算一体大算力芯片不仅仅是能效比有数量级的提升,更重要的是将大大缓解存储墙问题,简化AI服务器集群的互联网络及其管理和各类成本,包括高速互联、DPU和能耗等。因此,存算一体技术是实现芯片算力突破的重要途径,可助力实现28nm等效7nm功效。

(2)传统工艺芯片算力提升实例:

目前已有一些企业和高校,通过存算一体技术,实现28nm制程芯片的能效算力提升。

忆铸科技于2021年10月于上海成立,是一家基于ReRAM设计和落地数字存算一体芯片的企业。在公司的技术畅想中,他们尝试将新型忆阻器、存算一体架构、Chiplet技术、3D封装等技术结合,实现大算力、高能效比的芯片。据其官网信息,亿铸第一代算力芯片采用的工艺为28nm,其能效比可以实现目前主流算力板卡的10倍以上[7]。

2023年8月29日,华为的麒麟9000s芯片随着Mate 60 Pro成功发布,该款芯片一经发出,就引发业界讨论:“麒麟9000s的工艺制程究竟是多少?”在2023年中国集成电路设计业(ICCAD)年会上,清华大学魏少军教授在演讲中提出:“能够用14nm,甚至28nm做成7nm的产品性能才是真正的高手”。据悉,华为并未公布麒麟9000s真正的工艺制程,知名科技解析机构TechInsights对麒麟9000s深入解析结果显示,该芯片确实拥有7nm工艺制程的特性。

存内计算——助力实现28nm等效7nm功效_第4张图片

图 4 华为麒麟9000s芯片

知存科技WTM2101量产芯片采用40nm制程,将神经网络部署在芯片中,已经实现了满足端侧算力需求的语音识别等功能。即将量产的WTM8芯片,采用28nm制程,作为新一代存内AI计算视觉芯片,能够实现图像的AI超分、插帧、HDR识别和检测这样复杂的功能[8],现有的一些研究也已经证明存算一体可以实现16bit、32bit的浮点计算,具备进入高算力芯片的能力。

存内计算——助力实现28nm等效7nm功效_第5张图片

图 5 知存科技WTM-8系列芯片示意图

三.未来展望

随着工艺的进步,先进工艺制程已从28nm发展至3nm,苹果新发布的A17Pro已采用了tsmc 3nm工艺。据悉,tsmc也将投资近万亿新台币建造1nm晶圆厂。在未来,有没有一种全新的方案解决算力不足、工艺制程发展空间受限的局面?存算一体便是答案之一。

表 1 全球主要IC晶圆厂技术演进路线[9]

晶圆厂

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021E

台积电

28nm

20nm

16nm

10nm

7nm

5nm

3nm

三星

28nm

20nm

14nm

10nm

7nm

5nm

英特尔

22nm

14nm

10nm

格罗方德

28nm

20nm

14nm

10nm

联华电子

28nm

14nm

中芯国际

28nm

14nm

7nm

综上所述,存算一体技术因为其特殊优势,可以大大提升芯片算力,从而使得成熟28nm制程芯片能够实现等效于7nm制程芯片的性能。当然这其中还有很多难点需要突破,需要科研工作着的不断努力,期待未来基于存算一体技术的芯片可以更好地突破芯片制程的限制。

参考资料

[1] 尹首一教授报告:以“架构”创新,突破算力卡脖子问题.

[2] 极客湾 space.bilibili.com/25876945.

[3] 第八届未来芯片论坛中英特尔中国研究院的报告.

[4] 北京大学新闻网:专访北大碳基芯片团队:我们换道走了20年,觉得能走下去 (news.pku.edu.cn).

[5] AMD官网 amd.com.

[6] Jouppi N, Kurian G, Li S, et al. Tpu v4: An optically reconfigurable supercomputer for machine learning with hardware support for embeddings[C]//Proceedings of the 50th Annual International Symposium on Computer Architecture. 2023: 1-14.

[7] 忆铸科技官网 (yizhu-tech.com).

[8] 知存科技官网(witintech.com).

[9] 从7nm到5nm,半导体制程 - 吴建明wujianming - 知乎(zhuanlan.zhihu.com/).

你可能感兴趣的:(人工智能,AIGC,架构)