计算型存储/存算一体

姓名:李沈轩    学号:20181214373    学院:广研院

【原文链接】计算型存储/存算一体如何实现? - 知乎 (zhihu.com)

【嵌牛导读】本文介绍了什么是存算一体?

【嵌牛鼻子】存算一体

【嵌牛提问】什么是存算一体,如何实现?

【嵌牛正文】

1 引言

随着处理器和存储器的工艺提升差的变大,冯 诺依曼体系结构下存储墙剪刀叉不断增大,访存功耗墙问题也日益突出,工业界和学术界开始从聚焦计算转到聚焦存储。与此同时,高访存、高并行、低精度的人工智能和类脑计算等应用的快速也驱动了计算型存储/存算一体/存内计算的发展。 随着处理器和存储器的工艺提升差的变大,冯 诺依曼体系结构下存储墙剪刀叉不断增大,访存功耗墙问题也日益突出,工业界和学术界开始从聚焦计算转到聚焦存储。与此同时,高访存、高并行、低精度的人工智能和类脑计算等应用的快速也驱动了计算型存储/存算一体/存内计算的发展。 

1.1 冯诺依曼架构下的存储墙

传统的计算机采用冯诺依曼体系结构,在这种体系结构中计算和存储功能是分离的,分别由中央处理器CPU和存储器完成[30]。CPU和存储器通过总线互连通信,CPU从存储器读出数据,完成计算,然后将结果写回存储器。冯诺依曼架构以CPU为核心,其他部件都是为CPU服务。

在冯 诺依曼体系结构中对处理器聚焦的牵引下,设计者和厂商对处理器性能的关注远远超过对存储器性能的关注。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线。面向用户对处理器的高性能需求,半导体厂商通过提高内部晶体管的开关速度来制造更快的逻辑,使用更多的金属布线层来降低互连线延迟,从而不断提高处理器的性能。而对于存储器,用户追求的是大容量和保持时间。半导体厂商针对存储器的工艺生成线则强调用更多的晶体管层来获得更小的存储单元面积,增大存储容量。此外,处理器和存储器不同的工艺芯片也意味着不同的封装工艺。处理器要求昂贵的封装来增加散热,还需要上千的引脚来增加与外存的连接带宽。但是对于存储器封装而言,由于其功耗不高,引脚较少,因此对封装要求不高。

处理器和存储器二者的需求不同,工艺不同,封装不同,导致二者之间的性能差距越来越大。从1980年开始至今,处理器和存储器的性能差距不断拉大,存储器数据访问速度跟不上CPU的数据处理速度,导致了存储墙问题越来越严重[31,32]。

造成“存储墙”的根本原因是存储与计算部件在物理空间上的分离。从图2中可以看出,从 1980年到 2000年,两者的速度失配以每年 50%的速率增加。为此,工业界和学术界开始寻找弱化或消除“存储墙”问题的方法,开始考虑从聚焦计算的冯诺依曼体系结构转向聚焦存储的“计算型存储/存算一体/存内计算”。

1.2 通信和访存功耗开销

处理器和存储器由于工艺和封装不同,二者之间的性能差距越来越大。存储器的性能提升远远落后于CPU的性能,与此同时,数据移动的能耗比也随之不断增加,数据搬移需要的能量在整个计算中占非常的比重,而且数据搬运的效率不会因为摩尔定律的发展而提高。

根据研究显示,数据搬运消耗的能耗是浮点计算的4到1000倍,如图所示[1]。而且随着半导体工艺的进步,虽然总体功耗下降,但是数据搬运的功耗占比越来越大。根据intel的研究显示,工艺到了7nm时代,访存功耗达到25pJ/bit(45.5%),通信功耗达到10pJ/bit(18.2%)数据传输和访问功耗占比达到了63.7%。

访存功耗的问题日益严重,研究者和厂商开始从工艺、体系结构等方面尝试缓解这个问题。计算型存储/存算一体/存内计算将计算和访存融合,在存储单元内实现计算,从体系结构上消除了访存操作,从而避免了访存延迟和访存功耗,是一种极具前景的解决方式。

1.3 人工智能应用的驱动

应用发展至今,人工智能的出现驱动了计算型存储/存算一体/存内计算的发展。人工智能算法的访存密集(大数据需求)和计算密集(低精度规整运算)的特征和为计算型存储/存算一体/存内计算的实现提供了有力的条件:

1)人工智能算法是一个很庞大和复杂的网络,包含大量的图像数据和权重参数,计算的过程中又会产生大量的数据。以VGG-16[33]网络为例,其权重数量约为 1.4*108,处理一张大小为 224*224的3通道图片需要进行约 1.5*1010次乘加操作,数据需要在计算单元和存储单元之间进行频繁的移动。访存带宽成为了卷积神经网络的重要瓶颈之一。同时,将数据从 DRAM 存储中移动到计算单元所需的能耗是计算本身耗能的200倍[34],严重影响了卷积神经网络的计算能效。因此,对于卷积神经网络,迫切需要合适的手段来减少数据移动及其带来的性能和功耗开销。

2)人工智能算法的训练和推理过程存在大量的规整运算,例如乘加运算。为了完成大量的计算,一般芯片的设计思路是增加大量的并行计算单元,比如上千个卷积单元。但是随着运算单元的增加,每个运算单元能够使用的存储器带宽和容量都在逐渐减小,访存成为了人工智能的性能瓶颈。人工智能算法在芯片实现时遇到的核心问题从原来的对算力的强大需求转到了对访存带宽和功耗的约束上。例如可以提供众多计算资源的GPU,在运行时,其实际计算能力与计算资源大为降低,计算效率受到了访存的极大限制。同时,人工智能算法中的运算对精度要求不高。

因此,针对人功智能算法的访存密集型特性,以及密集计算中的规则运算和低精度的需求为,众多研究者开始关注计算型存储/存算一体/存内计算。并且低精度的运算需求也为其实现提供了更多的可能性。

2 现有的解决存储墙和降低访存功耗方法

早在存储墙和访存功耗问题暴露之初(1990s),研究者就开始寻找解决或者弱化的方法,从最初的多级存储架构,到近存储计算,直到计算型存储/存算一体/存内计算,研究者做了大量的工作。这些方法大体上可以分为三类:

1)高速带宽数据通信:光互连、2.5D/3D堆叠。

2)缓解访存延迟和功耗的近数据存储:增加缓存级数、高密度片上存储

3)缓解/消除访存延迟和功耗的计算型存储/存算一体:DRAM上的逻辑层和存储层的堆叠(类似近数据存储)、真正的存算一体(存储器颗粒本身的算法嵌入)。

2.1 高速带宽数据通信

高速带宽数据通信主要包括光互连技术和2.5D/3D堆叠等技术,这些技术可用于缓解访存墙问题。光互连技术可实现数据的高速传输,减少功耗。2.5D/3D堆叠技术见多个芯片堆叠在一起,提高存储密度,扩大存储容量,通过增大并行宽度或者利用串行传输提升存储带宽。这两种技术通过降低访存延迟的方式缓解访存墙问题,同时,由于延迟的降低也使得访存功耗降低。

2.1.1 光互连技术

计算机信号传输技术在不断向高速高密度化发展,传统的铜导线由于其电子传输的物理特性,传输作业时功耗巨大。这种传统的电互连网络,受限于集成电路发展限制,已经在带宽、延时、功耗方面均遇到了瓶颈。

与传统电气布线方式相比,光互连技术可实现与距离无关的高速传输,采用光互连替代铜导线电子互连,可以解决信号传输的功耗问题,大幅度降低作业成本。全光网络不但拥有10TB以上级的带宽,也能通过减少频繁光电转换以改善延时和功耗,是大幅提升网络综合性能的理想解决方案。并且,光网络技术已被广泛用于数据中心和骨干网建设当中。与电互连相比,光互连具有高带宽、长距离、低损耗、无串扰和电磁兼容等优势,随着传输速率的不断提高,光传输具有明显的应用优势。

虽然目前市场已有基础的光器件和光交换方案,但是光互连技术的发展还有一些问题亟需解决:

1)光互连的实现还以来于板间、板面、板内、芯片-板级、芯片-芯片级的光电转换器、调制器、连接器等辅助器件的发展。其功能和性能距离应用需求还有一定的差距;

2)传统光网络技术无法解决光存储问题,因此只能通过建立连接的方式来实现光交换,导致光交换需要高达10ms的建立连接开销,无法适应于高性能计算等频繁切换通信目标的应用场景;

3)其次,当前光交换商用产品出货量太小,采购成本较高。而且,一些光交换技术目前只在国外公司的产品中实现就,国内并未有替代提供商。能否通过寻找国内替代提供商甚至联合研发来保证网络核心部分全国产化也是神州Ⅷ网络方案的一大挑战。

2.1.2  2.5D/3D堆叠

在封装领域,许多半导体厂商开始采用2.5D/3D堆叠技术。随着硅通孔TSV等技术的发展,2.5D/3D堆叠技术可以在处理器周围堆叠更多的存储器件,逐渐成为人工智能应用和数据中心应用等性能需求的解决方案。

2.5D堆叠技术是将多块芯片在硅interposer上使用互连线连接在一起。由于硅interposer的互连线密度可以远远高于传统PCB上的互连线密度,因此可以实现高性能互连。2.5D堆叠技术仍然是一种二维平面的叠加。

3D堆叠技术是将多个芯片堆叠在一起,并使用TSV技术将不同的芯片之间互连。3D堆叠技术是一种三维的多层堆叠,通过TSV实现多个晶片在垂直方向的通信。

近年来业界诞生了2种基于TSV(Through Silicon Via)技术的堆叠DRAM架构新型存储技术,分别为HMC(Hybrid Memory Cube混合存储立方体)和HBM(High Bandwidth Memory高带宽存储器)。与传统存储技术不同,HBM与HMC利用2.5D/3D架构堆叠DRAMs提高存储密度、扩大存储容量,通过增大并行宽度或者利用串行传输提升存储带宽,不同程度简化系统存储控制设计难度,具有高集成度、高带宽、高能效等性能优势。HBM与HMC技术的推广及应用很大程度上取决于TSV与3D封装工艺的进展,同时也需要考虑冷却散热、生产制造、成本价格等因素。

具体就技术规范而言,HBM仍属于并行存储范畴,而HMC则属于串行存储产品。HMC采用基于SerDes的串行传输方式,传输速率可达15~30Gbps,可以获得很高的存储带宽,如果使用15Gbps SerDes,则单颗4-Links HMC存储带宽可达160GB/s。HBM采用高位宽并行方式,单个stack可支持高达8个通道,每个通道128bit总计1024-bit位宽,带宽可达128~256GB/s。从封装形式来看,HBM必须采用2.5D/3D封装结构,SOC必须采用SiP封装设计技术,完成2.5D硅基板与封装基板设计开发,系统设计难点主要集中在封装级。HMC则区分裸芯片与封装产品(封装产品为主流应用),HMC产品主要在印制板安装使用,并不是必须采用2.5D/3D封装技术,系统设计难点主要集中在印制板级。

2015年6月,AMD推出了第一款使用3D堆叠的GPU,Fury X GPU,这款GPU在内部集成了4GB的3D堆叠HBM,大大减少了数据移动的功耗。此后,AMD又发布了Vega,NVIDIA也发布了Volta GPU,二者均集成了16GB的HMB2。Intel公司推出的Nervana也使用了3D HBM,Wave Computing使用了美光的HMC。

2.2 近存储计算

近存储计算的基本思想是将数据靠近计算单元,从而减小数据移动的延迟和功耗。近存储计算的实现方式目前主要包括多级存储架构和高密度片上存储。

2.2.1 多级存储架构

多级存储架构是在CPU和主存之间插入一系列的高速缓冲存储器Cache。Cache由容量小、价格昂贵的静态存储器SRAM构成,其速度高于普通的动态存储DRAM。越靠近CPU的存储容量越小,速度越快,价格越高。

在多级存储架构下,程序员利用程序的时间局部性和空间局部性,将数据从主存搬运到最靠近CPU的Cache中,从而减小访存延迟。多级存储虽然在一定程度上缓解了存储墙问题,但是也并未从根本上消除存储墙。

2.2.2 高密度片上存储

高密度片上存储

2.3 计算型存储/存算一体/存内计算

高速带宽数据通信和近存储计算仍然都是一种以冯诺依曼架构架构为核心的实现方式,本质上仍是一种以计算为中心的实现方式。一些研究人员提出了一种以存储器为中心的体系结构,称为“智能存储”。其核心思想是将部分或全部的计算移到存储中,计算单元和存储单元集成在同一个芯片,在存储单元内完成运算,让存储单元具有计算能力。这种极度近邻的方式完全消除了数据移动的延迟和功耗,彻底解决了存储墙问题。

目前研究领域或市场领域内的存内计算主要从两个方面展开:

混合计算存储:类似近数据存储的方式,即基于堆叠技术将逻辑层和存储层的堆叠在一起,逻辑层实现存储层中数据的计算。

存算一体:真正的存储和计算的融合,即在存储器颗粒本身进行算法嵌入,在存储颗粒内实现计算。

2.3.1 混合计算存储

在访存墙问题出现之初,研究者想尝试将存储和逻辑用同一工艺实现,从而构建芯片内的存储计算。但是,存储器制造工艺和逻辑制造工艺不同,而且二者不兼容。用存储器工艺构建逻辑单元或者用逻辑工艺构建存储器都比较困难。DRAM工艺中的晶体管面向面积和漏电流进行了优化,但是性能较差。而且,DRAM工艺通常只有3层金属层,而逻辑工艺一般有12层金属层,这就意味着DRAM工艺中的逻辑电路可能会产生高的互连开销。根据研究显示,DRAM工艺的逻辑电路会有22%的性能损失和80%的面积开销[2]。反之,使用逻辑工艺构建DRAM将会产生10倍的面积开销,4倍的功耗以及100倍的恢复时间[3,4]。

因此,借助于3D堆叠技术的发展,研究者开始考虑将不同工艺制造的逻辑层和存储层堆叠在一起来构建混合计算存储。混合计算存储目前主要基于DRAM构件实现。混合计算存储将给予处理器工艺的逻辑层和基于存储器工艺的多个DRAM芯片层垂直堆叠在一起,各层之间通过硅通孔TSV连接。垂直对齐的多个内存分区对应一个控制器集成在逻辑层,负责对应的数据读写。混合计算存储由于将逻辑层和存储层封装在一起,减小了数据访问延迟和功耗。

但是混合计算存储中真正的计算操作还是在逻辑层实现,数据仍然需要从存储层搬运到逻辑层,完成计算后再返回到存储层,虽然延迟会因为存储层和逻辑层的距离减少和带宽提高而较少,但是仍然存在数据搬运,并未完全消除访存延迟和功耗,功耗的降低也不一定可观,所以仍然不是一种真正意义上的存算一体。

而且,受限于目前集成电路的工艺水平,这种片上集成的方式无法在性能和容量之间取得一个很好的折衷。

2.3.2 计算型存储/存算一体

随着工艺的发展,访存墙剪刀叉日益扩大,同时,人工智能应用对大数据访存的需求,计算型存储/存算一体被工业界和学术界一致认为是未来的发展趋势。

计算型存储/存算一体是一种数模混合的存储,这种存储在存储器颗粒上嵌入算法,使得存储单元具备计算功能。在这种方式下,数据不需要单独的运算部件来完成计算,而是在存储单元中完成存储和计算,消除了数据访存延迟和功耗,是一种真正意义上的存储计算融合。同时,由于计算完全耦合于存储,因此可以开发更细粒度的并行性,获得更高的性能和能效。

计算型存储/存算一体在存储颗粒上实现计算,这种数字和模拟混合的方式会带来一定的计算精度误差。但是,人工智能算法对精度的误差容忍度较高,因此计算型存储/存算一体对于符合的应用会带来较高的性能收益和能效收益,这种方式尤其适用于人工智能应用。

计算型存储/存算一体目前主要的实现方式有两种,一种是基于易失性、现有工艺较成熟的SRAM或DRAM构建,另一种是基于非易失性、新型存储器件或新材料构建。

受限于存储厂商对工艺和制程的限制,目前的计算型存储/存算一体还属于研究和试验阶段。但是,随着技术的进步和应用的驱动,未来的计算型存储/存算一体一定会成为主流。

3 计算型存储/存算一体研究现状

随着3D堆叠技术的发展,以及新型非易失性存储器器件的日益成熟,面向人工智能算法的大数据应用需求,计算型存储/存算一体逐渐受到了工业界和学术界的关注。目前,已经有很多厂商和研究机构开始进入计算型存储/存算一体领域,例如,INTEL、IMB和三星等厂商纷纷推出实验型架构,一些研究机构也开始基于新器件新材料提前展开研究工作。

根据存储器件的存储易失性分类,计算型存储/存算一体的实现主要聚焦在两类存储上:1)基于易失性的SRAM或DRAM构建;2)基于非易失性的相变存储器PCM、阻变存储器/忆阻器ReRAM、浮栅器件和闪存FLASH构建。

3.1 基于易失性存储SRAM和DRAM的计算型存储/存内计算

易失性存储器SRAM和DRAM工艺成熟,是目前商业化的主要存储器产品。因此,很多的厂商和研究机构开始基于SRAM和DRAM展开存内计算的研究。但是,目前这种计算型存储/存内计算存在一定的问题:

1)由于目前的存内计算还处于实验阶段,存储器厂商对工艺和制程的约束,大多数的研究都是在SRAM和DRAM的灵敏放大器端做工作,无法深入到存储单元实现存储和计算的完全耦合;

2)目前的计算型存储/存内计算基本上智能支持逻辑操作和无进位的计算,对于存储单元间的信息交互还额外需要计算逻辑和控制逻辑的支持。

基于SRAM的计算型存储/存算一体

Intel联合Michigan大学从2016年开始展开基于SRAM的计算型存储/存算一体研究。2016年,基于SRAM实现了支持逻辑操作的可配置的存储器[5],并在此基础上实现了支持无进位乘法运算的计算型cache[6]。2018年在ISCA上发布了面向深度学习算法的神经Cache[7],在文献[6]的逻辑操作基础上实现算术计算可以实现加法、乘法和减法操作。

在文献[5]中,基于6T的SRAM构建了一个可配置(TCAM/BCAM/SRAM可动态切换)的存储器。为了支持逻辑操作,作者在SRAM的存储单元上将字线拆分为左字线和右字线,同时,将传统的差分灵敏放大器变为两个单端的交叉耦合灵敏放大器,这两个单端灵敏放大器分别对应存储的bit-line和bit-line-bar。通过对两个字线和两个灵敏放大器的控制,在灵敏放大器出增加逻辑门,从而可以实现数据的逻辑与、或、非操作。同时,为了支持写操作,在位线方向增加一个列解码器用来选取要写入的列,在两个时钟周期内完成整个写操作。基于这个工作,文献[6]和[7]在灵敏放大器增加逻辑门,从而实现对运算操作的支持。

基于DRAM的计算型存储/存算一体

2017年,三星存储研究部门联合圣芭芭拉大学一起合作,基于成熟的DRAM存储器件在MICRO 大会上推出了DRISA架构[8],DRISA架构基于DRAM工艺实现了卷积神经网络的计算功能,提供大规模片上存储的同时也提供较高的计算性能。作者采用高密度的DRAM工艺,通过对DRAM存储阵列中存储位线的重新设计来实现简单的布尔逻辑和移位电路,并串行迭代使用这些电路来支持加法和乘法等复杂运算。其基本思想有两种实现方式。一种是将字线WL拆分为读字线rWL和写字线Wwl,位线BL拆分为读位线rBL和写位线wBL,分别支持读操作和写操作。增加了一个晶体管将电容从读位线rBL中解耦合出来,这个晶体管是NOR的形式,从而可以天然的实现NOR逻辑操作。另一种实现方式是保持DRAM的cell单元不变,在灵敏放大器端增加额外的逻辑门和latch来实现AND和OR操作。通过实验表明,在这种设计下,针对整数运算,与GPU相比,DRISA可以获得7.7倍的性能提升和15倍的能效提升。

3.2 基于非易失性存储器的新型计算型存储/存算一体

非易失性存储器在最近十几年得到了飞速的发展[9],包括自旋矩磁存储器STTRAM[10],相变存储器PCM[11]、阻变存储器RRAM等[12]。工业界和商业界已经发布了众多容量达到Gb量级的产品,Micon在2010年发布了45nm工艺的1Gb的PCM[13],三星2012年推出了20nm工艺的8Gb PCM[14],随后在2015年Micron联合三星一起推出了27nm的16Gb conductive bridge (CBRAM, 一种特殊的RRAM)[15]。 同年, Micron和Intel共同发布了128Gb 3D XPoint 技术[16]。2013年,Toshiba联合Sandisk发布了24nm工艺的32Gb RRAM[17]。

随着非易失性存储器产品的不断成熟,容量不断增大,研究者开始考虑基于非易失性存储器构建存储系统的可能性。同时,由于非易失性存储器对计算和存储的天然融合性,很多的研究和产品开始朝着基于非异失性存储器的计算型存储/存算一体发展。

相变存储器

相变存储(PCM)是基于硫属化物玻璃材料,能在施加合适电流时将介质从晶态变为非晶态并再变回晶态,基于材料所表现出来的导电性差异来存储数据。

2016年6月,IBM苏黎世研究院在《Nature》发文,宣称创造出了世界上首个人工纳米级的随机相变神经元,可用于创造人工神经元,该人工神经元的膜电位可由该纳米相变器件的相结构表示。

2018年6月8日IBM 在Nature 期刊发表的论文提出了全新芯片设计的方案,通过PCM存储技术实现在数据存储的位置执行计算来加速全连接神经网络的训练,且该芯片可以达到 GPU 280 倍的能源效率,并在同样面积上实现 100 倍的算力。这篇文章基于2016年研究出的相变器件构建了“突触单元”。每个单元由一对相变存储器 ( PCM ) 单元和三个晶体管和一个电容器的组合构成,相变存储器单元将重量数据存储在其电阻中,电容器将重量数据存储为电荷。PCM 是一种「非易失性存储器」,意味着即使没有外部电源,它也保留存储的信息,而电容器是「易失性的」,因此只能保持其电荷几毫秒。但电容器没有 PCM 器件的可变性,因此可以快速准确地编程。当神经网络经过图片训练后可以进行分类任务时,只有电容器权重被更新了。在观察了数千张图片之后,权重会被传输到 PCM 单元以长期存储。

基于阻变存储器ReRAM/忆阻器的计算型存储/存算一体

忆阻器最早由美国柏克莱大学的蔡少棠于1971年提出[18]。2008 年,美国惠普实验室在《Nature》上发文[16],首次将材料研究中发现的电致阻变现象和忆阻器理论联系起来,使“忆阻器”有了真实的器件原型。忆阻器是一种有记忆功能的非线性电阻,其电阻会随着流过的电路而改变。在断电之后,即使电流停止了,电阻值仍然会保持下去,直到反向电流通过,它才会返回原状。所以,通过控制电流变化可以改变其阻值,例如将高阻值定义为1,低阻值定义为0,从而实现数据存储功能。

2010年惠普实验室再次宣布忆阻器具有布尔逻辑运算功能,这意味着计算和存储两大功能可以再忆阻器上合为一体,可能从根本上颠覆传统冯诺依曼架构奠定了器件基础。首个使用忆阻器实现逻辑存储融合的实例是由2010年Borghetti等在《nature》上报道的“材料蕴含逻辑(IMP 逻辑)”[19]。这是一个具有里程碑意义的工作,因为它展示的“状态逻辑”概念突破了传统 CMOS 电路中的逻辑映射方法[20,21]:在CMOS 逻辑中, 输入和输出信号由电路中的节点电压(电平信号) 代表, 通过MOS管的互连结构的使得节点电压之间满足某种逻辑函数关系;而在“IMP 逻辑”中,逻辑的输入输出由忆阻器的电阻状态表示,通过外加操作电压而有“条件地”完成置位(SET)功能,从而在输出(操作后的电阻)和输入(操作前的电阻)之间建立逻辑函数关系。

自从 Borghetti 等报道“IMP 逻辑”的实验结果后[19],这种新的逻辑存储融合技术引起了多个研究领域的关注,展开了一场基于忆阻器实现新型计算模式的研究热潮。2010 年至今,基于忆阻器逻辑计算展开了众多研究工作:

第一类为“忆阻器类CMOS 逻辑”,例如“忆阻器比逻辑”[22]、“忆阻器阈值逻辑”[23,24]等。这类逻辑实现技术是利用忆阻器的分压特性和阈值转变特性影响电路中某一节点电压,使节点电压之间满足某种逻辑函数关系。 其逻辑映射方式与CMOS 逻辑电路极其类似。忆阻器的相互连接决定了逻辑功能。在完成逻辑功能的过程中,并没有非易失性的物理量参与逻辑信息的保存和传递,因此,它不属于逻辑存储融合的范畴,在构建存储计算融合计算系统上并无优势。

第二类为“逻辑存储融合技术”[25,26]。与 CMOS 逻辑不同,逻辑存储融合电路中不以电压信号作为逻辑输出的载体,而是非易失性的电阻状态。逻辑操作跨越器件状态的一个前后变化过程,电阻状态的逻辑输出自发的存储于器件中,实现逻辑和存储功能的融合,为构建存储计算融合的硬件体系结构提供了细粒度的支持。

第三类为“运算存储融合技术”,例如“乘加运算存储融合”[27]、“忆阻器多值逻辑”[28]等。这类电路策略也可用于实现存储计算融合计算系统,但其与“逻辑存储融合技术”略有区别:它的基本单元功能为一个复杂运算 (逻辑) 功能表达式,而不是某个具体的逻辑操作。

圣芭芭拉大学的谢源的研究团队在2018年的ISCA会议和2017年的VLSI Symposium上发表了PRIME架构。PRIME基于忆阻器实现神经网络计算。2019年谢源和新竹清华大学张孟凡团队以及北京清华大学的刘勇攀教授团队、汪玉教授团队合作,将PRIME架构在150nm工艺下流片,在ReRAM中实现了神经网络计算,功耗可以降低20倍,速度提高50倍。计算的功耗和性能大大的提高。

忆阻器与生物大脑的神经网络相似,可以同时处理许多任务。最重要的是,它无需移动数据,可以并行地处理大量信号,特别适合于机器学习系统。编程实践大概10-1000ns,可编程次数10^6-10^12次。

基于浮栅器件/Flash的计算型存储/存算一体

浮栅器件工艺成熟,编程时间10-1000ns,可编程次数10^5,存储阵列大,实现量产运算精度高,密度大,效率高,成本低。适合深度学习和人工智能应用。

目前基于闪存的计算型存储/存算一体的是一家存算一体芯片设计公司,知存科技。闪存的存储单元为三端器件,知存科技利用这一特点,基于NOR Flash构建了存算一体芯片。把乘数直接存入存储单元内,再把数值输入到闪存的阵列之中。每个单元都进行乘法,最后通过一条路径求和,就可以达到存算一体的效果。乘法计算的方式是通过类似模拟电路的电流镜方式。输入电流转换成电压耦合到Flash晶体管的控制栅上,Flash晶体管的输出电流等于输入电流和存储的权重相乘。加法的计算方式类似于并联电路电流求和。具体的实现细节并未被披露出来,目前还未知其内部的设计。根据宣称,2016 和 2017年知存科技的 CTO 曾做出了多个样品,最高峰值运算效率为40TOPS/W,平均值为 10TOPS/W。

4  挑战

面对日益严重的存储墙问题、访存功耗问题以及人工智能应用带来的驱动,计算型存储/存内计算/存算一体提供了一种有前途的方法。从目前的实现方式看,计算型存储/存内计算/存算一体分成了两个路线:基于成熟的易失性存储和不成熟的非易失性存储。无论是哪种路线,都存在一定的挑战:

1)基于成熟的易失性存储:这种方式下的计算型存储/存内计算/存算一体需要融合处理器工艺和存储器工艺。但由于目前处理器与存储器的制造工艺不同,若要在处理器上实现存储器的功能,则可能会降低存储器的存储密度;若要在存储器上实现处理器的功能,则可能会影响处理器的运行速度。很难在性能和容量上有一个很好的折衷。

2)基于不成熟的非易失性存储:非易失性存储对存储和计算的天然融合特定是构建计算型存储/存内计算/存算一体的最佳器件。但是,由于目前厂商和工艺均未成熟。经济上,除了对用于生产这些新技术的现有存储器制造设施的更多投资之外,只要他们仍然可以使用DRAM或Flash就很难让用户转到新技术上。

然而,我们仍然坚信新兴的NVM将成为计算型存储/存内计算/存算一体的支持技术。

你可能感兴趣的:(计算型存储/存算一体)