参考资料:《AI芯片:前沿科技与创新未来》张臣雄著
希望大家能够购买原书阅读,这是一本非常值得学习的书
神经元由树突、突触、核及轴突构成。
权重–突触,偏置–阈值,激活函数–神经元
CPU:
优点:普及、提供复杂的控制流
缺点:存在结构限制,性能无法快速发展以满足高吞吐量与低时延的计算
GPU:
优点:GPU大规模并行协处理器适合AI这样需要高性能并行计算的场景,能满足更快更高精度的AI的需求,可以用于模拟类脑架构。
缺点:设计存在一些缺陷,如无法快速为GPU加载数据
FPGA:
优点:可以在运行之前和运行期间对硬件进行重构,具有极大的灵活性,灵活性高和上市时间短、并行化程度可以做的很高
缺点:与ASIC相比,速度慢,面积大,功耗高
ASIC
优点:性能、算法实现更好,高性能、低功耗
缺点:成本高,一旦生产无法修改
FPGA、CPU种类丰富、价格便宜,有更大的选择范围。
GPU擅长矩阵和矩阵的乘法,具有数百到数千个乘积累加的核,适用于张量处理。但是GPU主要用于处理图像,除了处理张量外的功能导致了高功耗。
ASIC用于张量处理功能功耗低。
贴近大脑的生物特性,具有在模拟方面更准确模拟人类大脑的运作的功能的AI芯片。这类芯片基本没有时钟,采用事件驱动型操作,功耗低。
忆阻器(Memristor)是深度学习加速器和类脑芯片的潜在硬件解决方案
原理:能够根据在其端子上施加的电压、电流来改变其电导率
忆阻器的阵列结构最适合点积乘法与累加运算,降低功耗
忆阻器结构与基于脑神经元的类脑结构十分吻合。
多层感知器(MLP)卷积神经网络(CNN)循环神经网络(RNN)----LSTM
监督学习:基于观察数据的训练集来学习关于数据所有可能轨迹的函数。决策树、朴素贝叶斯、随机森林、SVM、CNN、RNN、LSTM
无监督学习:从没有标记的数据集中进行推理。聚类技术、自组织映射、自动编码器、受限玻尔兹曼机
半监督学习:既有一些未知模式也有一些已知模式,前者为未标记数据,后者为标记数据。强化学习
脉动式电路、异步电路、新的散热方式、芯粒、大芯片、晶圆级集成、自供电电路、量子芯片
基本指标:芯片每秒的操作数(TOPS)
MAC/s(乘法和加法表示)
单位功率下芯片每秒的操作数(TOPS/w)
1时延
2功耗
3芯片成本/面积
4精度
5吞吐量
6热管理
7可扩展性
8灵活性/适用性
1:英伟达,GPU,GPU加速器,提高GPU引擎的应用的吞吐量
3:谷歌TPU,自主开发一种新的处理器架构以优化机器学习
英特尔CPU,神经网络处理器(NNP)等,收购大量AI芯片公司
微软选用FPGA实现灵活的NPU
模仿大脑行为的模型进行计算
贴近大脑的生物特性,具有在模拟方面更准确模拟人类大脑的运作的功能的AI芯片。
SNN模型的基本原理 他跟现有深度学习网络有什么区别 优缺点
脉冲神经网络使用脉冲的方式与生物神经元类似,除了神经元的状态和突触权重之外,还将时间概念纳入操作模型中,神经元中仅在其状态达到特定阈值时才发出输出峰值,网络中的信息流是脉冲序列。
一个神经元有许多输入脉冲,并在超过触发阈值时输出一个脉冲。
类脑芯片是由一个或几个神经核组成的芯片。神经核继承了处理神经元膜电位。可用忆阻器、自旋电子器件等器件实现。
在20世纪90年代,以模拟计算的形式,使用交叉开关阵列来完成矢量矩阵乘法,但那时不具备有很好的拓展性。
随着基于忆阻器的RRAM异军突起,一种基于交叉开关阵列的新型模拟计算器件出现了。RRAM的出现使模拟计算又重新受到了重视。
而在新型非易失性存储器(NVM)中,除RRAM外,其他存储器如相变存储器(PCM)、磁性存储器(MRAM)和铁存储器FeRAM,都可通过施加电脉冲,显示出多级可编程性。此功能非常适合基于模拟计算的深度学习加速器的基本需求。
优点:模拟计算拥有速度优势
缺点:由于计算采用模拟方式,所以输入和输出将采用DAC和ADC电路。由于处理每个神经元层时需要高度并行,ADC运行速度非常快,从而需要大量功耗和芯片面积。
冯诺依曼架构:处理单元和存储器时物理上分开的。
存内计算:将大量的小型处理单元和本地存储器并行连接到GPU或者专用AI处理器的芯片上,这种直接再存储器上操作的方法称为存内计算。
基于存内计算现有的AI芯片的研究方向和发展现状
1 改进现有存储器来完成存内计算①基于SRAM的存内计算方法②基于DRAM的存内计算③用NOR闪存技术实现存内计算
2 用3D堆叠存储技术来完成存内计算
3 用新型非易失性存储器来完成存内计算
将计算从精确变为可以接受的“近似”,并且带入“容错”功能。在芯片设计设计的每一层级都能使用近似计算。应用、算法、架构、电路、器件层都可以使用。
近似加法器的原理:近似加法器分为两个部分,较高的有效位(精确)上部和较低的有效位(近似)下部。每个低位,一个单比特的近似加法器执行一个修改过的不精确的加法功能。
近似加法器有多种设计,一种是近似镜像加法器(AMA)(从晶体管级减少一个逻辑运算,即通过一处一些晶体管以获得较低的功耗和电路复杂度),另外一种是基于XOR/XNOR设计的(基于使用带有多路复用器MUX的XOR/XNOR门和晶体管组成的加法器,其中4个晶体管用于XNOR门)。
优点:AMA用降低精度换来了能效、性能方面的提升,并节省了面积。
缺点:会降低噪声容限
自然计算:是指从自然界所蕴含的丰富信息处理机制中,提取出相应的计算模型,再设计成相应的算法应用。
自然算法可分为:物理、化学、生物、人文社会
蚁群算法、自组织算法、灰狼算法、狮子算法;模拟退火、光子计算、量子计算、黑洞算法;模糊计算、文化算法、足球世界杯算法
什么是模拟退火
模拟退火算法类似于爬山法,考虑了从当前位置可以做出的移动选项。它不像贪婪随机算法那么“贪婪”,有时也会后退一步,然后再前进两步。
模拟退火算法接受较差分数的概率,可以用下面公式表达:
P(e, e’,T)=exp(−(e’−e)/T)
简单了解,忆阻器实现模拟退火。
什么是量子启发AI芯片
按照量子退火的基本模型和思路,用现有CMOS芯片工艺实现这类型的半导体芯片,称为量子启发AI芯片。
什么是量子退火
量子退火通过使用叠加状态搜索各种可能性来有效地解决优化问题。
伊辛模型的概念
伊辛模型是一种将问题的参数映射到相互作用的磁力的模型,可以通过这个模型搜索解决方案,从而找到一个最优解。
自学习 元学习 元推理 基本概念
自学习:掌握学习方法、有创造力
元学习:让AI从数据本身学会“如何学习”的算法
基础学习者、元学习者
元学习的目标是夸任务传递知识(知识迁移)
元推理:是一种针对有效部署计算资源问题的解决方案。
类似于元学习的“学会如何学习”,元推理是关于推理的推理,即“思考如何思考”,意味着作出关于如何思考或推理的明智决策。元推理是一种更为普遍的现象,其特征在于选择或发现将用于解决任务的认知过程的方法。元推理被认为是人类智能的一个关键组成部分,有可能解释人类认知的各个方面。
元推理过程
理性智能体通过从它的一组能力中选择一些动作,感知来自环境的一些激励,并且合理、理性地动作以实现其目标,随后在目标层面感知这些基础动作的结果,并且继续循环。元推理是推理这个推理循环的过程。
目的:让AI系统知道哪些运算是必要的、那些运算是没有意义的。
它能够监测自己的状态、行为及外部环境,从而智能地进行调整,以及智能地自我“进化”。
1学习模型:捕捉有关自身及其环境的知识(如架构、设计、状态、可能的行动和运行时行为)
2使用模型推理(如预测、分析、决策、计划):模型推理可以使这些模型能够按照目标等级,根据它们的知识和推理采取行动(如探索、解释、报告、建议、自适应或影响其环境)。
自进化并不意味着使用具有进化算法的软件来模拟电路设计的迭代改进。它需要在在线改变硬件的实际结构,也能够动态和自主地重新配置其结构。自进化芯片的发展与进化算法和可重构电路领域的进步密不可分。
自进化功能不只是用于芯片本身的自修复、自适应等用途,还可以让人们设计具有所需AI功能的芯片。
自进化AI芯片包含:神经网络模型、编译器、进化算法和可重构AI架构电路。
深度强化学习(DRL)是强化学习(RL)和DNN的组合,可以说是AI领域现在最热门的方向之一。
DRL的处理过程包含两个步骤:样本采集(SC)和策略更新(PU)
使用神经网络模拟“小脑”的新方法,与深度学习相反,这种方法是浅度学习,因而计算速度很快。这种新的AI系统所基于的计算范式,称为储备池计算(Reservoir Computing)。
NTV 近阈值电压 :降芯片电压
WPT无线电力传输:就是通过空中的无线电波,把能量远距离传送出去,让每个设备随时随地可以获得电能
集成电路上可以容纳的晶体管数目在大约每经过两年翻一番。
摩尔定律进一步、比摩尔定律更多、超越CMOS
3D堆叠芯片、芯粒、先进的芯片封装技术、大芯片
自旋FET、自旋力矩器件、自旋波器件、隧道晶体管、压电晶体管、分子开关、纳米机电系统、热敏晶体管、超导晶体管
3D堆叠芯片是一种多芯片封装方法。3D堆叠的最终目标是使用高密度的3D互连,做成单片3D集成芯片,其中依次制造多个有源区,垂直互连通过常规金属通孔实现。
优点:将提高整体计算和存储密度。
芯粒是一种异质封装技术。现在一些公司在组建芯粒库,包括FPGA、I/O、处理器、ADC/DAC、存储器、机器学习核等。有点类似于IP核。
优点:模块化、灵活性高、成本低、高良率
超材料是人工设计和制造的一个非传统方式操作电磁波的结构材料。
电磁波DNN的输入是电磁波;
电磁波DNN中任何神经元的激活函数是波干扰现象和与超材料谐振器的电磁波相互作用的表达;
电磁波DNN中神经元之间的耦合基于波传播和干扰的原理。