祥瑞Coding

深鉴科技FPGA2017最佳论文ESE Efficient speech recognition engine with sparse LSTM on FPGA论文详解

背景：FPGA2017的最佳论文为深鉴科技的ESE，把稀疏网络的FPGA实现给出了丰富的参考意义。

目的：详细解析ESE Efficient speech recognition engine with sparse LSTM on FPGA论文。

论文地址：https://arxiv.org/abs/1612.00694

一、摘要

1.1 motivation

1.2 贡献点

1.3 实现

1.4 实现流程

二、背景 LSTM

2.1 模型概览

2.2 模型实现

2.3 LSTM

三、模型压缩

3.1 剪枝

3.2 基于负载平衡的剪枝

3.3 wegiht与activation 的quantization

四、编码与编译

稀疏矩阵的存储

五、硬件实现

5.1 硬件实现的难点

FPGA实现的难点

5.2 系统实现概览

软件端

外部存储

FPGA芯片

5.3 ESE控制器（sheduler）

5.4 ESE channel architecture

ActQueue

SpmatRead

SpMV

ElemMul

Adder Tree

Sigmoid/Tanh

5.5 存储系统

六、实验

6.1 平台及设置

6.2 资源利用

FIFO深度

6.3 准确率，速度与能效

七、个人总结

一、摘要

1.1 motivation

LSTM(long short term memory)被广泛应用于语音识别领域

但为了获得更好的识别效果，LSTM模型通常过大，这会导致：

存储消耗
运算消耗
对于数据中心的较大的TCO（Const of ownership）

1.2 贡献点

剪枝与量化应用于LSTM，剪枝时用到了负载平衡（load balance），将LSTM带来了大量的压缩20x（剪枝10x，量化2x）
提出了一个sheduler，用于编码和分组相应的复杂的压缩的LSTM，分配给PE(Processing Element处理单元)
设计相应的ESE硬件模块，可以直接应用于sparse LSTM

1.3 实现

实现在Xilinx XCKU060 FPGA上，200MHz时钟
ESE在sparse LSTM取得了282 GOPS处理速率，相当于非稀疏的2.52 TOPS的处理速率。
在语音识别的数据集上ESE取得了比core i7 5930和titan X GPU快43x的3x的速度提升
比CPU和GPU能耗降低40x和11.5x

1.4 实现流程

传统的方法是将相应的神经网络直接部署于嵌入式设备上，导致运行速度慢，并且能耗高。

training ——inference

本文采用的方法，先用sheduler进行软件端的压缩，然后进行硬件端的部署从而获得了更好的速度与能效。

training——comprssion——accelerated inference

算法端压缩，用shdeuling的方法将其压缩，并且用稀疏矩阵用CSC的方法进行存储。然后硬件端用FPGA加速。

二、背景 LSTM

2.1 模型概览

如上图 figure 3,包含了两个单元 front-End, Back-End单元。

Front-End: 前端从语音信号之中提取特征
Back-End：后端处理相应提取出的特征并且完成从speech到word的转化。

Back-end包含了：

AM：acoustic model（声学模型）
LM：language model（语言模型）
decoder

这里LSTM主要用于acoustic model

2.2 模型实现

通过front-end前端提取出的特征被用于AM：acoustic model（声学模型）

然后通过解码器运用AM和LM来运用MAP（maximum a posteriori probability最大化后验概率），从而预测相应的语音：

其中:

X表示提取出的特征，是一个向量X=X1X2X3...Xn
目标是words，W=W1W2W3...Wn
最大化的是后验概率P(W|X)

因为特征X已经固定，所以上面的方程可以写为：

上面这两个P(X|W)和P(W)分别是由AM声学模块和LM语言模块得出。

2.3 LSTM

实现过程中，LSTM架构被广泛应用于大规模的语言识别模型。LSTM也是语音识别模块之中最耗费存储和耗费运算的部分。

LSTM的数据流如下图所示：

LSTM是RNN的一种，输入的时刻T取决于在T-1时刻的输出，
与传统RNN的不同在于，LSTM在recurrent hidden layer中多了一个特殊的记忆模块memory block
在memory block之中包含着当前网络的状态（temperal state of network）
memroy block包含着许多个单元，input gate，output gate，forget gate

例如上图之中：

input gate i 控制着流入记忆单元的数据
output gate o控制着流入到剩余网络之中的输出
forget gate f scales the internel state of the cell before adding it as input to the cell, which can adaptlvely forget the cell's memory. 遗忘门会在输入其input之前scales 当前cell的状态，从而达到遗忘的目的。

LSTM的一系列输入为x=（x1：x2：x3：...：xT）, 获得一系列输出 y=（y1：y2：y3：...：yT）：

其中，

O中间一个点表示 element wise multiplication
W 表示权值矩阵，Wic,Wfc，Woc都是peephole connections的diagonal weight
b表示偏置bias vector
sigema 表示logistic sigmoid 函数
i，f，o，c, m表示input gate，forget gate，output gate，cell activation vectory，cell output activation vector。他们都具有同样的size
g与h表示cell input与cell output 的激活函数。

三、模型压缩

模型压缩部分与deep compression高度相关：

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman coding 论文详解：

https://blog.csdn.net/weixin_36474809/article/details/80643784

3.1 剪枝

权重绝对值小于某个值，就剪掉这个权重：此部分详细参考Deep compression

在Kaldi speech recognition数据集上进行相应的剪枝操作，关于剪掉的比例与精度损失parameters pruned away and phone error rate (PER)如图6所示：

剪枝掉93%的数据依然有很好的准确率。在TIMIT数据集上，作者的权值运用了90%的稀疏率。

3.2 基于负载平衡的剪枝

为了更好的执行稀疏矩阵的并行化，作者实施相应的基于负载平衡的剪枝方法。

关于负载平衡的问题，在EIE之中有讨论：

则根据木桶短板效应，并行化之后最慢的PE是所有PE的时间的时长。

基于负载平衡的剪枝就是解决解决这个问题的，在剪枝的过程中，作者将权重的稀疏性定义为10%，然后避免其中的子矩阵低于5%或者大于15%，这样，有利于不同PE之间的负载平衡。

3.3 wegiht与activation 的quantization

作者进一步的压缩32bit的浮点数到12bit定点，然后运用线性的量化来实现于weight和activation

在权值量化的部分，权值分布的dynamic range在每层LSTM之中会被预先分析，以免数据溢出。

权值在不同比特数下的量化。作者用查表和Linear interpolation来实现相应的激活函数，例如sigmoid或者tanh，然后分析相应的dynamic range。然后作者探索用于维持精度的最小的量化的比特数。12bit数之下可以达到没有精度损失。

对于激活函数中的sigmoid或者tanh，采样的分布分别为从[-64 64]和[128 128], 输出为16bit with 15bit的十进制数

TIMIT展示在table 4之中

四、编码与编译

LSTM的运算包括稀疏矩阵的相乘，element wise的multiplication，与memory reference。作者设计一个数据流来实现确定相应的硬件工作。

数据根据所在的行被分成n个block，n是PE的硬件加速模块的一个channel，刚开始的n个行被放入n个不同的PE之中，n+1行被放入第一个PE之中，入错循环。这样可以保证矩阵的第一部分会被第一时间读入，也会在后面的运算之中迅速实现。

（这里可以参考EIE之中，讲的更详尽一些，摘录过来）

这是一个稀疏矩阵相乘的过程，输入向量a，乘以矩阵W，输出矩阵为b，然后经过了ReLU。

用于实现相乘累加的单元称为PE，相同颜色的相乘累加在同一个PE中实现。例如上面绿色的都是PE0的责任。则PE0只需要存下来权值的位置和权值的值。所以上面绿色的权值在PE0中的存储为下面这样：

通过CSC存储，作者可以很快看出virtual weight的值。（CSC不懂见上一节推导）。行标与元素的行一致，列标可以恢复出元素在列中的位置。

向量a可以并行的传入每个PE之中，0元素则不并行入PE，非零元素则同时进入每一个PE。若PE之中对应的权重为0，则不更新b的值，若PE之中对应的权重非零，则更新b的值。

因为DDR上的对齐问题，所以作者采用16 bit的数据。量化后的权重

下图为csc来存储稀疏矩阵的实现。关于CSC具体可以参考deep compression中的关于CSC的部分。

稀疏矩阵的存储

稀疏权值矩阵的存储：比如作者这个稀疏的矩阵里面，n×n的矩阵，里面大多数的值是零值，然后作者通过相应的存储稀疏矩阵的方式对这个矩阵进行存储。首先把所有的非零值存为AA，假设所有的非零值的元素的个数为a，然后把每一行第一个非零元素对应在AA的位置存为JA，最后一个数是所有非零元素的个数+1，所以JA中的元素就是行数n+1，然后把AA中每一个元素在原始矩阵中的列存为IC。所以作者把一个原始的n×n的稀疏矩阵存为2a+n+1个数字。

剪枝之前的矩阵是非稀疏的矩阵，例如一个n*n的矩阵，经过剪枝的过程之后，这个n*n的矩阵就变为一个n*n的稀疏矩阵，其中很多零值。可以采用CSR或者CSC的方法对这个矩阵进行存储从而减少相应的存储量。

例如CSC的存储稀疏矩阵的方法

第一行AA存储所有的非零元素，

第二行JA存储所有系数矩阵中每行第一个非零元素在AA的位置，例如第一个元素是4.0，在AA中位置是第一个，第二行第一个元素是4.0，在AA中位置是第四个。通过JA可以将AA中所有元素对应的行恢复出来。

第三行JC是所有元素对应的列标。

这样，一个稀疏的矩阵通过三行就能存下来，达到了很好的存储压缩。由N*N变为了2a+N+1个元素

相对位置的参数：在压缩完参数之后，作者存了权值和权值对应的参数。之前的参数存的是绝对的参数，作者现在存相对的参数，就是两个参数的差值，比如作者用三个特存相对的参数，只要两个元素的距离小于8，都能把参数存为3个比特的，如果两个参数的距离大于这个值，作者就在第8个位置设置一个0值。

通过CSC得到了压缩的矩阵，可以通过差分存储进一步压缩存储数量。例如作者想用三比特的值来存储相应的Index。

3bit可以容忍的间距为8

当间距小于8时：用3比特的值就可以恢复出相应的位置
当间距大于8时：在第8个位置插入0值，然后用3bit的与插入的0值的差分位置恢复出相应的位置
间距大于8的倍数时：每隔8个位置插入0值，与最后一个0值的3bit的差分位置恢复出位置

五、硬件实现

5.1 硬件实现的难点

压缩后的运算是不规则的卷积运算，与正常的卷积不同，压缩后的网络实现是稀疏的卷积，并且量化之后相应的权值和参数需要通过byte对齐。作者将4bit的指针与12bit的权值分成一组存入2个byte（2byte=16bit）
稀疏之后需要实现负载平衡。

数据序列与负载平衡

上图之中的连接PE与CCU之间的序列。如果CCU直接将数据广播入PE，则根据木桶短板效应，最慢的PE是所有PE的时间的时长。

普通的处理器难以实现压缩后的LSTM的并行。

FPGA实现的难点

定制的解码电路需要从稀疏的权值矩阵之中恢复出原始的权值矩阵，但是其中的参数是相对的参数（压缩的过程中为了达到更好的压缩，所以采用相对参数作为指针，不懂的可以回看Deep compression之中的压缩的部分）。所以需要通过累加来恢复出绝对地址，作者用4bit来实现相对地址偏移，如果相对地址偏移大于16，则最大的加入一个补零。（这部分也是Deep compression的量化部分的内容。）
数据的表示必须很小心的对齐，例如调用外部的DDR存储接口的时候。并且不同的bit精度之间的运算在硬件之上是难以实施的。不同层之间需要bit shift的转换。
控制器（sheduler）需要被精心设计，因为LSTM的数据流实现非常复杂并且权值之间有很多不同。有些需要被同时执行，有些需要按顺序执行。
硬件的设计必须满足LSTM的多通道实现，这样才能并行的实现LSTM。

5.2 系统实现概览

此图展现了一个ESE系统的概览，实现由三部分组成，1 FPGA的加速器，2 CPU上的软件程序，3 FPGA板子上的外部存储

软件端

由CPU和相应的内存组成，通过PCI-Express总线与FPGA通信。初始化阶段向FPGA传输LSTM模型的参数。会向FPGA传输语音信号和从FPGA获得已经得到的结果。

外部存储

外部存储存储着所有参数和voice vector。因为BRAM的数量限制，所以LSTM不能够全部的放入BRAM之上。所以加速器需要通过内存控制器（MEM controller）来通过MIG(Memroy interface generator)实现内存的接入。

FPGA芯片

FPGA芯片上实现了相应的ESE加速器，ESE 控制器， PCIE 控制器，内存控制器，与片上buffer。

ESE加速器包含PE单元，用于实现LSTM网络中的大部分功能。

片上buffer用于输入和取出PE需要的数据
ESE控制器用于控制FPGA上面电路的运行，控制和shedule相应的PCIE/MEM 控制器。
DRAM内存器用于存入和写出FPGA加速器的信号

5.3 ESE控制器（sheduler）

最耗费的是稀疏矩阵相乘的单元。作者将LSTM之中的稀疏矩阵相乘的公式写为Table 5的实现模式。

上面为相应的矩阵相乘的公式。

LSTM要实现复杂的数据流。图11就是显示一个sheduler需要实现的部分。

此部分涉及较多硬件内容，我后续补充解析。

5.4 ESE channel architecture

ESE的结构与EIE非常类似，可以参考下EIE做个类比：

https://blog.csdn.net/weixin_36474809/article/details/85326634

上面这张是架构图，图中具体的结构实现不同的功能，下面解释每个模块的作用：

ActQueue

activation vector queue激活队列

关于负载平衡的问题，韩松在EIE之中详细的讲过。

所以作者在每个PE之前设置一个队列，用于存储，这样PE之间不同同步，只用处理各自队列上的值。

只要队列未满，CCU就向PE的队列广播数据
只要队列之中有值，PE就处理队列之中的值

这样，PE之间就能最大限度的处理数据。一定程度上解决了负载平衡的问题。

SpmatRead

稀疏矩阵读取单元，sparse matrix read，分为指针读取单元和稀疏矩阵读取单元，用于编码权重矩阵的存储和输出。

SpMV

SparseMatrix-vectorMultiplication,稀疏矩阵相乘单元，

ElemMul

元素级别的乘法单元。每个通道上设置16个远东是级别的乘法器。

Adder Tree

用于累加结果和偏置bias

Sigmoid/Tanh

非线性的激活函数。

5.5 存储系统

运用4GB的DDR3作为DRAM来实现为片外的存储。在上图之中分别交DDR_1和DDR_2

六、实验

6.1 平台及设置

ESE实现于XCKU060的FPGA上，时钟设置为200MHz。外部存储采用 4GB的DDR3.

运用TIMIT数据集来测评相应的效果，这个数据集包含了630个人的美国英语的8个主要的方言。用1000小时的音频训练，100小时验证，10小时测试。

实验的baseline设置为用 i7-5930k CPU和Pascal Titan X GPU和MKL BLAS/cuBLAS的CPU/GPU的系数矩阵相乘。

运用MKL SPARSE/ cuSPARSE 与CPU/GPU作为稀疏矩阵相乘的实现。

6.2 资源利用

table 6展示了ESE运用32通道设计的资源占用。其实现为32个通道，并行32块PE，在XCKU060的FPGA上。

根据实验得出的最好的并行的PE个数为32

FIFO深度

FIFO就是激活队列的问题，韩松已经在很多文章中探讨过。

6.3 准确率，速度与能效

七、个人总结

本篇文章贡献点与EIE类似。都是在稀疏的基础上压缩模型，运用稀疏相乘实现于硬件之上。

但是有两个创新点值得我们参考:

之前的普通的DNN或者CNN现在变为了LSTM，而LSTM的架构为RNN架构，所以与CNN或者DNN的架构非常不同。这是本文在模型方面的创新。可以看出作者在LSTM模型上做的调整。
之前的EIE用的是ASIC的方法，而这篇文章用的的FPGA，FPGA周期和成本都比ASIC好很多，并且给出了我们稀疏网络实现的参考。

近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
【FPGA教程案例31】通信案例1——基于FPGA的ASK调制信号产生 fpga和matlab ★教程2:fpga入门100例 fpga开发 FPGA教程 ASK调制 verilog
FPGA教程目录MATLAB教程目录---------------------------------------------------------------------------------------目录1.软件版本2.ASK调制原理3.ASK调制过程的FPGA实现4.操作步骤与仿真结论5.参考文献1.软件版本vivado2019.22.ASK调制原理幅度键控（Amplitude-Shi
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) AI仙人掌人工智能 AI 人工智能深度学习语言模型机器学习
知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
【教程4＞第2章＞第30节】本章整体思维导图与学习总结 fpga和matlab #第3章·通信—高阶调制解调 FPGA 教程4 学习总结高阶调制解调
教程4.目录.目录1.本章节目录2.本章节思维导图3.本章节学习案例与实际应用欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程3:simulink入
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
算力未来演进与多场景创新智能计算研究中心其他
内容概要算力作为数字经济的核心生产力，其技术架构与应用场景正经历多维突破。从技术架构层面来看，异构计算通过整合CPU、GPU、FPGA等多元芯片实现性能跃升，边缘计算则借助分布式节点降低时延并提升响应效率，而量子计算在特定领域的指数级加速潜力已进入验证阶段。在应用场景维度，工业互联网通过实时数据分析优化产线效率，智能安防依托视频流结构化处理增强预警能力，元宇宙则依赖高密度渲染与低延迟传输构建沉浸式
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

深鉴科技FPGA2017最佳论文ESE Efficient speech recognition engine with sparse LSTM on FPGA论文详解

一、摘要

1.1 motivation

1.2 贡献点

1.3 实现

1.4 实现流程

二、背景 LSTM

2.1 模型概览

2.2 模型实现

2.3 LSTM

三、模型压缩

3.1 剪枝

3.2 基于负载平衡的剪枝

3.3 wegiht与activation 的quantization

四、编码与编译

稀疏矩阵的存储

五、硬件实现

5.1 硬件实现的难点

FPGA实现的难点

5.2 系统实现概览

软件端

外部存储

FPGA芯片

5.3 ESE控制器（sheduler）

5.4 ESE channel architecture

ActQueue

SpmatRead

SpMV

ElemMul

Adder Tree

Sigmoid/Tanh

5.5 存储系统

六、实验

6.1 平台及设置

6.2 资源利用

FIFO深度

6.3 准确率，速度与能效

七、个人总结

你可能感兴趣的:(FPGA,模型压缩,机器学习,论文解析)