FPGA到底是什么

做FPGA设计这么久,每次给别人介绍的时候,总是感觉讲的不够深刻,惭愧惭愧惭愧。

这次,我就FPGA的硬件属性来展开,简单写写,与大家分享。

我的许多朋友都是经验丰富的算法工程师、嵌入式工程师,但他们都是数学、MCU背景,对数学公式和嵌入式了解的比较多,因此对于FPGA是什么以及FPGA能做什么只有一个模糊的概念。每次我说你的算法设计的好,我FPGA就能给你高效的实现,他们总是不信,你怎么就能高效了,为什么高效,你还能比现在的人工智能芯片厉害?留给了我一堆巴拉巴拉解释,我们总是喜欢刨根问底,如果问急了,他们会说“你可以通过配置FPGA让它做不同的事情”诸如此类的话,但他们真的不是很清楚FPGA里面有什么,或者如何在设计中使用FPGA这一高级产品。

事实上,MCU对有些任务来说是很适合的,但对某些控制与复杂计算来说可能做的并不是特别好。举例来说,当需要并行执行大量计算任务时,FPGA可能会让你喜出望外。

##############################################################################
FPGA的基本结构有:
LUT(Look-Up-Table):查找表,用于逻辑操作;通常输入n个LUT,需要2n个存储单元,常见的为4输入查找表结构。LUT可以用来计算但也可以当做存储器来用。
FF(Flip Flop) :触发器,存储LUT操作的结果,包含时钟控制等,可以控制输出数据时钟周期。
wire:总线连接
I/O:数据通过I/O将FPGA与其他设备通信
DSP:算法计算逻辑单元,由加法器和乘法器构成。
BRAM:将双端口的RAM配置到FPGA用于提供片上存储较大的数据(LUT也可以片上存储),允许同一个时钟周期访问不同的RAM位置。

在进行一点补充LATCH、DFF的介绍:
LATCH :就是锁存器。由电平触发,非同步控制。在使能信号有效时latch相当于通路,在使能信号无效时latch保持输出状态。

LUT与LATCH 共同点是:均属于组合逻辑。
不同点是:LUT是FPGA最小单元的组成结构,而LATCH不是。

DFF就是D类触发器。它是边沿触发的,归为时序逻辑。reg就是由DFF组成的。我们所说的定义一个8位的寄存器,就是用了8个同步的D触发器。

##############################################################################

FPGA采用了逻辑单元阵列LCA这样一个概念,内部包括可配置逻辑模块CLB输出输入模块IOB内部连线三个部分。

FPGA利用小型查找表来实现组合逻辑,每个查找表连接到一个D触发器的输入端,触发器再来驱动其他逻辑电路或驱动I/O,由此构成了即可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元模块,这些模块间利用金属连线互相连接或连接到I/O模块。

查表法再加上触发器就保证了快速运算逻辑的可能性,这就是FPGA!

FPGA的逻辑是通过向内部静态存储单元加载编程数据来实现的,存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与I/O间的联接方式,并最终决定了FPGA所能实现的功能。

对MCU进行烧写程序,程序固件被写入MCU的片上存储器ROM中,现代大部分MCU的片上存储器ROM为FLASH存储器,可以实现掉电保持数据,所以可以掉电程序不丢失。
而对于Altera和Xilinx两家的FPGA芯片而言,FPGA芯片是基于SRAM的查找表(LUT),所以当将.sof下载到FPGA芯片中后,这些数据直接存储在SRAM的查找表中,一旦掉电即会丢失数据。解决方案是在FPGA芯片外部放置一片能够掉电不丢失数据的存储器,如常见的EPCS、QFLASH等,在FPGA内部设计一个专用的硬件电路,在芯片刚上电时就主动去读取该存储器中的固件,并配置到FPGA芯片中。

加电时,FPGA芯片将EPROM中数据读入片内编程RAM中,配置完成后,FPGA进入工作状态。
掉电后,FPGA恢复成白片,内部逻辑关系消失,因此,FPGA能够反复使用。

FPGA内部不存在所谓的计算的概念,所有的结果几乎都是硬件直给,所以,计算很快,计算延时可以精确到多少个时钟周期。FPGA进行并行计算的性能功耗比甩GPU几条街(一点不夸张),代价是开发难度的增大,毕竟会写Verilog的老司机估计比会写C++的老司机还少,所以Xilinx才一直想推广HLS,用C开发FPGA。不过这玩意就好比汇编和FPGA的关系,论极致性能,肯定还是Verilog更好。

##############################################################################

FPGA计算能力分析

FPGA作为一种高性能、低功耗的可编程芯片,可以根据客户定制来做针对性的算法设计。所以在处理海量数据的时候,FPGA 相比于CPU 和GPU,优势在于:FPGA计算效率更高,FPGA更接近IO。

FPGA不采用指令和软件,是软硬件合一的器件。对FPGA进行编程要使用硬件描述语言,硬件描述语言描述的逻辑可以直接被编译为晶体管电路的组合。所以FPGA实际上直接用晶体管电路实现用户的算法,没有通过指令系统的翻译。

FPGA的英文缩写名翻译过来,全称是现场可编程逻辑门阵列,这个名称已经揭示了FPGA的功能,它就是一堆逻辑门电路的组合,可以编程,还可以重复编程。

这里用Xilinx的V7-690T进行分析FPGA计算能力,V7-690T包含3600个DSP(Digital Signal Processing),DSP就是FPGA的计算单元。每个DSP可以在每个时钟周期可以做2个单精度浮点计算(乘和加)。
FPGA峰值浮点计算性能 = DSP个数 X FPGA频率 X 每周期执行的浮点操作数。
V7-690T运行频率已250MHz来计算,V7-690T峰值浮点计算性能 = 3600(DSP个数) X 250MHz X 2(乘和加)=1.8T FLOPs/s即每秒1.8T峰值浮点计算能力。

FPGA芯片结构是否可以充分发挥浮点计算能力?FPGA由于算法是定制的,所以没有CPU和GPU的取指令和指令译码过程,数据流直接根据定制的算法进行固定操作,计算单元在每个时钟周期上都可以执行,所以可以充分发挥浮点计算能力,计算效率高于CPU和GPU。

你可能感兴趣的:(知识科普)