单精度浮点乘累加运算的FPGA流水线逻辑实现分析

       在利用FPGA进行卷积运算时会大量用到乘累加单元,如果用定点的方式则逻辑实现相对简单,原因是定点的加法运算是利用组合逻辑电路来实现的没有时钟延迟,这就使得加法器的输出在下一个时钟采样沿到来时立即反馈到输入端,从而可以连续的相加并最终得到累加结果。这是定点实现的优势,但是对于精度要求较高的场合,定点的方式显然不能满足要求,所以采用浮点的方式是必须的。而我们知道浮点的乘法逻辑和加法逻辑输出都是有时钟延迟的,对于乘法逻辑有延迟倒也无所谓,可以采用流水线的方式连续的输出不会因此而降低速度,但是对于乘法逻辑由于其输出要反馈到输入,所以按照常规的方法,我们需要在送入数据后等上若干个时钟周期等到结果出来后再反馈到输入端进行累加运算。这样做带来的问题是计算的速度会大大降低。例如Altera自带的浮点加法IP核输出最快也要经过6个时钟周期才会有输出,如果采用此浮点的IP核计算,主时钟为100MHz,那么累加运算输出的速率会下降到100/7MHz,对于需要快速处理的场合,这样显然是不能满足要求的。

为了解决上述问题,有两种方式可以解决。1:自己编写浮点加法逻辑使输出时钟延迟尽可能的降低,在笔者的博客《单精度浮点数加法器FPGA实现---(同号相加)》和《单精度浮点数加法器FPGA实现---(异号相加)》给出了浮点加法的实现逻辑,可以实现2个时钟的延迟就给出结果。2:将输出以主时钟速度反馈到输入进行计算,等输入数据结束后再对输出的结果再进行处理,最终也会得到正确的结果,需要的时钟数相对于定点的方式不会增加太多。

下面笔者将以输入延迟为2的浮点加法器来解释方式2的工作原理,这里假设输入数据长度为64。那么工作流程如下图所示:

单精度浮点乘累加运算的FPGA流水线逻辑实现分析_第1张图片

可见在第71个时钟周期时会输出最终的求和结果,只比定点的方式多了7个时钟周期,而且7个时钟轴的长度和输入数据长度没有关系,只和加法器输出的延迟有关,当输入的数据越长,速度降低就越少。利用上述方法可以最终实现和定点方式一样的速度。

你可能感兴趣的:(fpga,Verilog,浮点乘累加)