FPGA/CPLD数字电路设计经验分享

1.4 触发器和所存器:
我们知道,触发器是在时钟的沿进行数据的锁存的,而所存器是用电平使能来锁存数据的。所以触发器的Q输出端在每一个时钟沿都会被更新,而所存器只能在使能电平有效器件才会被更新。在FPGA设计中建议如果不是必须那么应该尽量使用触发器而不是所存器。
那么在使用硬件描述语言进行电路设计的时候如何区分触发器和所存器的描述方法哪?其实有不少人在使用的过程中可能并没有特意区分过,所以也忽略了二者在描述方法上的区别。下面是用VHDL语言描述的触发器和所存器以及综合器产生的电路逻辑图。

触发器的语言描述:
process
begin
wait until clk’event and clk=’1’;
q<=d;
end process;


所存器的语言描述:
process(en,d)
begin
if en=’1’ then
q<=d;
end if;
end process;

由上述对Latch的描述可见,其很容易于选择器的描述相混淆,用VHDL语言对选择器的描述方法如下:
process(en,a,b)
begin
if en=’1’ then
q<=a;
else
q<=b;
end if;
end process;

2 FPGA/CPLD
中的一些设计方法
2.1 FPGA
设计中的同步设计
异步设计不是总能满足(它们所馈送的触发器的)建立和保持时间的要求。因此,异步输入常常会把错误的数据锁存到触发器,或者使触发器进入亚稳定的状态,在该状态下,触发器的输出不能识别为l0。如果没有正确地处理,亚稳性会导致严重的系统可靠性问题。
另外,在FPGA的内部资源里最重要的一部分就是其时钟资源(全局时钟网络),它一般是经过FPGA的特定全局时钟管脚进入FPGA内部,后经过全局时钟BUF适配到全局时钟网络的,这样的时钟网络可以保证相同的时钟沿到达芯片内部每一个触发器的延迟时间差异是可以忽略不计的。

FPGA中上述的全局时钟网络被称为时钟树,无论是专业的第三方工具还是器件厂商提供的布局布线器在延时参数提取、分析的时候都是依据全局时钟网络作为计算的基准的。如果一个设计没有使用时钟树提供的时钟,那么这些设计工具有的会拒绝做延时分析有的延时数据将是不可靠的。

在我们日常的设计中很多情形下会用到需要分频的情形,好多人的做法是先用高频时钟计数,然后使用计数器的某一位输出作为工作时钟进行其他的逻辑设计。其实这样的方法是不规范的。比如下面的描述方法:
process
begin
wait until clk’event and clk=’1’;
if fck=’1’ then
count<=(others=>’0’);
else
count<=count 1;
end if;
end process;

process
begin
wait until count(2)’event and count(2)=’1’ ;
shift_reg<=data;
end process;

在上述的第一个process电路描述中,首先计数器的输出结果(count(2))相对于全局时钟clk已经产生了一定的延时(延时的大小取决于计数器的位数和所选择使用的器件工艺);而在第二个process中使用计数器的bit2作为时钟,那么shift_reg相对于全局clk的延时将变得不好控制。布局布线器最终给出的时间分析也是不可靠的。这样产生的结果波形仿真如下图所示:

正确的做法可以将第二个process这样来写。
process
begin
wait until clk’event and clk=’1’ ;
if count(2 downto 0)=”000” then
shift_reg<=data;
end if;
end process;
或者分成两步来写:
process(count)
begin
if count(2 downto 0)=”000” then
en<=’1’;
else
en<=’0’;
end if;
end process;

process
begin
wait until clk’event and clk=’1’ ;
if en=’1’ then
shift_reg<=data;
end if;
end process;

这样做是相当于产生了一个8分频的使能信号,在使能信号有效的时候将data数据采样到shift_reg寄存器中。但此种情形下shift_reg的延时是相对于全局时钟clk的。下面的图形更能看得清楚。

2.2 FPGA
设计中的延时电路的产生:
在日常的电路设计中,有时候我们需要对信号进行延时处理来适应对外接口的时序关系,最经常也是最典型的情况是做处理机的接口;因为与处理的接口时序关系是异步的,而一个规范的FPGA设计应该是尽可能采用同步设计。那么遇到这种情况该如何处理呢?
首先在FPGA中要产生延时,信号必须经过一定的物理资源。在硬件描述语言中有关键词Wait for xx ns,需要说明的是该语法是仅仅用于仿真而不能用于综合的,可综合的延时方法有:
?
使信号经过逻辑门得到延时(如非门);
?
使用器件提供的延时单元(如Altera公司的LCELLXilinx公司的);

注意:当使用多级非门的时候综合器往往会将其优化掉,因为综合器会认为一个信号非两次还是它自己。

需要说明的是在FPGA/CPLD内部结构是一种标准的宏单元,下图是Xilinx公司的Spartans II系列器件的一个标准宏单元。虽然不同的厂家的芯片宏单元的结构不同,但概括而言都是由一些组合逻辑外加一或二个触发器而构成。在实际应用中,当一个模块内的组合逻辑被使用了那么与其对应的触发器也就不能用了;同样如果触发器单元被用了那么组合逻辑单元也就废了。这就是有时候(特别是使用CPLD)虽然设计使用的资源并不多但布局布线器却报告资源不够使用的原因。

现面的一个例子是前一段时间我在公司遇到的一个设计。设计使用Altera公司的EPM7256型号的CPLD。该设计实际使用的寄存器资源只有109个,占整个器件资源的42。可是该设计使用了如下图所示的延时方法来做处理器接口的时序:

在该电路的设计中使用了大量的LCELL来产生100多纳秒的延时,这样做的后果是虽然整个电路的触发器资源只使用了42,可是用MaxplusII进行布局布线已经不能够通过了。而且我怀疑经过这么多逻辑的延时后所产生的信号还能保持原来的性能不。

当需要对某一信号作一段延时时,初学者往往在此信号后串接一些非门或其它门电路,此方法在分离电路中是可行的。但在FPGA中,开发软件在综合设计时会将这些门当作冗余逻辑去掉,达不到延时的效果。用ALTERA公司的MaxplusII开发FPGA时,可以通过插入一些LCELL原语来产生一定的延时,但这样形成的延时在FPGA芯片中并不稳定,会随温度等外部环境的改变而改变,因此并不提倡这样做。在此,可以用高频时钟来驱动一移位寄存器,待延时信号作数据输入,按所需延时正确设置移位寄存器的级数,移位寄存器的输出即为延时后的信号。此方法产生的延时信号与原信号比有误差,误差大小由高频时钟的周期来决定。对于数据信号的延时,在输出端用数据时钟对延时后信号重新采样,就可以消除误差。

对于这样大的延时我建议的实现方法是采用时钟锁存来产生延时的方法,我们知道当一个信号用时钟锁存一次,将会占用一个触发器资源,信号会向后推移一个时钟周期;该同事的设计里CPLD芯片正好连接有32MHz的时钟,那么每用时钟锁存一次ssp信号就会推移31ns,这样只需多使用3个触发器资源就可以达到目的了。电路图和仿真波形如下图所示:当然这样做对原来信号高低电平的宽度会稍有改变,但只要是在与其接口的芯片的容许范围之内就不会影响到功能的实现。

2.3
如何提高系统的运行速度
同步电路的速度是指同步时钟的速度。同步时钟愈快,电路处理数据的时间间隔越短,电路在单位时间处理的数据量就愈大.我们先来看一看同步电路中数据传递的一个基本模型,如下图:

Tco是触发器时钟到数据输出的延时;Tdelay是组合逻辑的延时;Tsetup是触发器的建立时间)

假设数据已经被时钟的上升沿打入D触发器,那么数据到达第一个触发器的Q端需要Tco,再经过组合逻辑的延时Tdelay到达的第二个触发器的D端,要想时钟能在第二个触发器再次被稳定的锁入触发器,则时钟的延迟不能晚于Tco Tdelay Tsetup,(我们可以回顾一下前面讲过的建立和保持时间的概念,就可以理解为什么公式最后要加上一个Tdelay) 由以上分析可知:最小时钟周期:T=Tco Tdelay Tsetup 最快时钟频率 F= 1/T PLD开发软件也正是通过这个公式来计算系统运行速度Fmax

注:在这个逻辑图中有个参数:Tpd ,即时钟的延时参数,我们在刚才做时间分析的时候,没有提这个参数,(如果使用PLD的全局时钟型号,Tpd可以为0,如果是普通时钟,则不为0)。所以如果考虑到时钟的延时,精确的公式应该是T=Tco Tdelay Tsetup-Tpd。当然以上全部分析的都是器件内部的运行速度,如果考虑芯片I/O管脚延时对系统速度的影响,那么还需要加一些修正。

由于TcoTsetup是由具体的器件和工艺决定的,我们设计电路时只可以改变Tdelay。所以缩短触发器间组合逻辑的延时是提高同步电路速度的关键。由于一般同步电路都不止一级锁存(如图3),而要使电路稳定工作,时钟周期必须满足最大延时要求,缩短最长延时路径,才可提高电路的工作频率。

如图2所示:我们可以将较大的组合逻辑分解为较小的几块,中间插入触发器,这样可以提高电路的工作频率。这也是所谓流水线pipelining)技术的基本原理。

对于图3的上半部分,它时钟频率受制于第二个较大的组合逻辑的延时,通过适当的方法平均分配组合逻辑,可以避免在两个触发器之间出现过大的延时,消除速度瓶颈。

FPGA/CPLD
开发软件中也有一些参数设置,通过修改这些设置,可以提高编译/布局布线后系统速度,但是根据经验这种速度的提高是很有限的,假如按照要求我们需要设计一个可以工作到50MHz的系统,实际布局布线器报告出来的Fmax只有40MHz,此时如果我们使用布局布线器的设置选项最多可以提高到45MHz,这还是运气比较好的情况。而且你必须了解这些选项的含义、使用背景等。

其实在一个设计里影响速度的瓶颈经常只会有几条,我们将延时最大的路径称作关键路径。当设计的运行速度不符合系统设计要求的时候我们可以首先找到不能满足要求的关键路径,按照上述的方法将关键路径上的组合逻辑拆分成多个中间用触发器隔开,这样很容易就可以从根本上提升系统的运行速度了。

有的设计在设计开始就知道那部分电路会产生比较大的组合逻辑,导致速度瓶颈的产生,那么就应该在开始就想好解决办法。比如现在设计需要产生一个32位的加法器,并且要求能够工作在50MHz。根据经验直接用32位加法器肯定是达不到50MHz的要求的,这时我们可以将其分成312位计数器来操作,后面的计数器只要将前面计数器结果的高位(进位位)相加就可以了。

下面是原来在宽带接入服务器设计中的流量统计单元中的32位加法器的描述:
----------------------------------------------------------
---- flow count element
----------------------------------------------------------
-----temporary computing 12 bits adder
process(Count_0_en,count_buffer,Len,Carry_0_0,Carry_0_1)
begin
case Count_0_en is
---1st Step addition (10 downto 0) (10 downto 0)
when "001" => add_12_a_0 <= ('0' & count_buffer(0)(10 downto 0));
add_12_b_0 <= ('0' & Len(10 downto 0));
---2nd Step addition (21 downto 11) Carry_0_0
when "010" => add_12_a_0 <= ('0' & count_buffer(0)(21 downto 11));
add_12_b_0 <= ("00000000000" & Carry_0_0);
---3rd Step addition (31 downto 22) Carry_0_1
when "100" => add_12_a_0 <= ("00" & count_buffer(0)(31 downto 22));
add_12_b_0 <= ("00000000000" & Carry_0_1);
when others => add_12_a_0 <=
others=>’X’;
add_12_b_0 <=
others=>’X’;
end case;
end process;

------12 bits adder
add_12_result_0 <= add_12_a_0 add_12_b_0;
------Bytes Count
process(RST,CLK_25MHz,IO,OE_bar,data_sel,Count_0_en)
begin
if(RST = '1')then -----system Reset
count_buffer(0) <= (others => '0');
Carry_0_0 <= '0';
Carry_0_1 <= '0';
Carry_0_2 <= '0';
elsif(CLK_25MHz'event and CLK_25MHz = '0')then
if(OE_bar = '0' and data_sel = '0')then
count_buffer(0) <= IO;
Carry_0_2 <= '0';
else
case Count_0_en is
---1st Step addition (10 downto 0) (10 downto 0)
when "001" => count_buffer(0)(10 downto 0) <= add_12_result_0(10 downto 0);
Carry_0_0 <= add_12_result_0(11);--first step carry
---2nd Step addition (21 downto 11) Carry_0_0
when "010" => count_buffer(0)(21 downto 11) <= add_12_result_0(10 downto 0);
Carry_0_1 <= add_12_result_0(11);--Second step carry
---3rd Step addition (31 downto 22) Carry_0_1
when "100" => count_buffer(0)(31 downto 22) <= add_12_result_0(9 downto 0);
Carry_0_2 <= add_12_result_0(10);--Third step carry
when others => Carry_0_2 <= '0';
end case;
end if;
end if;
end process;

2.4
信号输出
当你需要将FPGA/CPLD内部的信号通过管脚输出给外部相关器件的时候,如果不影响功能最好是将这些信号通过用时钟锁存后输出。因为通常情况下一个板子是工作于一种或两种时钟模式下,与FPGA/CPLD相连接的芯片的工作时钟大多数情形下与FPGA的时钟同源,如果输出的信号经过时钟锁存可以起到如下的作用:
?
容易满足芯片间信号连接的时序要求;
?
容易满足信号的建立保持时间;

如上图所示,比如FPGA/CPLDCLK的时钟沿1锁存一个信号得到SIG所示的波形,SIG信号需要给另外的一个与其接口的芯片,那么该芯片将一定会在CLK的时钟沿2正确采样到SIG信号。但是如果该信号在FPGA/CPLD中输出的时候不是用时钟沿锁存的,那将有可能出现SIG1/SIG2所示的时序关系,则与其接口的芯片在时钟沿2处采样该信号的时候有可能出现建立保持时间不满足要求而出现采样不可靠、沿打沿等情况。另外通过组合逻辑输出还有可能出现毛刺的情况。所有这些不规范的设计都会引起系统工作时的不可靠、不稳定的情形。

2.5
寄存异步输入信号
我们在日常的设计工作中,FPGA/CPLD总是要与别的芯片相连接的,FPGA/CPLD会给别的芯片输出信号,同时也要处理别的芯片送来的信号,这些信号往往对FPGA/CPLD内部的时钟系统而言是异步的,为了可靠的采样到这些输入信号,建议将这些输入信号使用相应的时钟锁存后在处理,这样做:
?
将原来的异步信号转化成同步来处理;
?
去除输入信号中的毛刺(特别是对于数据总线);

FPGA/CPLD中信号的输入、输出锁存

2.6 FPGA/CPLD
中的时钟设计
无沦是用离散逻辑、可编程逻辑,还是用全定制硅器件实现的任何数字设计,为了成功地操作,可靠的时钟是非常关键的。设计不良的时钟在极限的温度、电压或制造工艺的偏差情况下将导致错误的行为,并且调试困难、花销很大。在设计FPGA/CPLD时通常采用几种时钟类型。时钟可分为如下四种类型:全局时钟、门控时钟、多级逻辑时钟和波动式时钟。多时钟系统能够包括上述四种时钟类型的任意组合。

无论采用何种方式,电路中真实的时钟树也无法达到假定的理想时钟,因此我们必须依据理想时钟,建立一个实际工作时钟模型来分析电路,这样才可以使得电路的实际工作效果和预期的一样。在实际的时钟模型中,我们要考虑时钟树传播中的偏斜、跳变和绝对垂直的偏差以及其它一些不确定因素。

对于寄存器而言,当时钟工作沿到来时它的数据端应该已经稳定,这样才能保证时钟工作沿采样到数据的正确性,这段数据的预备时间我们称之为建立时间(setup time)。数据同样应该在时钟工作沿过去后保持一段时间,这段时间称为保持时间(hold time)。因此具体的时钟如图5所示。其中网络延迟是指时钟的传播延时以及因为跳变不垂直等效的偏差,在此基础上考虑一些不确定因素实际的工作时钟沿如图中所示。保持时间(hold)和建立时间(setup)都是相对于实际时钟跳变而言的。因此在确定电路时序时,必须要考虑到这些因素,使得建立时间和保持时间符合要求。

为了使电路正常工作,建立时间和保持时间应该分别满足:
其中tclock_Q_max是时钟沿变化到数据输出端变化的最慢变化情况,tlogic_max是寄存器间组合逻辑的最大可能延迟,tclock_Q_mintlogic_min表示最快情况。在考虑建立保持时间时,应该考虑时钟树向后偏斜的情况,在考虑建立时间时应该考虑时钟树向前偏斜的情况。在进行后仿真时,最大延迟用来检查建立时间,最小延时用来检查保持时间。
 

你可能感兴趣的:(工作,网络,服务器,buffer,语言,工具)