朽月

基于FPGA的CORDIC算法的实现（1）

CORDIC算法向量模式原理介绍及FPGA实现

参考文献
项目简述
CORDIC算法向量模式原理

CIRDIC算法向量模式推导步骤一
CIRDIC算法向量模式推导步骤二
CIRDIC算法向量模式推导步骤三
CIRDIC算法向量模式推导步骤三

MATLAB实现
FPGA实现
MATLAB测试代码
总结

参考文献

[1].liyuanbhu
[2].碎碎思
[3].电子发烧友(这门课里面的代码写的非常棒，建议有条件的同学可以与板卡一起购买，记住一定是带着板卡，这里不再多说)

项目简述

基本上懂点FPGA信号处理操作的同学都听过CORDIC算法，该算法可以被使用计算常见函数及超越函数。那么喜欢刨根问底的同学就会问为什么CORDIC算法可以被使用来计算常见函数，该算法又可以使用计算哪些函数，精度如何等等问题。那么这篇文章及接下来的文章将用来介绍这些问题，其实关于该算法在CSDN上面已经又比较完善的CSDN博主进行了介绍，包括我也是使用上面的博客进行的学习，博主的连接以及一些参考文献会在文章的最后给出。

首先CORDIC的全称是 Coordinate Rotation Digital Computer 也就是我们常说的坐标旋转算法。既然是坐标旋转算法，那么就需要坐标进而坐标系是必须需要提前确定。常见在CORDIC算法中使用的系统有圆周系统、线性系统、双曲系统，每种系统又分为向量模式与旋转模式，每种模式可以使用计算不同的函数。包括如果掌握了CORDIC的原理计算一些其他特殊函数也是可能的。 CORDIC函数可以使用计算的函数如下：

下面是VIVADO中CORDIC IP中可以计算的函数

这里是不是可以看出上面的函数基本上是一一对应的。

CORDIC算法向量模式原理

CIRDIC算法向量模式推导步骤一

这里主要参考的是参考文献[1]中的文章，大家可以进行相应的阅读。
平面上一点在直角坐标系下的坐标（X,Y）=（100，200），如何求的在极坐标系下的坐标（ρ,θ）。用计算器计算一下可知答案是（223.61，63.435）。

为了突出重点，这里我们只讨论X和Y都为正数的情况。这里或许有同学要说如果X和Y中有为负值的情况应该咋么办，其实这部分的算法不需要X和Y都为正值，但是需要X为正值。如果X为负值，那么我们便需要进行相应的处理，方法就是将X轴的值变成正值，但是这部分不要忘记CORDIC迭代的初始值发生变化。当X变成正值之后θ=atan(y/x)。求θ的过程也就是求atan 函数的过程。Cordic算法采用的想法很直接，将 $(x, y)$ 旋转一定的度数，如果旋转完纵坐标变为了0，那么旋转的度数就是θ。坐标旋转的公式可能大家都忘了，这里把公式列出了。设 $(x, y)$ 是原始坐标点，将其以原点为中心，顺时针旋转θ之后的坐标记为 $x_1,y_1)$ ,则有如下公式：

这里要明确我们的目标是为了将 $y$ 变成零，为了减少计算量，都是先用二分法进行旋转，也就是说第一次旋转45度，至于是顺时针旋转还是逆时针旋转取决于 $y$ 的符号。

旋转之后纵坐标为70.71，还是大于0，说明旋转的度数不够，接着再旋转22.5度。

这时总共旋转了45+22.5=67.5度。结果纵坐标变为了负数，说明θ<67.5度，这时就要往回转，还是二分查找法的思想，这次转11.25度。

这时总共旋转了45+22.5-11.25=56.25度。又转过头了，接着旋转，这次顺时针转5.625度。

这时总共旋转了45+22.5-11.25+5.625=61.875度。这时纵坐标已经很接近0了。我们只是说明算法的思想，因此就不接着往下计算了。计算到这里我们给的答案是 61.875±5.625。二分查找法本质上查找的是一个区间，因此我们给出的是θ值的一个范围。同时，坐标到原点的距离ρ也求出来了，ρ=223.52。与标准答案比较一下计算的结果还是可以的。旋转的过程图示如下。

可能有读者会问，计算中用到了 sin 函数和 cos 函数，这些值又是怎么计算呢。很简单，我们只用到很少的几个特殊点的sin 函数和 cos 函数的值，提前计算好存起来，用查找表。这里需要注意，这种思想在FPGA中非常容易遇见。

将上面的思想我们使用MATLAB来实现如下：

clc;
clear all;

sine = [0.7071067811865,0.3826834323651,0.1950903220161,0.09801714032956,0.04906767432742,0.02454122852291,0.01227153828572,0.006135884649154,0.003067956762966,0.001533980186285,7.669903187427045e-4,3.834951875713956e-4,1.917475973107033e-4,9.587379909597735e-5,4.793689960306688e-5,2.396844980841822e-5];
cosine = [0.7071067811865,0.9238795325113,0.9807852804032,0.9951847266722, ...
0.9987954562052,0.9996988186962,0.9999247018391,0.9999811752826,0.9999952938096, ...
0.9999988234517,0.9999997058629,0.9999999264657,0.9999999816164,0.9999999954041, ...
0.999999998851,0.9999999997128];
angle = 45;
a = zeros(16,1);
for i = 1:16
    a(i) = angle;
    angle = angle/2;
end

 x = 100;
 y = -300;
 z = 0;
 
for i = 1:16
    if(y > 0)
        x_new = x*cosine(i) + y*sine(i);
        y_new = y*cosine(i) - x*sine(i);
        x = x_new;
        y = y_new;
        z = z + a(i);
    else
        x_new = x*cosine(i) - y*sine(i);
        y_new = y*cosine(i) + x*sine(i);
        x = x_new;
        y = y_new;
        z = z - a(i);
    end
end
z

结果如下：

CIRDIC算法向量模式推导步骤二

CORDIC一般是在FPGA中实现。FPGA中的DSP资源是非常宝贵的资源，所以我们要尽可能减少CORDIC中的乘法的个数，所以将公式变形如下：

这里因为我们要计算相位 $a r c t a n (y / x)$ ，所以我们先将缩放因子去掉

但是我们注意到 CIRDIC算法向量模式不仅可以计算 $a r c t a n (y / x)$ 而且可以计算 $\sqrt{x^2+y^2}$ ，所以这个补偿因子到最后肯定会补偿回来，在FPGA中同样利用查表得方法补偿回来。
省略cos(θ)后发生了什么呢，每次旋转后的新坐标点到原点的距离都变长了，放缩的系数是1/cos(θ)。不过没有关系，我们求的是θ，不关心ρ的改变。这样的变形非常的简单，但是每次循环的运算量一下就从4次乘法降到了2次乘法了。

将上面的思想我们使用MATLAB来实现如下：

clc;
clear all;

tangent = [1.0,0.4142135623731,0.1989123673797,0.09849140335716,0.04912684976947, ...
0.02454862210893,0.01227246237957,0.006136000157623,0.003067971201423, ... 
0.001533981991089,7.669905443430926e-4,3.83495215771441e-4,1.917476008357089e-4, ... 
9.587379953660303e-5,4.79368996581451e-5,2.3968449815303e-5];
angle = 45;
a = zeros(16,1);
for i = 1:16
    a(i) = angle;
    angle = angle/2;
end

 x = 100;
 y = -300;
 z = 0;
 
for i = 1:16
    if(y > 0)
        x_new = x+ y*tangent(i);
        y_new = y - x*tangent(i);
        x = x_new;
        y = y_new;
        z = z + a(i);
    else
        x_new = x- y*tangent(i);
        y_new = y + x*tangent(i);
        x = x_new;
        y = y_new;
        z = z - a(i);
    end
end
z

结果与公式变形前得结果一摸一样，进而说明了我们实验得正确性。

CIRDIC算法向量模式推导步骤三

在FPGA中多得是寄存器查找表等资源，DSP资源非常少，所以我们要尽可能得消除CORDIC中得乘法，消除得方法是变下面公式中得乘法为移位操作：

所以我们要求 $t a n (θ)$ 是2得负整数次幂。然后我们对上面得式子进行分析：
第一次循环时，tan(45)=1，所以第一次循环实际上是不需要乘法运算的。第二次运算呢？

Tan(22.5)=0.4142135623731,很不幸，第二次循环乘数是个很不整的小数。是否能对其改造一下呢？答案是肯定的。第二次选择22.5度是因为二分查找法的查找效率最高。如果选用个在22.5到45度之间的值，查找的效率会降低一些。如果稍微降低一点查找的效率能让我们有效的减少乘法的次数，使最终的计算速度提高了，那么这种改进就是值得的。

我们发现tan(26.565051177078)=0.5，如果我们第二次旋转采用26.565051177078度，那么乘数变为0.5，如果我们采用定点数运算的话（没有浮点协处理器时为了加速计算我们会大量的采用定点数算法）乘以0.5就相当于将乘数右移一位。右移运算是很快的，这样第二次循环中的乘法运算也被消除了。

类似的方法，第三次循环中不用11.25度，而采用 14.0362434679265 度。

Tan(14.0362434679265)= 1/4

乘数右移两位就可以了。剩下的都以此类推。

所以我们给出相应的MATLAB代码：

clc;
clear all;

angle = [45.0, 26.565051177078, 14.0362434679265, 7.1250163489018, 3.57633437499735, ...
                            1.78991060824607, 0.8951737102111, 0.4476141708606, 0.2238105003685, 0.1119056770662, ... 
                            0.0559528918938, 0.027976452617, 0.01398822714227, 0.006994113675353, 0.003497056850704,0.001748528426980];
                     
tangent = [1.0, 1 / 2.0, 1 / 4.0, 1 / 8.0, 1 / 16.0, ...
                              1 / 32.0, 1 / 64.0, 1 / 128.0, 1 / 256.0, 1 / 512.0, ...
                              1 / 1024.0, 1 / 2048.0, 1 / 4096.0, 1 / 8192.0, 1 / 16384.0,1/32768];


 x = 100;
 y = -300;
 z = 0;
 
for i = 1:16
    if(y > 0)
        x_new = x+ y*tangent(i);
        y_new = y - x*tangent(i);
        x = x_new;
        y = y_new;
        z = z + angle(i);
    else
        x_new = x- y*tangent(i);
        y_new = y + x*tangent(i);
        x = x_new;
        y = y_new;
        z = z - angle(i);
    end
end
z

上面的程序由于MATLAB本身不利于移位操作，所以我们也就乘以了相应的数，但这点在FPGA中是相当容易操作的。
运行结果如下：

到这里 CORDIC 算法的最核心的思想就介绍完了。当然，这里介绍的只是CORDIC算法最基本的内容，实际上，利用CORDIC 算法不光可以计算 atan 函数，其他的像 Sin，Cos，Sinh，Cosh 等一系列的函数都可以计算。

CIRDIC算法向量模式推导步骤三

上面为计算过程中我们将 $c o s (θ)$ 省略，所以为了计算 $\sqrt{x^2+y^2}$ ，所以这个补偿因子到最后肯定会补偿回来。因为每次推导我们都省略了 $c o s (θ)$ ，所以我们最终的真实值 $x_{n1},y_{n1})$ 需要进行的缩放处理如下：

由前面可知：

所以：

若总的旋转次数为n，则总的模长补偿因子K可表示为:

当n趋于无穷大时，K 逼近 0.607252935。
对应的MATLAB程序如下：

clc;
clear all;

angle = [45.0, 26.565051177078, 14.0362434679265, 7.1250163489018, 3.57633437499735, ...
                            1.78991060824607, 0.8951737102111, 0.4476141708606, 0.2238105003685, 0.1119056770662, ... 
                            0.0559528918938, 0.027976452617, 0.01398822714227, 0.006994113675353, 0.003497056850704,0.001748528426980];
                     
tangent = [1.0, 1 / 2.0, 1 / 4.0, 1 / 8.0, 1 / 16.0, ...
                              1 / 32.0, 1 / 64.0, 1 / 128.0, 1 / 256.0, 1 / 512.0, ...
                              1 / 1024.0, 1 / 2048.0, 1 / 4096.0, 1 / 8192.0, 1 / 16384.0,1/32768];


 x = 100;
 y = -300;
 z = 0;
 
for i = 1:16
    if(y > 0)
        x_new = x+ y*tangent(i);
        y_new = y - x*tangent(i);
        x = x_new;
        y = y_new;
        z = z + angle(i);
    else
        x_new = x- y*tangent(i);
        y_new = y + x*tangent(i);
        x = x_new;
        y = y_new;
        z = z - angle(i);
    end
end
K = 1;
for i = 1:16
    K = K*1/sqrt(1+2^-(2*(i-1)));
end
x_new = x_new*K

z

运行结果如下：

从上面可以验证我们实验的正确性，并且K值在实际FPGA中也是进行查表而不是上面程序那样计算。

MATLAB实现

上面的MATLAB代码知识为了验证我们的推导过程专门写的代码，这样写的代码没办法与FPGA内部生成的代码一一对应起来，其中最主要的原因也是因为没有对数据进行相应的量化操作，也没有在程序中进行相应的预处理操作。所以接下来给出相应的完整的代码，这部分代码参考了电子发烧友，本来想自己写，但是架不住别人写的代码太好，相应的链接已经在参考文献中给出，需要的同学可以自己学习。

clc;
clear all;
Ninter = 12;%迭代次数
N = 32;
%y: y坐标值(Q（N,N-2))
%x: x坐标值(Q（N,N-2))
%angle:Q(18,15)
%这些量化指标都是为了与FPGA中的一致才进行这样精度的量化
ang = quantizer('mode','fixed','roundmode','nearest','overflowmod','saturate','format',[18,15]);
input = quantizer('mode','fixed','roundmode','floor','overflowmod','saturate','format',[N,N-2]);
amp = quantizer('mode','fixed','roundmode','floor','overflowmod','saturate','format',[N,N-2]);
ampcoe = quantizer('mode','fixed','roundmode','nearest','overflowmod','saturate','format',[18,16]);
amp2 = quantizer('mode','fixed','roundmode','floor','overflowmod','saturate','format',[48,45]);
amp3 = quantizer('mode','fixed','roundmode','floor','overflowmod','saturate','format',[25,22]);


times = 100;

num=0;

fid1 = fopen('x_random_fpga.txt','r');
x_fix = fscanf(fid1,'%d');  
x_fix = x_fix/2^(N-2);

fid1 = fopen('y_random_fpga.txt','r');
y_fix = fscanf(fid1,'%d');  
y_fix = y_fix/2^(N-2);
  
PreciseAng_data = zeros(1,times);
PreciseAmp_data = zeros(1,times);
Ang_data=zeros(1,times);
Amp_data=zeros(1,times);

for t=1:times
    
num=num+1;
    
x = x_fix(t);
y= y_fix(t);

K = zeros(1,Ninter+1);
K(1) = 1;
for i=2:Ninter + 1
    K(i) = K(i-1)*sqrt(1+2^(-2*i+4));
   
end
K = quantize(ampcoe,1./K);
y1 =y;
z = 0;
x1 = abs(x);
x1 = x1;
y1 = y1;
d = -sign(y1);

atan_z = zeros(1,Ninter);
atan_z_dectobin =zeros(Ninter,15);
for i=0:Ninter-1
    atan_z(i+1) = quantize(ang,atan(2^(-i)));
end
   
for n=0:Ninter-1
    if(y1 == 0)
        break;
    end
  x1_q = quantize(amp2,(2^(-n)*x1));
  y1_q = quantize(amp2,(2^(-n)*y1));%(48,45)

  
  x1 =  quantize(amp2,x1 - d*y1_q);
  y1 = quantize(amp2,y1 + d*x1_q);


  
  atan_z_qu = quantize(ang,atan_z(n+1));
  z = quantize(ang,z - d*atan_z_qu);
  
  atan_zzz = atan_z_qu*2^15;
  
  z_comp =z*2^15;
  d = -sign(y1);
end
%坐标点预处理
pi_quan = quantize(ang,pi);
if(x  < 0)
  if(y < 0)
     Ang = -z - pi_quan  ;
  else
     Ang = - z + pi_quan ;
  end
else
    Ang = z;
end

Ang_q =Ang*2^15;

x1 = quantize(amp3,x1);%(25,21)这些是与FPGA中的量化代码相互对应的部分

Amp = quantize(amp,x1*K(n+1));%K(18,16)
Amp_q = Amp*2^(N-2);
 
err = Ang - angle(x + j*y);
PreciseAng = log2(abs(err));
err = Amp - abs(x+j*y);
PreciseAmp = log2(abs(err));

Ang_data(t)=Ang_q;
Amp_data(t)=Amp_q;
PreciseAng_data(t)=PreciseAng;
PreciseAmp_data(t)=PreciseAmp;

if(PreciseAng_data(t)==0)
    break;
end 

if(PreciseAmp_data(t)==0)
    break;
end

end
    
PreciseAng_s_max = max(PreciseAng_data)
PreciseAmp_s_max = max(PreciseAmp_data)
fid_ang = fopen('Ang_matlab.txt','w');
fprintf(fid_ang,'%d\n',Ang_data);
   
fid_amp = fopen('Amp_matlab.txt','w');
fprintf(fid_amp,'%d\n',Amp_data);

然后对比一下100个数据之后算法计算的最大误差：

上面的结果是将数据转换成dB的格式，所以说上面的算法处理的是正确的。
上面的难点在意量化操作再FPGA中实现的方式：

在下面FPGA实现的时候我们会进行相应的介绍。

FPGA实现

其实上面代码的FPGA实现是非常容易的，FPGA的程序是在电子发烧友的基础上改的，为了尊重原作者，大家可以购买相应的课程，课程里面的代码都非常棒，我也只是改了一小部分。接下来的代码其实如果想简单点就可以不使用DSP原语而是直接使用组合逻辑或者IP完成相应的操作。其实关于CORDIC算法的Verilog实现博主19年的时候写过，还是比较容易的，但是却没办法与MATLAB相互验证，也没办法控制DSP资源的复用，通过该课程的学习我真正掌握了MATLAB与FPGA的相互验证方法。这一部分由于我只是做了稍微一点改动，所以原作者的信息在博客中保留。

`timescale 1ns / 1ps

////////////////////////////////////////////////////////////////////////////////
// Company: MYMINIEYE
// Engineer:Mill
//
// Create Date:   2016/12/29 14:26:00
// Design Name:   CORDICang_stream
// Module Name:   CORDICang_vector_ip
// Project Name:  FS_cofdm_rx_v00
// Target Device:  zc7045
// Tool versions:  vivado 2015.1
// Description: Cordic 
//	
//
//
// Dependencies:
// 
// Revision:v02
// Revision 0.01 - File Created
// Additional Comments: contact us: [email protected]
// 
////////////////////////////////////////////////////////////////////////////////
module CORDICang_vector_ip #
(
	parameter 		Ninter 		= 		13,
	parameter 		N 			=		32
)
(
	input 				sclk			,
	input 				rst_n			,
	input 		[N-1:0] x				,
	input 		[N-1:0] y				,
	input 				valid			,
	
	output	reg	[17:0]	Ang			    ,
	output	reg	[N-1:0] Amp				,
	output	reg 		Ang_en
	
);
 
//========================================================================================\
//************** 	Main  	Code		**********************************
//========================================================================================/
/*===================================================================
====================================================================*/
reg 					valid_d			;
reg 					valid_a			;
reg 			[N-1:0]	x_a				;
reg 			[N-1:0]	y_a				;
reg 			[ 4:0]	cordic_cnt		;

always @(posedge sclk)
	valid_d 		<= 		valid;

always @(posedge sclk)
	if(!rst_n)
		valid_a 	<=   	1'b0;
	else if(valid && valid_d==1'b0)
		valid_a 	<=   	1'b1;
	else if(cordic_cnt == 5'd29)
		valid_a 	<=   	1'b0;

always @(posedge sclk)
	if(!valid_a)
		cordic_cnt 	<=   	3'd0;
	else 	
		cordic_cnt 	<=   	cordic_cnt + 1'b1;		

always @(posedge sclk)
	if(valid&&valid_d==1'b0)begin
		x_a 		<=   	x;
		y_a 		<=   	y;
	end 
/*===================================================================
====================================================================*/
reg 			[ 4:0]	Ninter_cnt		;
reg 			[ 4:0]	Ninter_cnt_copy1;
wire 			[17:0] 	K_quantize		;
wire 			[17:0]	atanz			;
reg 					valid_reg		;
reg  			[47:0]  x1				;
wire 			[47:0]  x_reg_dsp_x1	;
reg  			[47:0]  y1				;
wire 			[47:0]  y_reg_dsp_y1	;
reg 					x1_add_en		;
reg 					y1_add_en		;
reg  			[17:0] 	z				;
wire 			[17:0] 	z_dsp_lut		;
reg  			[17:0] 	z_dsp_lut_delay1;
wire 			[29:0] 	A_IN_x1			;
reg 			[17:0]	B_IN_x1			;
reg 			[47:0] 	C_x1			;
wire 			[24:0] 	D				;
wire 			[47:0] 	P_x1			;
reg 			[24:0] 	x1_mux			;
reg 			[ 6:0]	OPMODE_x1		;
reg 			[ 3:0]	ALUMODE_x1		;
reg 			[ 4:0]	INMODE_x1		;
reg 			[ 6:0]	OPMODE_y1		;
reg 			[ 3:0]	ALUMODE_y1		;
wire 			[ 4:0]	INMODE_y1		;
reg 			[29:0]	A_IN_y1			;
reg 			[17:0]	B_IN_y1			;
reg 			[47:0] 	C_y1			;
wire 			[47:0] 	P_y1			;
reg 			[47:0]	shift_y_reg		;
reg 			[47:0]	shift_x_reg		;
reg 					break_out 		;
reg 					break_happen 	;
wire 					break_cal		;
reg 					cal_control		;
reg 					first_break_happen	;
always @(posedge sclk)
	if(!rst_n)
		cal_control 		<=   	1'b0;
	else if(valid_a)
		cal_control 		<=   	~cal_control;

always @(*)//这个信号没有用处
	if(Ninter_cnt_copy1 != 0 && break_cal && cal_control == 1'b0)
		break_happen 		= 		1'b1;
	else 
		break_happen 		= 		1'b0;


always @(posedge sclk)
	if(!rst_n)
		first_break_happen 	<=   	1'b0;
	else if(break_happen)
		first_break_happen 	<=   	1'b1;
	else if(Ninter_cnt_copy1 == 4'd14)
		first_break_happen 	<=   	1'b0;
/*===================================================================
====================================================================*/  
reg 					x_sign,y_sign	;
reg 					Pos_valid		;
reg 			[3:0]	k_addr			;

always @(posedge sclk)
	valid_reg 				<=   	valid_a;


always @(posedge sclk)
	if(!rst_n)
		x_sign 				<= 		1'b0;
	else if(x_a[N-1]&&valid_a&&(~valid_reg))
		x_sign 				<= 		1'b1;
	else if(x_a[N-1]==1'b0&&valid_a&&(~valid_reg))
		x_sign 				<= 		1'b0;

always @(posedge sclk)
	if(!rst_n)
		y_sign 				<= 		1'b0;
	else if(y_a[N-1]&&valid_a&&(~valid_reg))
		y_sign 				<= 		1'b1;
	else if(y_a[N-1]==1'b0&&valid_a&&(~valid_reg))
		y_sign 				<= 		1'b0;


always @(posedge sclk)
	if(!rst_n)
		Pos_valid 			<=   	1'b0;	
	else if(valid_a && (~valid_reg))
		Pos_valid 			<=   	1'b1;
	else if(Ninter_cnt_copy1==5'h1f)
		Pos_valid 			<=   	1'b0;		


always @(posedge sclk)
	if(!rst_n||(!valid_a))
		Ninter_cnt 			<=   	4'd0;
	else if(valid_a&&cal_control)		
		Ninter_cnt 			<=   	Ninter_cnt + 1'b1;


always @(posedge sclk)
	if(!rst_n||(!valid_a))
		Ninter_cnt_copy1 	<=   	4'd0;
	else if(valid_a&&cal_control)		
		Ninter_cnt_copy1 	<=   	Ninter_cnt_copy1 + 1'b1;

always @(posedge sclk)
	if(!rst_n)
		break_out 			<=   	1'b0;
	else if(break_happen==1'b1&&first_break_happen==1'b0)
		break_out 			<=   	1'b1;
	else if(Ninter_cnt_copy1==4'd14)
		break_out 			<=   	1'b0;		


always @(posedge sclk)
	if(!rst_n)
		k_addr 				<=   	4'd0;
	else if(y1[47:48-N]==32'd0)
		k_addr 				<=   	4'd0;
	else if(break_happen&&first_break_happen==1'b0)
		k_addr	 			<=   	Ninter_cnt_copy1;
	else if(!break_out)
		k_addr 				<=   	Ninter;		

K_quantize_dis_rom #(
   .ROM_WIDTH     		(18						),
   .ROM_ADDR_BITS 		(4 						),
   .ROM_DEPTH     		(16						)
) u_K_quantize_dis_rom(
    .clock      		(sclk					),
	.enable     		(1'b1					),
	.address    		(k_addr					),
	.output_data		(K_quantize				)
  );   
atan_z_dis_rom #(
   .ROM_WIDTH     		(18						),
   .ROM_ADDR_BITS 		(4 						),
   .ROM_DEPTH     		(16						)
)u_atan_z_dis_rom(
    .clock      		(sclk					),
	.enable     		(1'b1					),
	.address    		(Ninter_cnt_copy1[3:0] 	),
	.output_data		(atanz 					)
  );  
/*===================================================================
====================================================================*/  
reg 				[N-1:0]	x_abs			;
always @(posedge sclk)
	if(x_a[N-1]==1)
		x_abs 		<=  		(~x_a)+1'b1;
	else 				
		x_abs 		<=  		x_a;

/*===================================================================
====================================================================*/ 
always @(posedge sclk)
	case(Ninter_cnt[3:0])
		4'd0:shift_y_reg <=   {{2{y_a[N-1]}},{y_a[N-2:0]},{(47-N){1'b0}}};//floor
		4'd1: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{1{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:1]};//floor
		4'd2: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{2{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:2]};//floor
		4'd3: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{3{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:3]};//floor
		4'd4: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{4{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:4]};//floor
		4'd5: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{5{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:5]};//floor
		4'd6: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{6{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:6]};//floor
		4'd7: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{7{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:7]};//floor	
		4'd8: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{8{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:8]};//floor
		4'd9: if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{9{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:9]};//floor
		4'd10:if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{10{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:10]};//floor
		4'd11:if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{11{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:11]};//floor
		4'd12:if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{12{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:12]};//floor
		4'd13:if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{13{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:13]};//floor
		4'd14:if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{14{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:14]};//floor
		4'd15:if(cal_control==1'b0)shift_y_reg <=   {y_reg_dsp_y1[47],{15{y_reg_dsp_y1[47]}},y_reg_dsp_y1[46:15]};//floor	
		default:shift_y_reg <=   shift_y_reg;
	endcase 


always @(posedge sclk)
	case(Ninter_cnt[3:0])
		4'd0:shift_x_reg  <=   {{2{x_abs[N-1]}},{x_abs[N-2:0]},{(47-N){1'b0}}};
		4'd1:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{1{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:1]};//floor
		4'd2:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{2{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:2]};//floor
		4'd3:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{3{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:3]};//floor
		4'd4:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{4{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:4]};//floor
		4'd5:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{5{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:5]};//floor
		4'd6:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{6{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:6]};//floor
		4'd7:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{7{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:7]};//floor	
		4'd8:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{8{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:8]};//floor
		4'd9:if(cal_control==1'b0)shift_x_reg  <=   {x_reg_dsp_x1[47],{9{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:9]};//floor
		4'd10:if(cal_control==1'b0)shift_x_reg <=   {x_reg_dsp_x1[47],{10{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:10]};//floor
		4'd11:if(cal_control==1'b0)shift_x_reg <=   {x_reg_dsp_x1[47],{11{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:11]};//floor
		4'd12:if(cal_control==1'b0)shift_x_reg <=   {x_reg_dsp_x1[47],{12{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:12]};//floor
		4'd13:if(cal_control==1'b0)shift_x_reg <=   {x_reg_dsp_x1[47],{13{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:13]};//floor
		4'd14:if(cal_control==1'b0)shift_x_reg <=   {x_reg_dsp_x1[47],{14{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:14]};//floor
		4'd15:if(cal_control==1'b0)shift_x_reg <=   {x_reg_dsp_x1[47],{15{x_reg_dsp_x1[47]}},x_reg_dsp_x1[46:15]};//floor	
		default:shift_x_reg <=    shift_x_reg;
	endcase
/*=============================================================================
	x1 = x_reg - d*(shift(n+1)*y_reg); and Amp = quantize(q_amp,x1*K(n+1));
	DSP X1: add/sub and mult; MUX:P=(A:B)+/-C; P=B*D
==============================================================================*/
reg 				[47:0] x1_temp			;
reg 				[47:0]	x_reg_dsp_x1_d	;

assign 		A_IN_x1 	= 	shift_y_reg[47:18];
assign 		D 	   		= 	x1_temp[47:23];
assign 		x_reg_dsp_x1= 	P_x1;

always @(*)
	if(Ninter_cnt==4'd0&&Pos_valid)
		x1 				=  		{{2{x_abs[N-1]}},{x_abs[N-2:0]},{(47-N){1'b0}}};
	else 	
		x1 				= 		x_reg_dsp_x1;

always @(posedge sclk)
	if(y1[47:48-N]==32'd0)//y1[47:48-N]==32'd0||break_out
		x1_temp 		<=   	{{2{x_abs[N-1]}},{x_abs[N-2:0]},{(47-N){1'b0}}};
	else if(break_happen == 1'b1)
		x1_temp 		<=   	x_reg_dsp_x1;
	else if(cal_control==1'b0 && break_out==1'b0 && Ninter_cnt==Ninter)//if(break_happen&&first_break_happen==1'b0)
		x1_temp 		<=   	x_reg_dsp_x1;

always @(posedge sclk)
	y1 					<=   {{2{y_a[N-1]}},{y_a[N-2:0]},{(47-N){1'b0}}};//x1 <=   {4'b0000,{x[N-2:0]},{(45-N){1'b0}}};//	 

always @(posedge sclk)
	if(y_a[N-1]==1'b0 && Ninter_cnt==0)
		x1_add_en 		<=    	1'b1;
	else if(y_a[N-1]==1'b1 && Ninter_cnt==0)
		x1_add_en 		<=    	1'b0;
	else if(y_reg_dsp_y1[47]==1'b1&&cal_control==1'b0)
		x1_add_en 		<=   	1'b0;
	else if(y_reg_dsp_y1[47]==1'b0&&cal_control==1'b0)
		x1_add_en 		<=   	1'b1;		
	else 
		x1_add_en 		<=    	x1_add_en;

always @(posedge sclk)
	if(Ninter_cnt==Ninter||break_out)
		x1_mux 			<= 		x1[47:23];
	else
		x1_mux 			<= 		25'd0;


always @(posedge sclk)
	x_reg_dsp_x1_d 		<=   	x_reg_dsp_x1;


always @(*)
	if(Ninter_cnt>=Ninter||break_out)
		B_IN_x1 		= 		K_quantize;
	else if(cal_control<Ninter&&cal_control)
		B_IN_x1			= 		shift_y_reg[17:0];
	else 
		B_IN_x1 		= 		18'd0;

always @(*)
	if(Ninter_cnt==0 && cal_control)
		C_x1 			= 		{{2{x_abs[N-1]}},{x_abs[N-2:0]},{(47-N){1'b0}}};
	else if(cal_control == 1'b1)
		C_x1 			= 		x_reg_dsp_x1_d;
	else 
		C_x1 			= 		48'd0;

always @(*)
	if(Ninter_cnt>=Ninter)
		OPMODE_x1 		= 		7'b000_01_01;//B*D
	else if(x1_add_en == 1'b1)//C+(A:B)
		OPMODE_x1 		= 		7'b000_11_11;
	else 
		OPMODE_x1 		= 		7'b011_00_11;//C-(A:B)			

always @(posedge sclk)
	if(Ninter_cnt>=Ninter-2)
		INMODE_x1 		<=   	5'b00110;
	else
		INMODE_x1 		<=   	5'b00000;	

always @(*)
	if(Ninter_cnt>=Ninter)
		ALUMODE_x1 		= 		4'b0000;
	else if(x1_add_en == 1'b1)
		ALUMODE_x1 		= 		4'b0000;				
	else
		ALUMODE_x1  	= 		4'b0011;			 

always @(posedge sclk)
	if(!rst_n)
		Amp 			<=   	0;	
	else if(x_reg_dsp_x1[42]==1'b0&& |x_reg_dsp_x1[41:39] && Ninter_cnt==(Ninter+1)&&cal_control==1'b0) 
		Amp 			<=   	32'b0111_1111_1111_1111_1111_1111_1111_1111;
	else if(x_reg_dsp_x1[42]&& &x_reg_dsp_x1[41:39]==1'b0 && Ninter_cnt==(Ninter+1)&&cal_control==1'b0) 
		Amp 			<=   	32'b1000_0000_0000_0000_0000_0000_0000_0000;
	else if(Ninter_cnt==(Ninter+1)&&cal_control==1'b0) 
		Amp 			<=   	{x_reg_dsp_x1[42],x_reg_dsp_x1[38],x_reg_dsp_x1[37:40-N]};			
	else
		Amp 			<=   	Amp;

wire 		rst 	= 	~rst_n;

wire 				rst_x		;
assign 		rst_x	=	~rst_n;
	
DSP48E1 #(
// Feature Control Attributes: Data Path Selection
.A_INPUT("DIRECT"), // Selects A input source, "DIRECT" (A port) or "CASCADE" (ACIN port)
.B_INPUT("DIRECT"), // Selects B input source, "DIRECT" (B port) or "CASCADE" (BCIN port)
.USE_DPORT("TRUE"), // Select D port usage (TRUE or FALSE)
.USE_MULT("DYNAMIC"), // Select multiplier usage ("MULTIPLY", "DYNAMIC", or "NONE")
.USE_SIMD("ONE48"), // SIMD selection ("ONE48", "TWO24", "FOUR12")
// Pattern Detector Attributes: Pattern Detection Configuration
.AUTORESET_PATDET("NO_RESET"), // "NO_RESET", "RESET_MATCH", "RESET_NOT_MATCH"
.MASK(48'h3fffffffffff), // 48-bit mask value for pattern detect (1=ignore)
.PATTERN(48'h000000000000), // 48-bit pattern match for pattern detect
.SEL_MASK("MASK"), // "C", "MASK", "ROUNDING_MODE1", "ROUNDING_MODE2"
.SEL_PATTERN("PATTERN"), // Select pattern value ("PATTERN" or "C")
.USE_PATTERN_DETECT("NO_PATDET"), // Enable pattern detect ("PATDET" or "NO_PATDET")

// Register Control Attributes: Pipeline Register Configuration
.ACASCREG(0), // Number of pipeline stages between A/ACIN and ACOUT (0, 1 or 2)
.ADREG(0), // Number of pipeline stages for pre-adder (0 or 1)
.ALUMODEREG(0), // Number of pipeline stages for ALUMODE (0 or 1)
.AREG(0), // Number of pipeline stages for A (0, 1 or 2)
.BCASCREG(0), // Number of pipeline stages between B/BCIN and BCOUT (0, 1 or 2)
.BREG(0), // Number of pipeline stages for B (0, 1 or 2)
.CARRYINREG(0), // Number of pipeline stages for CARRYIN (0 or 1)
.CARRYINSELREG(0), // Number of pipeline stages for CARRYINSEL (0 or 1)
.CREG(0), // Number of pipeline stages for C (0 or 1)
.DREG(0), // Number of pipeline stages for D (0 or 1)
.INMODEREG(1), // Number of pipeline stages for INMODE (0 or 1)
.MREG(0), // Number of multiplier pipeline stages (0 or 1)
.OPMODEREG(0), // Number of pipeline stages for OPMODE (0 or 1)
.PREG(1) // Number of pipeline stages for P (0 or 1)

)

DSP48E1_cal_x1 (
// Cascade: 30-bit (each) output: Cascade Ports
.ACOUT(), // 30-bit output: A port cascade output
.BCOUT(), // 18-bit output: B port cascade output
.CARRYCASCOUT(), // 1-bit output: Cascade carry output
.MULTSIGNOUT(), // 1-bit output: Multiplier sign cascade output
.PCOUT(), // 48-bit output: Cascade output
// Control: 1-bit (each) output: Control Inputs/Status Bits
.OVERFLOW(), // 1-bit output: Overflow in add/acc output
.PATTERNBDETECT(), // 1-bit output: Pattern bar detect output
.PATTERNDETECT(), // 1-bit output: Pattern detect output
.UNDERFLOW(), // 1-bit output: Underflow in add/acc output

// Data: 4-bit (each) output: Data Ports
.CARRYOUT(), // 4-bit output: Carry output
.P(P_x1), // 48-bit output: Primary data output
// Cascade: 30-bit (each) input: Cascade Ports
.ACIN(30'd0), // 30-bit input: A cascade data input
.BCIN(18'd0), // 18-bit input: B cascade input
.CARRYCASCIN(1'b0), // 1-bit input: Cascade carry input
.MULTSIGNIN(1'b0), // 1-bit input: Multiplier sign input
.PCIN(48'd0), // 48-bit input: P cascade input
// Control: 4-bit (each) input: Control Inputs/Status Bits
.ALUMODE(ALUMODE_x1), // 4-bit input: ALU control input
.CARRYINSEL(3'b000), // 3-bit input: Carry select input
.CLK(sclk), // 1-bit input: Clock input
.INMODE(INMODE_x1), // 5-bit input: INMODE control input
.OPMODE(OPMODE_x1), // 7-bit input: Operation mode input

// Data: 30-bit (each) input: Data Ports
.A(A_IN_x1), // 30-bit input: A data input //A_IN
.B(B_IN_x1), // 18-bit input: B data input //B_IN
.C(C_x1), // 48-bit input: C data input
.CARRYIN(1'b0), // 1-bit input: Carry input signal
.D(D), // 25-bit input: D data input
 
// Reset/Clock Enable: 1-bit (each) input: Reset/Clock Enable Inputs
.CEA1(1'b1), // 1-bit input: Clock enable input for 1st stage AREG
.CEA2(1'b0), // 1-bit input: Clock enable input for 2nd stage AREG
.CEAD(1'b0), // 1-bit input: Clock enable input for ADREG
.CEALUMODE(1'b1), // 1-bit input: Clock enable input for ALUMODE
.CEB1(1'b1), // 1-bit input: Clock enable input for 1st stage BREG
.CEB2(1'b0), // 1-bit input: Clock enable input for 2nd stage BREG
.CEC(1'b1), // 1-bit input: Clock enable input for CREG

.CECARRYIN(1'b0), // 1-bit input: Clock enable input for CARRYINREG
.CECTRL(1'b1), // 1-bit input: Clock enable input for OPMODEREG and CARRYINSELREG
.CED(1'b1), // 1-bit input: Clock enable input for DREG
.CEINMODE(1'b1), // 1-bit input: Clock enable input for INMODEREG
.CEM(1'b1), // 1-bit input: Clock enable input for MREG
.CEP(1'b1), // 1-bit input: Clock enable input for PREG

.RSTA(rst_x), // 1-bit input: Reset input for AREG
.RSTALLCARRYIN(rst_x), // 1-bit input: Reset input for CARRYINREG
.RSTALUMODE(rst_x), // 1-bit input: Reset input for ALUMODEREG
.RSTB(rst_x), // 1-bit input: Reset input for BREG
.RSTC(rst_x), // 1-bit input: Reset input for CREG
.RSTCTRL(rst_x), // 1-bit input: Reset input for OPMODEREG and CARRYINSELREG
.RSTD(rst_x), // 1-bit input: Reset input for DREG and ADREG
.RSTINMODE(rst_x), // 1-bit input: Reset input for INMODEREG
.RSTM(rst_x), // 1-bit input: Reset input for MREG
.RSTP(rst_x) // 1-bit input: Reset input for PREG
);
/*===================================================================
			  y1 = y_reg + d*(shift(n+1)*x_reg);
====================================================================*/
wire 		[47:0]		cal_x_abs		;
reg 		[47:0]		y_reg_dsp_y1_d	;

assign 	cal_x_abs 		= 	{{2{x_abs[N-1]}},{x_abs[N-2:0]},{(47-N){1'b0}}};
assign 	y_reg_dsp_y1 	= 	P_y1;
 
always @(posedge sclk)
	if(y_a[N-1]==1'b0 && Ninter_cnt_copy1==0)
		y1_add_en 			<=    	1'b0;
	else if(y_a[N-1]==1'b1 && Ninter_cnt_copy1==0)
		y1_add_en 			<=    	1'b1;
	else if(y_reg_dsp_y1[47]==1'b1&&cal_control==1'b0)
		y1_add_en 			<=    	1'b1;
	else if(y_reg_dsp_y1[47]==1'b0&&cal_control==1'b0)
		y1_add_en 			<=    	1'b0;
	else 
		y1_add_en 			<=    	1'b0;

always @(posedge sclk)
	y_reg_dsp_y1_d 			<=   	y_reg_dsp_y1;

always @(*)
	if(Ninter_cnt_copy1==0&&cal_control)
		A_IN_y1 			= 		cal_x_abs[47:18];
	else if(cal_control)
		A_IN_y1 			= 		shift_x_reg[47:18];
	else 
		A_IN_y1	 			= 		30'd0; 

always @(*)
	if(Ninter_cnt_copy1==0&&cal_control)
		B_IN_y1 			= 		cal_x_abs[17:0];
	else if(cal_control == 1'b1)
		B_IN_y1 			= 		shift_x_reg[17:0];
	else 
		B_IN_y1 			= 		30'd0;

always @(*)
	if(Ninter_cnt_copy1==0&&cal_control)
		C_y1 				= 		y1;
	else if(cal_control)
		C_y1 				= 		y_reg_dsp_y1_d;
	else 
		C_y1 				= 		30'd0;

/*=======================================================================
			DSP y1 control :add sub and pattern 
=======================================================================*/
assign INMODE_y1 			= 		5'b00000;

always @(*)
	if(y1_add_en == 1'b1)//C+(A:B)
		OPMODE_y1 			= 		7'b000_11_11;
	else 
		OPMODE_y1 			= 		7'b011_00_11;//C-(A:B)		

always @(*)
	if(y1_add_en == 1'b1)
		ALUMODE_y1 			= 		4'b0000;				
	else
		ALUMODE_y1  		= 		4'b0011;			

/*=======================================================================
			DSP y1 control
=======================================================================*/
DSP48E1 #(
// Feature Control Attributes: Data Path Selection
.A_INPUT("DIRECT"), // Selects A input source, "DIRECT" (A port) or "CASCADE" (ACIN port)
.B_INPUT("DIRECT"), // Selects B input source, "DIRECT" (B port) or "CASCADE" (BCIN port)
.USE_DPORT("FALSE"), // Select D port usage (TRUE or FALSE)
.USE_MULT("NONE"), // Select multiplier usage ("MULTIPLY", "DYNAMIC", or "NONE")
.USE_SIMD("ONE48"), // SIMD selection ("ONE48", "TWO24", "FOUR12")
// Pattern Detector Attributes: Pattern Detection Configuration
.AUTORESET_PATDET("NO_RESET"), // "NO_RESET", "RESET_MATCH", "RESET_NOT_MATCH"
.MASK(48'd0), // 48-bit mask value for pattern detect (1=ignore)
.PATTERN(48'h000000000000), // 48-bit pattern match for pattern detect
.SEL_MASK("MASK"), // "C", "MASK", "ROUNDING_MODE1", "ROUNDING_MODE2"
.SEL_PATTERN("PATTERN"), // Select pattern value ("PATTERN" or "C")
.USE_PATTERN_DETECT("PATDET"), // Enable pattern detect ("PATDET" or "NO_PATDET")

// Register Control Attributes: Pipeline Register Configuration
.ACASCREG(0), // Number of pipeline stages between A/ACIN and ACOUT (0, 1 or 2)
.ADREG(0), // Number of pipeline stages for pre-adder (0 or 1)
.ALUMODEREG(0), // Number of pipeline stages for ALUMODE (0 or 1)
.AREG(0), // Number of pipeline stages for A (0, 1 or 2)
.BCASCREG(0), // Number of pipeline stages between B/BCIN and BCOUT (0, 1 or 2)
.BREG(0), // Number of pipeline stages for B (0, 1 or 2)
.CARRYINREG(0), // Number of pipeline stages for CARRYIN (0 or 1)
.CARRYINSELREG(0), // Number of pipeline stages for CARRYINSEL (0 or 1)
.CREG(0), // Number of pipeline stages for C (0 or 1)
.DREG(0), // Number of pipeline stages for D (0 or 1)
.INMODEREG(0), // Number of pipeline stages for INMODE (0 or 1)
.MREG(0), // Number of multiplier pipeline stages (0 or 1)
.OPMODEREG(0), // Number of pipeline stages for OPMODE (0 or 1)
.PREG(1) // Number of pipeline stages for P (0 or 1)

)

DSP48E1_cal_y1 (
// Cascade: 30-bit (each) output: Cascade Ports
.ACOUT(), // 30-bit output: A port cascade output
.BCOUT(), // 18-bit output: B port cascade output
.CARRYCASCOUT(), // 1-bit output: Cascade carry output
.MULTSIGNOUT(), // 1-bit output: Multiplier sign cascade output
.PCOUT(), // 48-bit output: Cascade output
// Control: 1-bit (each) output: Control Inputs/Status Bits
.OVERFLOW(), // 1-bit output: Overflow in add/acc output
.PATTERNBDETECT(), // 1-bit output: Pattern bar detect output
.PATTERNDETECT(break_cal), // 1-bit output: Pattern detect output
.UNDERFLOW(), // 1-bit output: Underflow in add/acc output

// Data: 4-bit (each) output: Data Ports
.CARRYOUT(), // 4-bit output: Carry output
.P(P_y1), // 48-bit output: Primary data output
// Cascade: 30-bit (each) input: Cascade Ports
.ACIN(30'd0), // 30-bit input: A cascade data input
.BCIN(18'd0), // 18-bit input: B cascade input
.CARRYCASCIN(1'b0), // 1-bit input: Cascade carry input
.MULTSIGNIN(1'b0), // 1-bit input: Multiplier sign input
.PCIN(48'd0), // 48-bit input: P cascade input
// Control: 4-bit (each) input: Control Inputs/Status Bits
.ALUMODE(ALUMODE_y1), // 4-bit input: ALU control input
.CARRYINSEL(3'b000), // 3-bit input: Carry select input
.CLK(sclk), // 1-bit input: Clock input
.INMODE(INMODE_y1), // 5-bit input: INMODE control input
.OPMODE(OPMODE_y1), // 7-bit input: Operation mode input

// Data: 30-bit (each) input: Data Ports
.A(A_IN_y1), // 30-bit input: A data input //A_IN
.B(B_IN_y1), // 18-bit input: B data input //B_IN
.C(C_y1), // 48-bit input: C data input
.CARRYIN(1'b0), // 1-bit input: Carry input signal
.D(), // 25-bit input: D data input
 
// Reset/Clock Enable: 1-bit (each) input: Reset/Clock Enable Inputs
.CEA1(1'b1), // 1-bit input: Clock enable input for 1st stage AREG
.CEA2(1'b0), // 1-bit input: Clock enable input for 2nd stage AREG
.CEAD(1'b0), // 1-bit input: Clock enable input for ADREG
.CEALUMODE(1'b1), // 1-bit input: Clock enable input for ALUMODE
.CEB1(1'b1), // 1-bit input: Clock enable input for 1st stage BREG
.CEB2(1'b0), // 1-bit input: Clock enable input for 2nd stage BREG
.CEC(1'b1), // 1-bit input: Clock enable input for CREG

.CECARRYIN(1'b0), // 1-bit input: Clock enable input for CARRYINREG
.CECTRL(1'b1), // 1-bit input: Clock enable input for OPMODEREG and CARRYINSELREG
.CED(1'b0), // 1-bit input: Clock enable input for DREG
.CEINMODE(1'b1), // 1-bit input: Clock enable input for INMODEREG
.CEM(1'b1), // 1-bit input: Clock enable input for MREG
.CEP(1'b1), // 1-bit input: Clock enable input for PREG

.RSTA(rst), // 1-bit input: Reset input for AREG
.RSTALLCARRYIN(rst), // 1-bit input: Reset input for CARRYINREG
.RSTALUMODE(rst), // 1-bit input: Reset input for ALUMODEREG
.RSTB(rst), // 1-bit input: Reset input for BREG
.RSTC(rst), // 1-bit input: Reset input for CREG
.RSTCTRL(rst), // 1-bit input: Reset input for OPMODEREG and CARRYINSELREG
.RSTD(rst), // 1-bit input: Reset input for DREG and ADREG
.RSTINMODE(rst), // 1-bit input: Reset input for INMODEREG
.RSTM(rst), // 1-bit input: Reset input for MREG
.RSTP(rst) // 1-bit input: Reset input for PREG
);
/*====================================================================*/
//quantize nearest;  z = quantize(q_ang,z - d*atan_z(n+1));
// Ang = -z -/+ pi_quan  ;
/*====================================================================*/


/*=======================================================================
			DSP z control and input
=======================================================================*/
wire 			[29:0]		A_IN_z		;
reg 			[17:0]		B_IN_z		;
reg 			[47:0]		C_IN_z		;
wire 			[47:0]		P_Z			;
reg 			[17:0]		z_dsp_lut_d ;
reg 			[ 6:0]		OPMODE_z	;
reg 						z_add		;
wire 			[ 4:0]		INMODE_z	;
reg 			[ 3:0]		ALUMODE_z	;

assign A_IN_z 		=  		30'd0;//x1[47:18];
assign z_dsp_lut 	= 		P_Z[17:0];
assign INMODE_z 	= 		5'b00000;

always @(*)
	if(cal_control==1'b1)
		B_IN_z 		= 		atanz[17:0];
	else 
		B_IN_z 		= 		18'd0;

always @(*)
	if(Ninter_cnt_copy1==0)
		C_IN_z 		= 		48'd0;
	else if(cal_control==1'b1)
		C_IN_z 		= 		{30'd0,z_dsp_lut_d};
	else 
		C_IN_z		= 		48'd0;


always @(posedge sclk)
	z_dsp_lut_d 	<=   	P_Z[17:0];

always @(posedge sclk)
	if(y_a[N-1]==1'b0 && Ninter_cnt_copy1==0)
		z_add 		<=    	1'b1;
	else if(y_a[N-1]==1'b1 && Ninter_cnt_copy1==0)
		z_add 		<=    	1'b0;
	else if(y_reg_dsp_y1[47]==1'b1&&cal_control==1'b0)
		z_add 		<=   	1'b0;
	else if(y_reg_dsp_y1[47]==1'b0&&cal_control==1'b0)
		z_add 		<=   	1'b1;		
	else 
		z_add 		<=    	z_add;

always @(*)
	if(z_add == 1'b1)//C+(A:B)
		OPMODE_z 	=		7'b000_11_11;
	else 
		OPMODE_z 	= 		7'b011_00_11;//C-(A:B)			

always @(*)
	if(z_add == 1'b1)
		ALUMODE_z	= 		4'b0000;				
	else
		ALUMODE_z  	= 		4'b0011;			 

wire 			rst_z 					;
assign 			rst_z 		= 		rst_x;
DSP48E1 #(
// Feature Control Attributes: Data Path Selection
.A_INPUT("DIRECT"), // Selects A input source, "DIRECT" (A port) or "CASCADE" (ACIN port)
.B_INPUT("DIRECT"), // Selects B input source, "DIRECT" (B port) or "CASCADE" (BCIN port)
.USE_DPORT("FALSE"), // Select D port usage (TRUE or FALSE)
.USE_MULT("NONE"), // Select multiplier usage ("MULTIPLY", "DYNAMIC", or "NONE")
.USE_SIMD("ONE48"), // SIMD selection ("ONE48", "TWO24", "FOUR12")
// Pattern Detector Attributes: Pattern Detection Configuration
.AUTORESET_PATDET("NO_RESET"), // "NO_RESET", "RESET_MATCH", "RESET_NOT_MATCH"
.MASK(48'd0), // 48-bit mask value for pattern detect (1=ignore)
.PATTERN(48'h000000000000), // 48-bit pattern match for pattern detect
.SEL_MASK("MASK"), // "C", "MASK", "ROUNDING_MODE1", "ROUNDING_MODE2"
.SEL_PATTERN("PATTERN"), // Select pattern value ("PATTERN" or "C")
.USE_PATTERN_DETECT("NO_PATDET"), // Enable pattern detect ("PATDET" or "NO_PATDET")

// Register Control Attributes: Pipeline Register Configuration
.ACASCREG(0), // Number of pipeline stages between A/ACIN and ACOUT (0, 1 or 2)
.ADREG(0), // Number of pipeline stages for pre-adder (0 or 1)
.ALUMODEREG(0), // Number of pipeline stages for ALUMODE (0 or 1)
.AREG(0), // Number of pipeline stages for A (0, 1 or 2)
.BCASCREG(0), // Number of pipeline stages between B/BCIN and BCOUT (0, 1 or 2)
.BREG(0), // Number of pipeline stages for B (0, 1 or 2)
.CARRYINREG(0), // Number of pipeline stages for CARRYIN (0 or 1)
.CARRYINSELREG(0), // Number of pipeline stages for CARRYINSEL (0 or 1)
.CREG(0), // Number of pipeline stages for C (0 or 1)
.DREG(0), // Number of pipeline stages for D (0 or 1)
.INMODEREG(0), // Number of pipeline stages for INMODE (0 or 1)
.MREG(0), // Number of multiplier pipeline stages (0 or 1)
.OPMODEREG(0), // Number of pipeline stages for OPMODE (0 or 1)
.PREG(1) // Number of pipeline stages for P (0 or 1)

)

DSP48E1_cal_z (
// Cascade: 30-bit (each) output: Cascade Ports
.ACOUT(), // 30-bit output: A port cascade output
.BCOUT(), // 18-bit output: B port cascade output
.CARRYCASCOUT(), // 1-bit output: Cascade carry output
.MULTSIGNOUT(), // 1-bit output: Multiplier sign cascade output
.PCOUT(), // 48-bit output: Cascade output
// Control: 1-bit (each) output: Control Inputs/Status Bits
.OVERFLOW(), // 1-bit output: Overflow in add/acc output
.PATTERNBDETECT(), // 1-bit output: Pattern bar detect output
.PATTERNDETECT(), // 1-bit output: Pattern detect output
.UNDERFLOW(), // 1-bit output: Underflow in add/acc output

// Data: 4-bit (each) output: Data Ports
.CARRYOUT(), // 4-bit output: Carry output
.P(P_Z), // 48-bit output: Primary data output
// Cascade: 30-bit (each) input: Cascade Ports
.ACIN(30'd0), // 30-bit input: A cascade data input
.BCIN(18'd0), // 18-bit input: B cascade input
.CARRYCASCIN(1'b0), // 1-bit input: Cascade carry input
.MULTSIGNIN(1'b0), // 1-bit input: Multiplier sign input
.PCIN(48'd0), // 48-bit input: P cascade input
// Control: 4-bit (each) input: Control Inputs/Status Bits
.ALUMODE(ALUMODE_z), // 4-bit input: ALU control input
.CARRYINSEL(3'b000), // 3-bit input: Carry select input
.CLK(sclk), // 1-bit input: Clock input
.INMODE(INMODE_z), // 5-bit input: INMODE control input
.OPMODE(OPMODE_z), // 7-bit input: Operation mode input

// Data: 30-bit (each) input: Data Ports
.A(A_IN_z), // 30-bit input: A data input //A_IN
.B(B_IN_z), // 18-bit input: B data input //B_IN
.C(C_IN_z), // 48-bit input: C data input
.CARRYIN(1'b0), // 1-bit input: Carry input signal
.D(25'd0), // 25-bit input: D data input
 
// Reset/Clock Enable: 1-bit (each) input: Reset/Clock Enable Inputs
.CEA1(1'b1), // 1-bit input: Clock enable input for 1st stage AREG
.CEA2(1'b0), // 1-bit input: Clock enable input for 2nd stage AREG
.CEAD(1'b0), // 1-bit input: Clock enable input for ADREG
.CEALUMODE(1'b1), // 1-bit input: Clock enable input for ALUMODE
.CEB1(1'b1), // 1-bit input: Clock enable input for 1st stage BREG
.CEB2(1'b0), // 1-bit input: Clock enable input for 2nd stage BREG
.CEC(1'b1), // 1-bit input: Clock enable input for CREG

.CECARRYIN(1'b0), // 1-bit input: Clock enable input for CARRYINREG
.CECTRL(1'b1), // 1-bit input: Clock enable input for OPMODEREG and CARRYINSELREG
.CED(1'b0), // 1-bit input: Clock enable input for DREG
.CEINMODE(1'b1), // 1-bit input: Clock enable input for INMODEREG
.CEM(1'b1), // 1-bit input: Clock enable input for MREG
.CEP(1'b1), // 1-bit input: Clock enable input for PREG

.RSTA(rst_z), // 1-bit input: Reset input for AREG
.RSTALLCARRYIN(rst_z), // 1-bit input: Reset input for CARRYINREG
.RSTALUMODE(rst_z), // 1-bit input: Reset input for ALUMODEREG
.RSTB(rst_z), // 1-bit input: Reset input for BREG
.RSTC(rst_z), // 1-bit input: Reset input for CREG
.RSTCTRL(rst_z), // 1-bit input: Reset input for OPMODEREG and CARRYINSELREG
.RSTD(rst_z), // 1-bit input: Reset input for DREG and ADREG
.RSTINMODE(rst_z), // 1-bit input: Reset input for INMODEREG
.RSTM(rst_z), // 1-bit input: Reset input for MREG
.RSTP(rst_z) // 1-bit input: Reset input for PREG
);

always @(posedge sclk)
	if(!rst_n)	
		z_dsp_lut_delay1 			<=   		0;
	else if(break_happen==1'b1&&first_break_happen==1'b0)
		z_dsp_lut_delay1 			<=   		z_dsp_lut;
	else  if(Ninter_cnt_copy1[3:0]==Ninter&&cal_control&&break_out==1'b0)
		z_dsp_lut_delay1 			<=   		z_dsp_lut_d;

always @(posedge sclk)
	if(!rst_n)
		z 							<=   		0;
	else if(break_happen==1'b1&&first_break_happen==1'b0)
		z 							<=   		(~z_dsp_lut[17:0])+1'b1;	
	else if(Ninter_cnt_copy1[3:0]==Ninter&&cal_control&&break_out==1'b0)
		z 							<=   		(~z_dsp_lut_d[17:0])+1'b1;
	else
		z 							<=   		z;

always @(posedge sclk)
	if(!rst_n)
		Ang 						<=    		0;
	else if(y_a==0&&x_a[N-1]==1'b0)
		Ang 						<=    		0;
	else if(y_a==0&&x_a[N-1]==1'b1)
		Ang 						<=    		18'b011001001000100000;
	else if(Ninter_cnt_copy1==Ninter+1 && x_sign && y_sign)
		Ang 						<=    		z - 18'b011001001000100000;		
	else if(Ninter_cnt_copy1==Ninter+1 && x_sign && y_sign==0)
		Ang 						<=    		z + 18'b011001001000100000;	
	else if(Ninter_cnt_copy1==Ninter+1)
		Ang 						<=    		z_dsp_lut_delay1;	
	else 
		Ang 						<=    		Ang;

always @(posedge sclk)
	if(Ninter_cnt_copy1==4'he&&cal_control==1'b0)
		Ang_en 						<=   		1'b1;
	else 
		Ang_en 						<=   		1'b0;

endmodule

上面的代码为了限制使用DSP的数目，所以使用了DSP原语，这也是导致代码长度过长的原因。如果我们不考虑使用DSP原语而是让编译器自动帮我们进行编译综合，那么我代码可以精简到300行。至于DSP原语的使用这里不再赘述，个人感觉吃力不讨好，当然不排除自己人太菜没达到那种逼格。我们这里重点关注一下MATLAB与FPGA之间量化的对应。
ang在MATLAB中的量化：

对应在FPGA中的处理：

这里需要注意FPGA默认的量化截取方式与下面对应：

amp在MATLAB中的量化：

ang在MATLAB中的量化：

其实就是直接截取了低位，关于量化的操作在FPGA与MATLAB数据相互对应的方面是特别重要的。

这里简要总结一下就是FPGA自己计算的就是：

如果我们进行了截位就是：

MATLAB测试代码

这里我们给出MATLAB测试代码用来对比MATLAB与Modelsim两者仿真之间代码的一致性，代码如下：

clc;
clear all;

fid1 = fopen('Ang_matlab.txt','r');
x_fix = fscanf(fid1,'%d');  

fid2 = fopen('Amp_matlab.txt','r');
y_fix = fscanf(fid2,'%d');  

fid3 = fopen('Ang_fpga.txt','r');
x_fpga = fscanf(fid3,'%d');  

fid4 = fopen('Amp_fpga.txt','r');
y_fpga = fscanf(fid4,'%d');  

sum1 = sum(abs(x_fix - x_fpga));
sum2 = sum(abs(y_fix - y_fpga));

结果如下：

从上面实验验证了我们实验的正确性。

总结

创作不易，认为文章有帮助的同学们可以关注、点赞、转发支持。为行业贡献及其微小的一部分。或者对文章有什么看法或者需要更近一步交流的同学，可以加入下面的群：

你可能感兴趣的:(FPGA)

Xilinx系ZYNQ学习笔记（二）ZYNQ入门及点亮LED灯贾saisai FPGA学习学习笔记 fpga开发
系列文章目录文章目录系列文章目录前言简单介绍简称xc7z020型号FPGAZYNQ实操通用IO点亮LED灯硬件逻辑基础前言简单入门一下ZYNQ是何种架构，如何编程，至于深入了解应该要分开深入学习Linux和FPGA简单介绍其基本架构都是在同一个硅片上集成FPGA和CPU，并通过高速、高带宽的互联架构连接起来。ARM的顺序控制、丰富外设，开源驱动、FPGA的并行运算、高速接口、灵活定制、数字之王的特
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
Fpga-流水灯代码详解一顿吃一锅 fpga开发
moduleflowled(inputsys_clk50,inputrst_n,outputreg[3:0]led);reg[23:0]cnt;always@(posedgesys_clk50ornegedgerst_n)beginif(!rst_n)cnt<=24'd0;elseif(cnt<24'd10000000)cnt<=cnt+1'b1;elsecnt<=24'd0;endalways@
FPGA实战1-流水灯实验verilog 马志高 FPGA fpga开发
1.实验要求（1）设计一个流水灯的实验，实现12位流水灯的依次点亮，（2）流水灯的流转时间是（500ms/2Hz），（3）系统时钟位50MHz，（4）定义12个寄存器ledtemp保存12个状态，（5）寄存器的初始值位12'b0000_0000_0001，（6）当移位到12‘b1000_0000_0000时，ledtemp的值回到12'b0000_0000_0001,2.设计代码//coding/
PXI PXIe控制器：4Link架构+16GB带宽，兼容主流机箱，设计文件涵盖原理图、PCB和FPGA源码，实现可直接制板，高带宽PXI PXIe控制器，4Link架构，兼容主流机箱，提供设计文件、 suRQWcVNi fpga开发程序人生
PXIPXIe控制器4Link架构16GB带宽兼容主流PXIe机箱设计文件原理图&PCBFPGA源码可直接制板ID:8245999662600997605浪里个浪里个浪001PXI和PXIe控制器是一种用于测量和自动化测试的高性能仪器。它们采用了4Link架构，可以提供高达16GB的数据传输带宽。同时，这些控制器还兼容主流的PXIe机箱，具有很好的兼容性。在设计文件方面，PXI和PXIe控制器提供
PXI/PXIe控制器 4Link架构 16GB带宽兼容主流PXIe机箱设计文件原理图&PCB FPGA源码可直 FjtKvOwLaGa fpga开发架构
PXI/PXIe控制器4Link架构16GB带宽兼容主流PXIe机箱设计文件！！！原理图&PCBFPGA源码可直接制板PXI和PXIe技术在现代仪器仪表领域中扮演着重要角色。其中，PXI（PCIeXtensionsforInstrumentation）是一种基于PCI总线的测试和测量平台，而PXIe则是对PXI进行扩展和增强的新一代标准。在PXI和PXIe平台中，控制器是关键组件之一，而PXIPX
FPGA基带平台射频数据处理装置及验证系统设计与方法 BE东欲
本文还有配套的精品资源，点击获取简介：FPGA在射频数据处理领域拥有灵活性和高性能，广泛用于通信、雷达、卫星导航等。本资料包重点介绍FPGA基带平台在数字信号处理中的应用，包括调制解调、滤波和FFT等任务。涵盖射频数据处理装置结构，验证系统设计和实施，以及相关工具的使用方法。为学习者提供实践经验和理论知识，助力开发高效可靠的通信系统。1.FPGA在射频数据处理中的应用数字信号处理（DSP）是现代电
基于FPGA的3U机箱温度采集板PT100，应用于轨道交通/电力储能等深圳信迈主板定制专家轨道交通 NXP+FPGA X86+FPGA fpga开发 arm开发架构人工智能
板卡简介：本板为温度采集板（PT100），对目标进行测温，然后将温度转换成处理器可识别的电流信号。性能规格：电源：DC5V，DC±15V4线制PT100：7路（标称测温范围-50℃~200℃，对应调理后电流4~20mA，精度±0.5℃）3线制PT100：1路（标称测温范围-50℃~200℃，对应调理后电流4~20mA，精度±0.5℃）尺寸：220mm*100mm*1.6mm重量：0.155kg工作
FPGA仿真过程中宏定义的修改学习永无止境@ fpga开发
在仿真过程中，经常会有一些时间变量，比如1分钟，10分钟等，这种级别的仿真很费时间，因此，人们往往将时间参数修改，利用秒级别进行仿真，仿真完成后，再改回分钟级别。下面提供一种宏定义的方式，方便实际过程中和仿真过程中时间参数修改。`defineSIMULATION`ifdefSIMULATIONlocalparamTIMER_CNT_1S=30'd1_000-1'b1;//1s计数的最大值local
FPGA设计中衍生时钟的定义及约束学习永无止境@ FPGA设计 fpga开发 fpga 时钟约束
衍生时钟的定义：衍生时钟主要是指由已有的主时钟进行分频、倍频或相移而产生出来的时钟信号，如由时钟管理单元（MMCM等）或一些设计逻辑所驱动产生的时钟信号。衍生时钟的定义取决于主时钟的特性，衍生时钟约束必须指定时钟源，这个时钟源可以是一个已经约束好的主时钟或者另一个衍生时钟，衍生时钟并不直接定义频率、占空比等参数，而是定义其与时钟源的相对关系，如分频系数、倍频系数、相移差值、占空比差值等。因此，在做
基于MPC8377的MCPU 3U机箱CPCI板卡 ARM+FPGA+AI工业主板定制专家轨道交通 linux Codesys RK3568 PLC RK3588
板卡简介：本板为主控板（MCPU），主要负责逻辑控制、数据的处理、板卡的通信管理、系统安全保护切换以及数据存储等功能。性能规格：电源：DC5VCPU：MPC8377核数：单核32位主频：667MHzMCU：MK60DN512VLL10FPGA：XC6SLX16-2FT256I存储：DDR2256Mb（CPU）PROM16MB（FPGA）NVSRAM512KB（CPU和FPGA共享）NORFLASH
FPGA时序约束的概念和意义学习永无止境@ FPGA设计 fpga fpga开发开发语言
设计人员通过GUI输入时序约束，或者手动输入时序约束的方式告诉Vivado工具关于时钟或者IO接口的时序信息，用于协助Vivado工具在布局布线时尽可能的满足设计人员的时序要求，最大程度的保证Vivado工具每次生成的bit文件都具备良好的稳定性和适应性。
BRAM消耗与FIFO的关系：有效利用FPGA资源的策略 kanhao100 HLS fpga开发
BRAM消耗与FIFO的关系：有效利用FPGA资源的策略引言在FPGA设计中，BRAM（BlockRAM）是用于存储数据的重要资源。有效管理和利用BRAM对于实现高性能数字系统至关重要。特别是对于需要频繁读写数据的应用，FIFO（先进先出）缓冲区的使用与BRAM的消耗之间存在着密切的关系。本文将探讨BRAM的消耗、FIFO的特性，以及如何正确利用BRAM以优化设计效率。1.BRAM的基本概念1.1
基于FPGA的DDS连续FFT 仿真验证 toonyhe FPGA开发 fpga开发 DDS FFT IFFT
基于FPGA的DDS连续FFT仿真验证1摘要本文聚焦AMDLogiCOREIPFastFourierTransform(FFT)核心，深入剖析其在FPGA设计中的应用。该FFT核心基于Cooley-Tukey算法，具备丰富特性，如支持多种数据精度、算术类型及灵活的运行时配置。文中详细介绍了其架构选项、端口设计、理论运算原理，以及在不同场景下的动态范围特性。同时，结合VivadoDesignSuit
无矩阵乘法LLM：效率与性能双突破 XianxinMao 人工智能矩阵人工智能线性代数
标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。这种模型在内存使用和延迟方面表现优异，尤其在大规模模型上效率显著提升。例如，13B参数的模型仅需4.19GBGPU内存，延迟低至695.48ms，远优于传统模型。此外，基于FPGA的硬件优化进一步提升了性能，1.3B参数模型功耗仅为13W，达到人类阅
高云FPGA的管脚约束文件的复制在岸上走的鱼 fpga开发嵌入式硬件硬件架构
问：Gowin里面能不能直接拷贝一个管脚约束文件进去用？答：可以直接拷贝，但是拷贝前后两个工程对应的芯片必须要是同一个芯片拷贝方法:第一步：按照被拷贝约束文件对应的芯片新建一个工程，然后将原工程文件夹“src”里面的“.cst”文件拷到新建工程的相同目录下，第二步：回到新建工程目录下，点击芯片名右击，如下图：将“.V”文件和“.cst”文件一同加入这个工程，最后综合，布局布线就可以了，注意：有时拷
FPGA——DDS原理及代码实现
FPGA——DDS原理及代码实现一、DDS各参数意义如图，一个量化的32点的正弦波，也就是说一个ROM里存了32个这样的数据，每次读出一个数据要1ms，分别读出1,2,3...30,31,32,共32个点，读取完整的正弦波需要1ms*32=32ms的时间该正弦波参数为>周期T=1ms*32=32ms,>频率为f=1/T=1/(1ms*(32/1))在读出一个数据时间不变（1ms）的情况下，想要让读
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
【FPGA教程案例31】通信案例1——基于FPGA的ASK调制信号产生 fpga和matlab ★教程2:fpga入门100例 fpga开发 FPGA教程 ASK调制 verilog
FPGA教程目录MATLAB教程目录---------------------------------------------------------------------------------------目录1.软件版本2.ASK调制原理3.ASK调制过程的FPGA实现4.操作步骤与仿真结论5.参考文献1.软件版本vivado2019.22.ASK调制原理幅度键控（Amplitude-Shi
【教程4＞第2章＞第30节】本章整体思维导图与学习总结 fpga和matlab #第3章·通信—高阶调制解调 FPGA 教程4 学习总结高阶调制解调
教程4.目录.目录1.本章节目录2.本章节思维导图3.本章节学习案例与实际应用欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程3:simulink入
算力未来演进与多场景创新智能计算研究中心其他
内容概要算力作为数字经济的核心生产力，其技术架构与应用场景正经历多维突破。从技术架构层面来看，异构计算通过整合CPU、GPU、FPGA等多元芯片实现性能跃升，边缘计算则借助分布式节点降低时延并提升响应效率，而量子计算在特定领域的指数级加速潜力已进入验证阶段。在应用场景维度，工业互联网通过实时数据分析优化产线效率，智能安防依托视频流结构化处理增强预警能力，元宇宙则依赖高密度渲染与低延迟传输构建沉浸式
FPGA中级项目3——IP核之时钟管理单元霖00 fpga开发经验分享嵌入式硬件 fpga 网络时序数据库
FPGA中级项目3——IP核之时钟管理单元时钟还需要管理？什么是时钟管理单元？我们常熟知FPGA本身有晶振单元，源源不断的提供的50Mhz的频率波。但是这样往往无法满足一些设计需求。使用Verilog代码设计倍频分频等又不可避免的出现毛刺等其他状况，且提升了代码复杂度。因此在FPGA设计中，时钟管理单元（ClockManagementUnit,CMU）IP核是关键组件，用于生成、调整和分配系统时钟
【从零开始学习计算机科学】硬件设计与FPGA原理贫苦游商【从零开始学习计算机】硬件设计 fpga开发学习数字逻辑 verilog HDL 硬件设计硬件工程
硬件设计硬件设计流程在设计硬件电路之前，首先要把大的框架和架构要搞清楚，这要求我们搞清楚要实现什么功能，然后找找有否能实现同样或相似功能的参考电路板（要懂得尽量利用他人的成果，越是有经验的工程师越会懂得借鉴他人的成果）。如果你找到了的参考设计，最好还是先看懂并理解，这一方面能提高我们的电路理解能力，而且能避免设计中的错误。在开始做硬件设计前，根据自己的项目需求，可以去找能够满足硬件功能设计的，有很
【无标题】采集板设计 weixin_42366388 测试工具
设计包含16片AD9680ADC和XilinxXC7V690FPGA的电路板需要解决高速数据接口、电源管理、时钟同步及PCB布局等关键挑战。**1.系统架构设计**####**核心组件**-**ADC**:16片AD9680（双通道14-bit1GSPS，JESD204B接口）-**FPGA**:XilinxXC7V690T-2FFG1761I（含48个GTX收发器，12.5Gbps/通道）-**
FPGA为何要尽量减少组合逻辑的使用昇柱 fpga开发
在FPGA设计中，组合逻辑的使用确实需要谨慎，尤其是要尽量减少它的复杂性。这并不是因为组合逻辑本身不好，而是因为它在实际应用中容易引发一系列问题，而这些问题往往与FPGA的设计哲学和硬件特性相冲突。让我从几个关键点来和你聊聊这件事。组合逻辑的即时性，是一把双刃剑组合逻辑的最大特点是即时性——它的输出完全由当前输入决定，没有存储功能。这种特性让它在某些场景下非常高效，比如简单的逻辑判断或者快速的数据
fpga驱动rgb液晶屏_以ARM+FPGA结构驱动高分辨率液晶显示设计与效果测试奶油小馒头 fpga驱动rgb液晶屏
摘要：结合ARM操作灵活和FPGA实时处理的优点，提出采用ARM+FPGA结构驱动高分辨率RGB888液晶显示屏。ARM接口丰富、操作灵活可以满足客户操作方便的需求；FPGA模块采用FPGA+DDR形式，数据存取速度达到400MB/s可以满足画面刷新速度较快的需求；FPGA操作DDR方式采用双端口64bit模式,设计32bit数据读取宽度,实现RGB888数据无失真显示。通过ARM处理器LPC17
基于NXP+FPGA轨道交通3U机箱结构远程输入/输出模块（RIOM）深圳信迈主板定制专家轨道交通 NXP+FPGA fpga开发人工智能大数据边缘计算运维
基于NXP+FPGA轨道交通6U机箱结构远程输入/输出模块（RIOM）RIOM使得数据通过就近的I/O源输入和输出。也可以直接将I/O源连接到列车计算机（如VCU），可以减少电缆用量从而节约成本。关键特性支持模拟和数字输入/输出。可配置的模块包括DI、DIO、MDO、RDO、AIO、PTI等。接口选项MVBRIOM设备支持MVB/CAN/串行链路三种接口；TRDPRIOM设备知此恨TRDP/CAN
基于NXP+FPGA永磁同步电机牵引控制单元（单板结构/机箱结构）深圳信迈主板定制专家轨道交通 NXP+FPGA fpga开发边缘计算人机交互嵌入式硬件人工智能
永磁同步电机牵引控制单元（单板结构/机箱结构）永磁同步电机牵引控制单元（TCU-PMSM）用于牵引逆变器-永磁同步电机构成的牵引电传动系统，采用轴控方式。执行高性能永磁同步电机复矢量控制策略，具有响应迅速、有效可靠的防空转·滑行控制功能以及平稳、无冲击的带速重投技术。最大转矩电流比（MTPA）控制和弱磁控制用于轨道交通领域的PMSM的控制目标为：控制牵引电机提供足够大的转矩；控制牵引电机在保持恒定
全国产飞腾+FPGA架构，支持B码+12网口+多串电力通讯管理机解决方案深圳信迈科技DSP+ARM+FPGA 飞腾+FPGA 电力新能源 fpga开发架构电力通讯管理机全国产
行业痛点:中国的电力网络已经成为当今世界覆盖范围最广、结构最为复杂的人造科技系统。随着国家和各部委颁布了一系列法律法规，如国家颁布的《中华人民共和国网络安全法》、工信部颁布的《工业控制系统信息安全防护指南》、发改委颁布的14号令《电力监控系统安全防护规定》、国家能源局颁布的《关于印发电力监控系统安全防护总体方案等安全防护方案和评估规范的通知》，凸显了电力行业的网络安全防护工作的重要性。基于电力行业
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS