weixin_34248118

图像处理：卷积模块FPGA 硬件加速

本文记录了利用FPGA加速图像处理中的卷积计算的设计与实现。实现环境为Altera公司的Cyclone IV型芯片，NIOS II软核+FPGA架构。
由于这是第一次设计硬件加速模块，设计中的瑕疵以及问题欢迎前来讨论。

更新记录：

D0423 记录FPGA核心计算模块和控制模块
D0426 记录FPGA核心计算模块的控制驱动，性能与功能测试

Part1 : 卷积相关

软件实现卷积

卷积是将原来矩阵的对应部分与卷积核对位乘法再加起来，形成新的矩阵中的一个位。
图中红色的框是卷积操作当前所在位置，对位乘法相加之后得到中间的小红框的值。
利用C语言实现核心代码如下

void Conv(int filter[100][100], int arr[100][100], int res[100][100], int filterW, int filterH, int arrW, int arrH){
    int temp;

    for (int i=0; i1; i++){
        for (int j=0; j1; j++){
            printf("Start %d %d \n",i,j);
            temp = 0;
            for (int m=0; mfor (int n=0; nprintf("m %d n %d  ",m,n);
                    if ((i-m)>=0 && (i-m)=0 && (j-n)printf("%d * %d",filter[m][n],arr[i-m][j-n]);
                        temp += filter[m][n]*arr[i-m][j-n];
                    }
                    printf("\n");
                }
            }
            printf("End\n");
            res[i][j] = temp;
        }
    }
}

*********************************************** 
Filter: 
2 1 2 
0 5 0 
1 3 1 
*********************************************** 

*********************************************** 
Matrix: 
  17   24    1    8   15 
  23    5    7   14   16 
   4    6   13   20   22 
  10   12   19   21    3 
  11   18   25    2    9 
*********************************************** 

*********************************************** 
Result: 
   17    75    90    35    40    53    15 
   23   159   165    45   105   137    16 
   38   198   120   165   205   197    52 
   56    95   160   200   245   184    35 
   19   117   190   255   235   106    53 
   20    89   160   210    75    90     6 
   22    47    90    65    70    13    18 
***********************************************

针对具体的(3,4)

Start 3 4 
m 0 n 0  1 * 3
m 0 n 1  3 * 21
m 0 n 2  1 * 19
m 1 n 0  0 * 22
m 1 n 1  5 * 20
m 1 n 2  0 * 13
m 2 n 0  2 * 16
m 2 n 1  1 * 14
m 2 n 2  2 * 7
End

硬件实现思路和可能的加速

这是一个卷积处理单元的顶层图。
还是同滑动窗口思路类似，右边三位输入为控制器，使得该处理单元在3行上向右滑动。
不同于软件实现，这里的乘法底层应该是查找表实现的，所有9个DFF的乘法，可以并行计算。
计算结构用最下面的加法模块加上后输出当前位。
这个加法可能会通过拆分加优化（加法树之类）

最简单的实现就是将这个模块运算玩一行后继续算下一行。但是这样没有充分利用这些数据不相关的特性，有两种思路。

一个是如上图多放几个卷积模块
另一个是通过级联将3*3的卷积模块扩大比如说6*6的，可以通过4个3*3的处理模块级联实现。具体多大，和板子资源和具体矩阵尺寸有关。这个还要再考虑。

与软件比较

3*3处理模块中软件9个乘法串行，这里并行。
多个级联后可以达到36或者更高的优化

Part2 : FPGA卷积核心计算模块

Convolution Calculate Moudle

该模块是卷积计算的核心模块，模块顶层图如下：

输入输出端口说明

Din0 ~ Din8 是当前计算矩阵3*3的输入

参数Filter0 ~ Filter8 是卷积核3*3的参数。这里不选择动态输入是为了FPGA构造更小的LUT

Start和Rst是该模块的控制输入

Finish是该模块的完成输出，可以作为中断信号。

防止溢出，这里Dout给的16位

详细设计与分析

该模块包含一个自动机，用于跟踪计算状态，提供与上层同步的时序依据。

在RUNING过程中包括两个子状态，用于并行计算乘与并行计算加，利用两个变量来控制。

该模块在Quartus 13的RTL如下：

虽然看起来加法链那里由于没有优化拉的很长，但是由于与时序无关，下一个时钟周期来的时候计算一定会完成，所以没有太大影响。

测试该模块

书写Test Bench仿真测试

利用NIOS II 软核测试

烧录Cyclone IV JTAG输出测试

测试程序如下：

#include 
#include "system.h"
#include "altera_avalon_pio_regs.h"

int main() {
    //Test For Conv_cal
    int matrix[9] = { 3, 21, 19, 22, 20, 13, 16, 14, 7 };
    int i = 0;
    int finish;
    int result;
    IOWR_ALTERA_AVALON_PIO_DATA(CONV_CAL_CTL_BASE, 0x1);
    //RST
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT0_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT1_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT2_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT3_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT4_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT5_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT6_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT7_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT8_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(CONV_CAL_CTL_BASE, 0x2);
    //START
    finish = IORD_ALTERA_AVALON_PIO_DATA(FINISH_BASE);
    printf("Finish %d\n", finish);
    while (finish & 0x01 == 0) {
        finish = IORD_ALTERA_AVALON_PIO_DATA(FINISH_BASE);
        usleep(10000);
        printf("Finish %d\n", finish);
    }
    result = IORD_ALTERA_AVALON_PIO_DATA(DIN_BASE);
    printf("Result %d\n", result);
    matrix[0] = 10;
    i = 0;
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT0_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT1_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT2_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT3_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT4_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT5_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT6_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT7_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(DOUT8_BASE, matrix[i++]);
    IOWR_ALTERA_AVALON_PIO_DATA(CONV_CAL_CTL_BASE, 0x2);
    //START
    finish = IORD_ALTERA_AVALON_PIO_DATA(FINISH_BASE);
    printf("Finish %d\n", finish);
    while (finish & 0x01 == 0) {
        finish = IORD_ALTERA_AVALON_PIO_DATA(FINISH_BASE);
        usleep(10000);
        printf("Finish %d\n", finish);
    }
    result = IORD_ALTERA_AVALON_PIO_DATA(DIN_BASE);
    printf("Result %d\n", result);

    return 0;
}

JTAG 输出

存在问题下版本优化

从设计上来说三个周期就已经可以输出结果了，当前状态机导致到了第五个时钟周期才通知取结果，状态机需要稍微优化一下。
设计上一层分配3*3矩阵输入拆分模块时，状态能和当前状态机配合，甚至可以达到流水线的状态。

第二版本

第二版本相较于第一版本，将所有的非时序部分统一在一个时钟周期内完成。

综合实现RTL如下:

简化后的状态机为

Part3 : FPGA卷积计算控制模块&驱动

如何使用FPGA的卷积计算模块有两种思路

一个是直接利用FPGA实现对内存的读取控制
一个是利用AXI总线直接用上的模块

FPGA通过内存读写

先尝试第一种方法。开发难度非常大，最后写出来的模块也非常复杂。

由于本人第一次尝试设计一个功能模块，状态机中间可能有容易时钟周期，仅用于示意。状态图如下:

设计大体思路如下：

两个单向读取写入RAM分别用作

PS部分写入矩阵，PL部分读取处理
PL部分写入处理结果，PS部分读取结果

边界情况暂时略去。

波形仿真截取开始和结束

变量顾名思义，具体时序设计见代码。

生成RTL的实际电路如下:

其中绿色部分才是最核心的加速模块。

在设计过程中，很明显发现这样设计的特点：

FPGA真的不适合表达串行逻辑，或者逻辑复杂的时候，需要精心设计状态机。
下面是两张综合后所用资源的图

上面一张是核心模块综合后的资源图，下面一张是利用内存之后的占用的资源图。

直接核心与PL交互的话输出端口占用比较多，而利用内存进行交互占用比较少。

这一点可以将核心模块的并行输入改为串行输入降低核心模块直接交互的端口数。

代码不容易维护，扩展性极差。
实际速度不好说，只有大约2/13的时钟周期在进行计算。这一点和直接利用PS核IO口传数据过来的速度比较可能优势也不大。

通过IO口读写

基本思路同上面写的软核测试类似。主要考虑两点

并行输入该串行，IO口节约，或者写一个中间模块通过AXI总线交互的
实际是将每次的9个乘法和一个加法优化到硬件部分实现

同样是上面的NIOS II工程，先利用软核软件实现：

void Conv_SW(int filter[100][100], int arr[100][100],int filterW, int filterH, int arrW, int arrH) {
    int temp;
    int i, j, m, n;
    for (i = 2; i < filterH + arrH - 3; i++) {
        for (j = 2; j < filterW + arrW - 3; j++) {
            temp = 0;
            for (m = 0; m < filterH; m++) {
                for (n = 0; n < filterW; n++) {
                    if ((i - m) >= 0 && (i - m) < arrH && (j - n) >= 0
                            && (j - n) < arrW) {
                        temp += filter[m][n] * arr[i - m][j - n];
                    }
                }
            }
            res[i][j] = temp;
        }
        if(i % 50 == 0) printf("=");
    }
}

然后是FPGA模块硬件驱动：

/**
 * 卷积硬件驱动示例
 * 将结果保存到全局变量res
 */
void Conv_HW(int filter[100][100], int arr[100][100],int filterW, int filterH, int arrW, int arrH) {
    int i, j;
    IOWR_ALTERA_AVALON_PIO_DATA(CONV_CAL_CTL_BASE, 0x1);
    for (i = 2; i < filterH + arrH - 3; i++) {
        for (j = 2; j < filterW + arrW - 3; j++) {
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT0_BASE, arr[i][j]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT1_BASE, arr[i][j-1]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT2_BASE, arr[i][j-2]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT3_BASE, arr[i-1][j]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT4_BASE, arr[i-1][j-1]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT5_BASE, arr[i-1][j-2]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT6_BASE, arr[i-2][j]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT7_BASE, arr[i-2][j-1]);
                 IOWR_ALTERA_AVALON_PIO_DATA(DOUT8_BASE, arr[i-2][j-2]);
            IOWR_ALTERA_AVALON_PIO_DATA(CONV_CAL_CTL_BASE, 0x2);
            while ((IORD_ALTERA_AVALON_PIO_DATA(FINISH_BASE) & 0x01) == 0)
                ;
            res[i][j] = IORD_ALTERA_AVALON_PIO_DATA(DIN_BASE);
        }
        if(i % 50 == 0) printf("=");
    }
}

主函数针对性能和功能进行测试。由于NIOS II无法获取Time，故直接将进度输出。(软件大致16s完成对500*500的矩阵计算，硬件大致3s完成相同计算)

void Conv_SW(int filter[100][100], int arr[100][100],
        int filterW, int filterH, int arrW, int arrH);
void Conv_HW(int filter[100][100], int arr[100][100],
        int filterW, int filterH, int arrW, int arrH);

int res[1000][1000];

int main() {

    int filterW = 3;
    int filterH = 3;
    int arrW = 5;
    int arrH = 5;
    int resW = filterW + arrW - 1;
    int resH = filterH + arrH - 1;
    int i, j;
    int pFilter[100][100];
    int arr[100][100];

    pFilter[0][0] = 1;
    pFilter[0][1] = 3;
    pFilter[0][2] = 1;
    pFilter[1][0] = 0;
    pFilter[1][1] = 5;
    pFilter[1][2] = 0;
    pFilter[2][0] = 2;
    pFilter[2][1] = 1;
    pFilter[2][2] = 2;

#ifdef TestSpeed
        arrW = 500;
        arrH = 500;
        resH = filterH + arrH - 1;
        resW = filterW + arrW - 1;
        printf("Software Start!\n");
        Conv_SW(pFilter, arr, filterW, filterH, arrW, arrH);
        printf("\nSoftware end!\n");
        printf("HardWare Start!\n");
        Conv_HW(pFilter, arr, filterW, filterH, arrW, arrH);
        printf("\nHardWare end!");
#else

    srand(10);
    arrW = 20;
    arrH = 20;
    resH = filterH + arrH - 1;
    resW = filterW + arrW - 1;
    for(i = 0; i < arrH; i++){
        for(j = 0; j< arrW;j++){
            arr[i][j] = rand()%20;
        }
    }
    printf("*********************************************** \n");
    printf("Filter: \n");
    for (i = filterH - 1; i >= 0; i--) {
        for (j = filterW - 1; j >= 0; j--) {
            printf("%d ", pFilter[i][j]);
        }
        printf("\n");
    }
    printf("*********************************************** \n");


    printf("Matrix: \n");
    for (i = 0; i < arrH; i++) {
        for (j = 0; j < arrW; j++) {
            printf("%4d ", arr[i][j]);
        }
        printf("\n");
    }
    printf("*********************************************** \n");
    printf("Software Start!\n");
    Conv_SW(pFilter, arr, filterW, filterH, arrW, arrH);
    printf("\nSoftware end!\n");

    printf("*********************************************** \n");
    printf("Result1: \n");
    for (i = 0; i < resH; i++) {
        for (j = 0; j < resW; j++) {
            printf("%5d ", res[i][j]);
        }
        printf("\n");
    }

    for (i = 0; i < resH; i++) {
        for (j = 0; j < resW; j++) {
            res[i][j] = 0;
        }
    }
    printf("*********************************************** \n");
    printf("HardWare Start!\n");
    Conv_HW(pFilter, arr, filterW, filterH, arrW, arrH);
    printf("\nHardWare end!");
    printf("Result2: \n");
    for (i = 0; i < resH; i++) {
        for (j = 0; j < resW; j++) {
            printf("%5d ", res[i][j]);
        }
        printf("\n");
    }
    printf("*********************************************** \n");
#endif
    return 0;
}

由于是示例驱动，这里忽略对四周的处理：

300*300 速度示例

附录 FPGA 部分源代码

通过IO口读写

基本思路同上面写的软核测试类似。主要考虑两点

并行输入该串行，IO口节约，或者写一个中间模块通过AXI总线交互的
实际将4重循环优化到了两重循环。
测试驱动下周写一个例子

控制模块源代码

module conv_ctl(
    //控制信号输入输出
    clk,Start,Rst,Matrix_Length,Conv_Finish,
    //连接读取数据RAM
    Q,rdaddress,
    //连接写入数据RAM
    Wdata,wraddress,wren);

    //控制信号输入输出
    input clk,Start,Rst;
    input [7:0] Matrix_Length;
    output reg Conv_Finish;

    //连接读取数据RAM
    input [7:0] Q;
    output reg [7:0] rdaddress;

    //连接写入数据RAM
    output [7:0] Wdata;
    output reg [7:0] wraddress;
    output reg wren;

    //连接conv_cal
    // input[15:0] Cal_Dout;
    // input Cal_Finish;
    wire [15:0] Cal_Dout;
    wire  Cal_Finish;

    reg [7:0] Din0,Din1,Din2,Din3,Din4,Din5,Din6,Din7,Din8;
    reg Cal_Start;
    reg Cal_Rst;

    //状态机
    reg [5:0] cur_state,nxt_state;

    parameter IDLE = 6'b000001;
    parameter READING = 6'b000010;
    parameter CALCULATING = 6'b000100;
    parameter WRITING = 6'b001000;
    parameter CHECKING = 6'b010000;
    parameter FINISH = 6'b100000;


    //辅助参数
    reg Read_Finish;
    reg Write_Finish;
    reg [7:0] count,conv_x,conv_y;


     //调用模块
    conv_cal_2 my_cal(Cal_Dout,Din0,Din1,Din2,Din3,Din4,Din5,Din6,Din7,Din8,clk,Cal_Start,Cal_Rst,Cal_Finish);

    //状态自动转移
    always@(posedge clk)
    begin
        if(Rst)
            cur_state <= IDLE;
        else
            cur_state <= nxt_state;
    end

    //状态转移条件
    always@(cur_state or Start or Cal_Finish or Rst or Read_Finish or Write_Finish)
    begin
        if(Rst)
            nxt_state = IDLE;
        else
        begin
            case(cur_state)
                IDLE:nxt_state = Start?READING:IDLE;
                READING:nxt_state = Read_Finish?CALCULATING:READING;
                CALCULATING:nxt_state = Cal_Finish?WRITING:CALCULATING;
                WRITING: nxt_state = CHECKING;
                CHECKING: nxt_state = Write_Finish?FINISH:READING;
                FINISH: nxt_state = IDLE;
                default: nxt_state = IDLE;
            endcase
        end
    end

    //状态动作
    always@(posedge clk) 
    begin:b1
        case(cur_state)
            IDLE:
            begin
                Read_Finish = 1'b0;
                Write_Finish = 1'b0;
                count = 0;
                conv_x = 1;
                conv_y = 1;
                Cal_Start = 1'b0;
                Cal_Rst = 1'b1;
                wraddress = 8'd0;
                rdaddress = 8'd0;
                wren = 1'b0;
                Conv_Finish = 1'b0;
            end
            READING:
            begin
                wren = 1'b0;
                Cal_Start = 1'b0;

                //根据count对3*3输入进行赋值
                case(count)
                    0: 
                    begin
                        Din0 = Q;
                        rdaddress = conv_x - 1 + (conv_y-1) * Matrix_Length;
                    end
                    1: 
                    begin
                        Din1 = Q;
                        rdaddress = conv_x + (conv_y-1) * Matrix_Length;
                    end
                    2:
                    begin
                        Din2 = Q;
                        rdaddress = conv_x + 1 + (conv_y-1) * Matrix_Length;
                    end
                    3:
                    begin
                        Din3 = Q;
                        rdaddress = conv_x - 1 + conv_y * Matrix_Length;
                    end
                    4:
                    begin
                        Din4 = Q;
                        rdaddress = conv_x  + conv_y * Matrix_Length;
                    end
                    5:
                    begin
                        Din5 = Q;
                        rdaddress = conv_x + 1 + conv_y * Matrix_Length;
                    end
                    6:
                    begin
                        Din6 = Q;
                        rdaddress = conv_x - 1 + (conv_y+1) * Matrix_Length;
                    end
                    7:
                    begin
                        Din7 = Q;
                        rdaddress = conv_x + (conv_y+1) * Matrix_Length;
                    end
                    8:
                    begin
                        Din8 = Q;
                        rdaddress = conv_x + 1 + (conv_y+1) * Matrix_Length;
                    end
                endcase
                count = count + 7'd1;
                if(count == 7'd8) 
                    Read_Finish = 1'b1;
            end
            CALCULATING:
            begin
                Read_Finish = 1'b0;
                count = 0;
                Cal_Rst = 1'b0;
                Cal_Start = 1'b1;
            end
            WRITING:
            begin
                wren = 1'b1;
                if(conv_x == Matrix_Length - 2) //
                begin
                    conv_x = 1;
                    conv_y = conv_y + 1;
                end
                else
                begin
                    conv_x = conv_x + 1;
                end

                wraddress = wraddress + 1; //!!!这句话可能有问题

                if(conv_y == Matrix_Length - 1) // 
                begin
                    Write_Finish = 1'b1;
                end
                else
                begin
                    Write_Finish = 1'b0;
                end
            end
            FINISH:
            begin
                Conv_Finish = 1'b1;
            end
        endcase
    end


endmodule

核心计算模块版本一

module conv_cal (Dout,Din0,Din1,Din2,Din3,Din4,Din5,Din6,Din7,Din8,clk,Start,Rst,Finish);
    input [7:0] Din0,Din1,Din2,Din3,Din4,Din5,Din6,Din7,Din8;
    input clk;
    input Start;
    input Rst;
    output reg [15:0] Dout;
    output reg Finish;
    reg [7:0] Add0,Add1,Add2,Add3,Add4,Add5,Add6,Add7,Add8;

    reg [2:0] state;
    reg mul_finish;
    reg add_finish;

    parameter IDLE = 3'b001;
    parameter RUNNING = 3'b010;
    parameter DONE = 3'b100;

    //Convolution Kernel
    parameter Filter0 = 8'd1;
    parameter Filter1 = 8'd3;
    parameter Filter2 = 8'd1;
    parameter Filter3 = 8'd0;
    parameter Filter4 = 8'd5;
    parameter Filter5 = 8'd0;
    parameter Filter6 = 8'd2;
    parameter Filter7 = 8'd1;
    parameter Filter8 = 8'd2;

    always@(posedge clk)
    begin
        if(Rst)
        begin
            state <= IDLE;
        end
        else
            case(state)
                IDLE: state <= Start ? RUNNING:IDLE;
                RUNNING: 
                begin
                    if(add_finish == 1) 
                    begin
                        state <= DONE;
                        Finish <= 1'b1;
                    end
                    else
                        state <= RUNNING;
                end
                DONE :
                begin
                    Finish <= 1'b0;
                    state <= IDLE;
                end
                default : state <= IDLE;
            endcase
    end


    always@(posedge clk)
    begin
        if(state == IDLE)
        begin
            mul_finish <= 1'b0;
            add_finish <= 1'b0;
            Finish <= 1'b0;
        end
        else if(state == RUNNING)
        begin
            if(!mul_finish)
            begin
                Add0 <= Din0 * Filter0;
                Add1 <= Din1 * Filter1;
                Add2 <= Din2 * Filter2;
                Add3 <= Din3 * Filter3;
                Add4 <= Din4 * Filter4;
                Add5 <= Din5 * Filter5;
                Add6 <= Din6 * Filter6;
                Add7 <= Din7 * Filter7;
                Add8 <= Din8 * Filter8;
                mul_finish <= 1;
            end
            else
            begin
                Dout <= Add0+Add1+Add2+Add3+Add4+Add5+Add6+Add7+Add8;
                add_finish <= 1;
            end
        end
    end
endmodule

核心计算模块版本二

module conv_cal_2 (Dout,Din0,Din1,Din2,Din3,Din4,Din5,Din6,Din7,Din8,clk,Start,Rst,Finish);
    input [7:0] Din0,Din1,Din2,Din3,Din4,Din5,Din6,Din7,Din8;
    input clk;
    input Start;
    input Rst;
    output reg [15:0] Dout;
    output reg Finish;
    wire [7:0] Add0,Add1,Add2,Add3,Add4,Add5,Add6,Add7,Add8;
    wire [15:0] Add_all;

    reg [1:0] state;

    parameter IDLE = 2'b01;
    parameter DONE = 2'b10;

    //Convolution Kernel
    parameter Filter0 = 8'd1;
    parameter Filter1 = 8'd3;
    parameter Filter2 = 8'd1;
    parameter Filter3 = 8'd0;
    parameter Filter4 = 8'd5;
    parameter Filter5 = 8'd0;
    parameter Filter6 = 8'd2;
    parameter Filter7 = 8'd1;
    parameter Filter8 = 8'd2;



    assign Add0 = Din0 * Filter0;
    assign Add1 = Din1 * Filter1;
    assign Add2 = Din2 * Filter2;
    assign Add3 = Din3 * Filter3;
    assign Add4 = Din4 * Filter4;
    assign Add5 = Din5 * Filter5;
    assign Add6 = Din6 * Filter6;
    assign Add7 = Din7 * Filter7;
    assign Add8 = Din8 * Filter8;

    assign Add_all = Add0+Add1+Add2+Add3+Add4+Add5+Add6+Add7+Add8;

    always@(posedge clk )
    begin
        if(Rst)
        begin
            state <= IDLE;
            Finish <= 1'b0;
            Dout <= 16'b0;
        end
        else
            case(state)
                IDLE: 
                begin
                    Finish <= 1'b0;
                    if(Start)
                    begin
                        state <= DONE;
                    end
                    else
                        state <= IDLE;
                end
                DONE :
                begin
                    Finish <= 1'b1;
                    state <= IDLE;
                    Dout <= Add_all;
                end
                default : state <= IDLE;
            endcase
    end
endmodule

转载于:https://www.cnblogs.com/he11o-liu/p/7503234.html

你可能感兴趣的:(图像处理：卷积模块FPGA 硬件加速)

基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
Rust 中使用 :: 这种语法的几种情况 yujunlong3919 rust rust 区块链
文章目录1.访问模块成员：2.访问关联函数或静态方法：3.访问trait的关联类型或关联常量4.指定泛型类型参数1.访问模块成员：modutils{pubfndo_something(){/*...*/}}letresult=utils::do_something();2.访问关联函数或静态方法：structMyStruct;implMyStruct{fnnew()->Self{MyStruct}
pythonxml模块高级用法_Python minidom模块用法示例【DOM写入和解析XML】 Lucy-露西娅 pythonxml模块高级用法
本文实例讲述了Pythonminidom模块用法。分享给大家供大家参考，具体如下：一、DOM写XML文件#-*-coding:utf-8-*-#!python3#导入minidomfromxml.domimportminidom#1.创建DOM树对象dom=minidom.Document()#2.创建根节点。每次都要用DOM对象来创建任何节点。root_node=dom.createElemen
EDA事件驱动架构领域事件 Event Sourcing talentluke 架构设计
摘自http://www.jdon.com/eda.htmlEDA(Event-drivenarchitecture)是以事件为核心，与SOA以服务为核心有本质区别，是状态模式的延伸到架构上，事件是触发状态变化的根源，事件是介于业务和技术两者之间的概念，用户界面是事件主要发生来源，事件也可以来源其他系统或模块，通过事件可以实现系统或组件之间松耦合。EDA可以实现SOA服务之间的调用，事件也可以用于
【产品小白】产品思维与技术思维的区别百事不可口y 产品经理的一步一步产品经理用户运营内容运营学习人工智能大数据新媒体运营
一、两种思维的本质差异与互补性维度产品思维技术思维核心关注点用户价值（痛点/爽点）、商业目标（盈利/增长）技术实现（架构/性能）、系统稳定性（可用性/扩展性）决策依据用户行为数据、市场趋势、ROI模型技术复杂度、开发成本、技术债评估问题解决路径从场景出发，构建业务闭环（如“用户如何完成支付？”）从实现出发，拆解技术模块（如“支付接口如何鉴权？”）风险意识担心需求伪命题（无人使用）担忧系统崩溃（高并
SpringBoot+Mybatis 实现简单的学生书籍管理系统 Chronoluckyy spring boot mybatis 数据库
本文将介绍如何使用SpringBoot框架来构建一个简单的学生书籍管理系统，其中包括用户的注册和登录验证，并通过分层设计来实现系统的模块化和可维护性。一、准备工作1.使用Navicat创建数据库表2.导入依赖包和对应的数据库驱动在resources/application.propertiespom.xml下导入依赖包org.mybatis.spring.bootmybatis-spring-bo
H264视频编码系列教程-3关键参数集与解码初始化 TogetherWeShare 音视频人工智能算法
H264关键参数集与解码初始化1.参数集整体架构1.1层级包含关系视频码流VPS层SPS层PPS层约束约束图像参数PPS工具参数序列参数SPS工具配置编码能力VPS性能限制H264参数集采用三层架构设计，这种设计充分体现了参数管理的层次化和模块化思想。让我们深入分析每一层的功能和特点：===H264参数集层级结构===+-------------------VPS层----------------
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
基于STM32的智能图书馆管理系统 STM32发烧友 stm32 嵌入式硬件单片机
1.引言传统图书馆管理存在借还效率低、书籍定位困难等问题。本文设计了一款基于STM32的智能图书馆管理系统，通过RFID技术、智能导航与自助服务终端，实现图书精准管理，提升读者服务体验。2.系统设计2.1硬件设计主控芯片：STM32F429ZI，集成LCD控制器与硬件JPEG解码感知模块：RFID读写器（MFRC522）：识别图书标签红外传感器（E18-D80NK）：检测书籍存取状态重量传感器（H
卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别知识鱼丸深度学习神经网络 cnn 人工智能深度学习 AlexNet 经典神经网络
深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。先看原理：AlexNet网络特点采用ReLU激活函数，使训练速度提升6倍采用dropout层，防止模型过拟合通过平移和翻转的方式对数据进行增强采用LRN局部响应归一化，限制数据大小，防止梯度消失和爆炸。但后续证明批
8-项目实战-信用卡数字识别 #北极星star Opencv图像处理框架实战 opencv 计算机视觉人工智能
目录(1)总体流程与方法(2)代码实现(3)识别结果(1)总体流程与方法①读取模板图像：加载包含数字模板的图像，并提取每个数字的轮廓，将它们作为模板存储。②读取输入图像：加载待识别的信用卡图像，并进行预处理。③提取数字区域：通过一系列图像处理操作（如礼帽操作、梯度计算、闭操作等）提取可能包含数字的区域。④轮廓排序与筛选：找到提取区域的轮廓，并根据轮廓的宽高比和尺寸筛选出符合条件的数字区域。⑤数字识
Python 队列的使用：掌握先进先出的数据结构车载testing python
Python队列的使用：掌握先进先出的数据结构队列是一种先进先出（FIFO）的数据结构，它在多种编程场景中都非常有用，比如任务调度、事件处理等。在Python中，我们可以通过标准库中的queue模块来实现队列。本文将详细介绍如何使用Python的queue模块来创建和操作队列。导入Queue模块使用queue模块之前，我们需要先导入它：fromqueueimportQueue创建队列创建一个队列实
15：00面试，15：08就出来了，问的问题有点变态。。。测试界霄霄软件测试面试职场和发展功能测试自动化测试软件测试程序人生
从小厂出来，没想到在另一家公司又寄了。到这家公司开始上班，加班是每天必不可少的，看在钱给的比较多的份上，就不太计较了。没想到8月一纸通知，所有人不准加班，加班费不仅没有了，薪资还要降40%,这下搞的饭都吃不起了。还在有个朋友内推我去了一家互联网公司，兴冲冲见面试官，没想到一道题把我给问死了：如果模块请求http改为了https,测试方案应该如何制定，修改?感觉好简单的题，硬是没有答出来，早知道好好
ES6模块化(对比commonjs模块化) zvapour javascript
ES6模块化common.js对比CommonJS运行时加载–>只有运行时才能得到这个对象(module.exports的对象)在第一次加载之后会被缓存，引入的是缓存中的值//若需要动态更新，使用gettercount=1;module.exports={getcount(){returncount;},plusCoun
(4)UART应用设计及仿真验证4 —— UART模块集成少卿不在大理寺数字IC设计从入门到实战 uart IC设计 verilog IC
四、模块集成1.UART模块集成这会儿你再来看这个uart模块构是不是就亲切了很多，归总一下TX和RX之后，我们发现整个的UART的模块输入输出都是定好了的。所以在结构上没有什么需要再分析和拆解了的。直接上代码：moduleuart(inputclk,inputrstn,inputrx,inputtx_data,inputtx_data_valid,outputtx,outputtx_ready,
江科大51单片机学习笔记（1）悠闲漫步者 51单片机 51单片机学习笔记
点亮一个LEDLED介绍中文名：发光二极管外文名：LightEmittingDiode简称：LED用途：照明、广告灯、指引灯、屏幕。如果想让LED发光，需要让发光二极管两端产生电位差。LED模块中串并联电阻是为了保护电路（限流）电阻的运算(上图电阻中所标注)：102(1010^2=1000=1K)473(4710^3=47000=47K)1001(100*10^1=1000=1K)VCC：电源正极
使用nginx+rtmp+ffmpeg实现桌面直播 handsomestWei 后端 nginx ffmpeg rtmp live直播推流拉流
使用nginx+rtmp+ffmpeg实现桌面直播流媒体服务器搭建dockerrundocker镜像基于添加了rtmp模块的nginx，和ffmpegdockerpullalfg/nginx-rtmpdockerrun-d-p1935:1935-p8080:80--name=nginx-rtmpalfg/nginx-rtmprtmp模块说明进入容器内部查看dockerps|grepalfg/ngi
20250218 隨筆垂直分库分表（Vertical Sharding）和水平分库分表（Horizontal Sharding）靈臺清明 XdClass 网络数据库垂直分库分表和水平分库分表
垂直分库分表（VerticalSharding）和水平分库分表（HorizontalSharding）是数据库拆分的两种策略。它们在大规模数据库优化、分布式架构设计中至关重要，主要用于降低单库压力、提高查询效率、支持高并发。1.垂直分库分表（VerticalSharding）概念垂直分库和垂直分表的核心思想是按业务模块或功能拆分数据库，即：垂直分库（VerticalDatabasePartitio
STM32F103C8T6 USB寄存器开发详解(3)-中断云汐独渺 STM32 USB开发单片机嵌入式硬件
对于USB模块,因为其通讯流程比较复杂,因此配置硬件中断就显得很重要了.STM32F103的中断寄存器位于另一个手册中,也就是下方蓝色标题的链接地址.NVIC寄存器用于启用中断,中断向量表中有两个USB相关中断,从机设备仅需要RX中断,也就是表项20.因此只需要配置NVIC_ISER0寄存器的位20即可开启USB模块中断,至于中断优先级分组等情况,可以直接使用默认配置,若有需要可以手动配置其余NV
小爱音箱控制手机和电视听歌的尝试 wjcroom 智能音箱 python 智能手机
最近买了小爱音箱pro，老婆让我扔了，吃灰多年的旧音箱。当然舍不得，比小爱还贵，刚好还有一台红米手机，能插音箱，为了让音箱更加灵活，买了个2元的蓝牙接收模块Type-c供电3.5接口。这就是本次尝试起因和硬件组成。前文介绍了小爱音箱结合xiaomusic实现尘封的NAS音乐不自由那个文章实现小爱同学声控xiaomusic这就是本次尝试的软件基础。本文最终目的是，小爱声控xiaomusic通过红米（
深入浅出：CUDA是什么，如何利用它进行高效并行计算码上飞扬 CUDA
在当今这个数据驱动的时代，计算能力的需求日益增加，特别是在深度学习、科学计算和图像处理等领域。为了满足这些需求，NVIDIA推出了CUDA（ComputeUnifiedDeviceArchitecture），这是一种并行计算平台和编程模型。本文将带你全面了解CUDA的基本概念、工作原理及其应用场景。一、什么是CUDA？CUDA（ComputeUnifiedDeviceArchitecture）是由
十四、python使用MySQL数据库 weixin_45460686 python笔记 mysql 数据库 python
（一）pymsql模块pymsql是Python3中操作MySQL的模块，其使用方法和py2的MySQLdb几乎相同。1、模块安装pipinstallpymysql2、使用模块步骤：导入pymysql库。调用pymysql.connect()方法建立与数据库的连接。在connect()方法中，传入数据库的主机名、用户名、密码和数据库名称等连接参数。importpymysql#创建数据库连接conn
【layui】layui表格过滤 weixin_43250628 layui 前端 layui javascript 前端
1.除了引用必要的layui的js和css，还需引入tableFilter.js。2.然后就是代码展示部分；layui.config({base:'../../layui/plugins2/',//扩展路径version:'v1.0.0'}).extend({tableFilter:'tableFilter'//模块别名});functionsetGridData(data){layui.use(
Rook-ceph(1.92最新版) 野猪佩挤 k8s 存储 ceph
安装前准备#确认安装lvm2yuminstalllvm2-y#启用rbd模块modproberbdcat>/etc/rc.sysinit/etc/sysconfig/modules/rbd.modulesfilesystem.yaml<
自动化运维工具ansible theo.wu 运维自动化
Ansible批处理工具Ansible批处理工具功能图Ansible项目架构图一、Ansible介绍1、Ansible简介简介ansible是一种自动化运维工具，基于paramiko模块开发，实现了批量系统配置、批量程序部署、批量运行命令功能。ansible是基于模块工作的，本身没有批量部署的能力。真正具有批量部署的是ansible所运行的模块，ansible只提供一种框架。ansible这个框架
【开源免费】基于Vue和SpringBoot的医院后台管理系统（附论文）杨荧 vue.js spring boot 前端开源 spring cloud javascript
本文项目编号T170，文末自助获取源码\color{red}{T170，文末自助获取源码}T170，文末自助获取源码目录一、系统介绍二、数据库设计三、配套教程3.1启动教程3.2讲解视频3.3二次开发教程四、功能截图五、文案资料5.1选题背景5.2国内外研究现状六、核心代码6.1查询数据6.2新增数据6.3删除数据一、系统介绍在管理员功能模块确定下来的基础上，对管理员各个功能进行设计，确定管理员功
【鸿蒙系统APP开发实践案例】--第1课时：新闻阅读类行业实践青少年编程作品集 HarmonyOS Next应用开发案例 harmonyos 华为 json javascript html5 前端 html
简介本设计为新闻日报类应用APP的鸿蒙化架构设计实践，应用设备形态只有手机端，提供新闻日报类应用常见的新闻资讯展示，新闻视频播放，用户评论互动等应用功能。Stage开发模型+声明式UI开发方式。按照应用设备形态，规划一个手机设备Entry类型HAP包。本实践性能优先，应用程序包大小可控，且无单独加载模块场景，业务模块包类型采用HAR包。应用布局说明实践应用框架代码运行图，开发者可以基于框架代码替换
C语言基础18：函数的概述、分类、定义以及形参和实参 k要开心 c语言开发语言
函数函数的概述函数：实现一定功能的，独立的代码模块。我们的函数一定是先定义，后使用。使用函数的优势：①我们可以通过函数提供功能给别人使用。当然我们也可以使用别人提供的函数，减少代码量。②借助函数可以减少重复性的代码。③实现结构化（模块化）程序设计思想。关于结构化设计思想：将大型的任务功能划分为相互独立的小型的任务模块来设计。函数是C语言程序的基本组成单元：C语言程序是由一个（必然是main函数）或
python中的Pillow 有哪些常用的功能？大懒猫软件 pillow 计算机视觉人工智能 python
Pillow的常用功能Pillow是一个强大的图像处理库，提供了丰富的功能来处理和操作图像。以下是一些常用的功能及其示例代码：1.打开和保存图像Pillow可以轻松地打开和保存各种格式的图像文件。示例代码Python复制fromPILimportImage#打开图像img=Image.open("example.jpg")#显示图像img.show()#保存图像img.save("output.j
️ 总览：TotalSegmentator - 医学影像分割的革新者金斐茉
️总览：TotalSegmentator-医学影像分割的革新者TotalSegmentatorToolforrobustsegmentationof>100importantanatomicalstructuresinCTimages项目地址:https://gitcode.com/gh_mirrors/to/TotalSegmentator在医学图像处理领域中，精确且高效的自动分割工具对于研究和
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

图像处理：卷积模块FPGA 硬件加速

Part1 : 卷积相关

软件实现卷积

硬件实现思路和可能的加速

与软件比较

Part2 : FPGA卷积核心计算模块

Convolution Calculate Moudle

输入输出端口说明

详细设计与分析

测试该模块

存在问题 下版本优化

第二版本

Part3 : FPGA卷积计算控制模块&驱动

FPGA通过内存读写

通过IO口读写

附录 FPGA 部分源代码

通过IO口读写

控制模块源代码

核心计算模块 版本一

核心计算模块 版本二

你可能感兴趣的:(图像处理：卷积模块FPGA 硬件加速)

存在问题下版本优化

核心计算模块版本一

核心计算模块版本二