3.2 卷积

一维卷积

Convolution

卷积也是很常用的一种计算模式。卷积计算方法如下：对输出数据中的每一个元素，它的值是输入数据中相同位置上的元素与该元素周边元素的值的加权和。卷积中有一个被称为卷积核（Kernel）或卷积码（Mask）的数据段，指定了周边元素的权值。为了避免混淆，以后都称为卷积码。计算如下图所示：

3.2 卷积

图中的M向量为卷积码，N向量为输入，P向量为输出。其中P[2] = N[0] * M[0] + ... + N[4] * M[4]。卷积计算需要考虑边界问题，如图，码长度为5，在计算前2个元素和后2个元素时需要的输入数据位置会越过边界。

这时我们需要手动地添加被称为Ghost Cell的元素，该元素的值视情况而定，这里为了简便，取0值即可。在由的应用里面也会把这个值设定为P[0]．

一维卷积kernel 代码：

__global__ void convolution_1D_basic_kernel(float* N, float* M, float* P, int Mask_Width, int Width){



  int i = blockIdx.x*blockDim.x + threadIdx.x;

  float Pvalue = 0;

  int N_start_point = i - (Mask_Width/2);

  for(int j = 0; j < Mask_Width; j++) {

    if(N_start_point + j >= 0 && N_start_point + j < Width){

       Pvalue+= N[N_start_point+j] * M[j];

    }

  }

  P[i] = Pvalue;

}

二维卷积

二维的卷积计算是一维卷积的推广，如下所示：

3.2 卷积

注意由此产生的Ghost Cell也是二维的。

使用Tile 来计算卷积

1D卷积tile优化

一维卷积中，从N里面取值，有的值会被取多次的情况，分析如下：

3.2 卷积

如果计算P4,需要使用到N2,N3,N4,N5,N6.计算P5，需要使用到N3,N4,N5,N6,N7. 计算P7，需要使用到N5,N6,N7,N8,N9.

可以看出有很多重复计算，如果以tile来划分，tile的长度是４，如上图，要计算P4,5,6,7.我们需要用到N2,N3,N4,N5,N6,N7,N8,N9.

把这几个数保存在sharedMemory里面，可以减少对globalMemory的取值次数．

对应代码如下：

#define TILE_WIDTH 4

#define MASK_WIDTH 5

#define n MASK_WIDTH/2

#define BLOCK_WIDTH TILE_WIDTH+MASK_WIDTH-1

dim3 dimBlock(BLOCK_WIDTH,1, 1);
dim3 dimGrid((Width-1)/O_TILE_WIDTH+1, 1, 1).

kernel代码：

float output = 0.0f;
if((index_i >= 0) && (index_i < Width) ) {
　　Ns[tx] = N[index_i];
}
else{
　　Ns[tx] = 0.0f;
}

if (threadIdx.x < O_TILE_WIDTH){
　output = 0.0f;
　for(j = 0; j < Mask_Width; j++) {
　　output += M[j] * Ns[j+threadIdx.x];　//从sharedMemory中取值.
　}
　P[index_o] = output;
}

2D卷积tile优化

二维卷积基于一维卷积，　M由于是常量，可以利用 constant memory来提高访问速度．　constant缓存在一个warp中是以广播的形式发送给每个thread.

二维卷积的经常是用到图像处理. 　

Image Matrix Type in HPP Course
// Image Matrix Structure declaration
typedef struct {
　　int width;
　　int height;
　　int pitch;
　　int channels;
　　float* data;
} * wbImage_t;

图像一个点表示一个信息，由于很多图像是彩色的，所以一个点是不够的，所以有这个channels的概念，比如RGB就分别表示R channel, G channel, B channel.

二维卷积的code1 :

#include    <wb.h>





#define wbCheck(stmt) do {                                                    \

        cudaError_t err = stmt;                                               \

        if (err != cudaSuccess) {                                             \

            wbLog(ERROR, "Failed to run stmt ", #stmt);                       \

            wbLog(ERROR, "Got CUDA error ...  ", cudaGetErrorString(err));    \

            return -1;                                                        \

        }                                                                     \

    } while(0)



#define MASK_WIDTH  5

#define MASK_RADIUS MASK_WIDTH/2

#define O_TILE_WIDTH 16     //12

#define BLOCK_WIDTH (O_TILE_WIDTH + MASK_WIDTH - 1)

#define CLAMP(x) (min(max((x), 0.0), 1.0))

 

//@@ INSERT CODE HERE

__global__ void convolution_2d_kernel(float *I, const float* __restrict__ M, float *P,

                            int channels, int width, int height) {

   __shared__ float Ns[BLOCK_WIDTH][BLOCK_WIDTH];

   int i,j,k;

 

   int tx = threadIdx.x;

   int ty = threadIdx.y;

   int row_o = blockIdx.y*O_TILE_WIDTH + ty;

   int col_o = blockIdx.x*O_TILE_WIDTH + tx;

   int row_i = row_o - MASK_RADIUS;

   int col_i = col_o - MASK_RADIUS;

    

   for (k = 0; k < channels; k++) {

       if((row_i >=0 && row_i < height) && (col_i >=0 && col_i < width))

           Ns[ty][tx] = I[(row_i * width + col_i) * channels + k];

       else

           Ns[ty][tx] = 0.0f;

       

       __syncthreads();

       

       float output = 0.0f;

       if(ty < O_TILE_WIDTH && tx < O_TILE_WIDTH){

         for(i = 0; i < MASK_WIDTH; i++) {

            for(j = 0; j < MASK_WIDTH; j++) {

               output += M[j * MASK_WIDTH + i] * Ns[i+ty][j+tx];

            

            }

         }

           

         if(row_o < height && col_o < width)

            P[(row_o * width + col_o) * channels + k] = CLAMP(output);

       

       }

       

       __syncthreads();

      // printf("kernel %f \n ",P[row_o * width + col_o]);

   }

}



int main(int argc, char* argv[]) {

    wbArg_t args;

    int maskRows;

    int maskColumns;

    int imageChannels;

    int imageWidth;

    int imageHeight;

    char * inputImageFile;

    char * inputMaskFile;

    wbImage_t inputImage;

    wbImage_t outputImage;

    float * hostInputImageData;

    float * hostOutputImageData;

    float * hostMaskData;

    float * deviceInputImageData;

    float * deviceOutputImageData;

    float * deviceMaskData;



    args = wbArg_read(argc, argv); /* parse the input arguments */



    inputImageFile = wbArg_getInputFile(args, 0);

    inputMaskFile = wbArg_getInputFile(args, 1);



    inputImage = wbImport(inputImageFile);

    hostMaskData = (float *) wbImport(inputMaskFile, &maskRows, &maskColumns);



    assert(maskRows == 5); /* mask height is fixed to 5 in this mp */

    assert(maskColumns == 5); /* mask width is fixed to 5 in this mp */



    imageWidth = wbImage_getWidth(inputImage);

    imageHeight = wbImage_getHeight(inputImage);

    imageChannels = wbImage_getChannels(inputImage);

    printf("imageChannels =%d\n", imageChannels);



    outputImage = wbImage_new(imageWidth, imageHeight, imageChannels);



    hostInputImageData = wbImage_getData(inputImage);

    hostOutputImageData = wbImage_getData(outputImage);



    wbTime_start(GPU, "Doing GPU Computation (memory + compute)");



    wbTime_start(GPU, "Doing GPU memory allocation");

    cudaMalloc((void **) &deviceInputImageData, imageWidth * imageHeight * imageChannels * sizeof(float));

    cudaMalloc((void **) &deviceOutputImageData, imageWidth * imageHeight * imageChannels * sizeof(float));

    cudaMalloc((void **) &deviceMaskData, maskRows * maskColumns * sizeof(float));

    wbTime_stop(GPU, "Doing GPU memory allocation");





    wbTime_start(Copy, "Copying data to the GPU");

    cudaMemcpy(deviceInputImageData,

               hostInputImageData,

               imageWidth * imageHeight * imageChannels * sizeof(float),

               cudaMemcpyHostToDevice);

    cudaMemcpy(deviceMaskData,

               hostMaskData,

               maskRows * maskColumns * sizeof(float),

               cudaMemcpyHostToDevice);

    wbTime_stop(Copy, "Copying data to the GPU");





    wbTime_start(Compute, "Doing the computation on the GPU");

    //@@ INSERT CODE HERE

    dim3 dimGrid(ceil((float)imageWidth/O_TILE_WIDTH), ceil((float)imageHeight/O_TILE_WIDTH));

    dim3 dimBlock(BLOCK_WIDTH, BLOCK_WIDTH, 1);

    convolution_2d_kernel<<<dimGrid, dimBlock>>>(deviceInputImageData, deviceMaskData, deviceOutputImageData,

                                       imageChannels, imageWidth, imageHeight);

    cudaDeviceSynchronize(); // note this 

    wbTime_stop(Compute, "Doing the computation on the GPU");





    wbTime_start(Copy, "Copying data from the GPU");

    cudaMemcpy(hostOutputImageData,

               deviceOutputImageData,

               imageWidth * imageHeight * imageChannels * sizeof(float),

               cudaMemcpyDeviceToHost);

    wbTime_stop(Copy, "Copying data from the GPU");



    wbTime_stop(GPU, "Doing GPU Computation (memory + compute)");



    wbSolution(args, outputImage);



    cudaFree(deviceInputImageData);

    cudaFree(deviceOutputImageData);

    cudaFree(deviceMaskData);



    free(hostMaskData);

    wbImage_delete(outputImage);

    wbImage_delete(inputImage);



    return 0;

}

View Code

二维卷积的code２，和code1的区别是,block的设置不同，这里设置的blocksize 是tile size,所以input 的值是不够的，在kernel中加载input分成两次来做．

#include    <wb.h>

 

// Check ec2-174-129-21-232.compute-1.amazonaws.com:8080/mp/6 for more information

 

 

#define wbCheck(stmt) do {                                 \

        cudaError_t err = stmt;                            \

        if (err != cudaSuccess) {                          \

            wbLog(ERROR, "Failed to run stmt ", #stmt);    \

            return -1;                                     \

        }                                                  \

    } while(0)

 

 

#define Mask_width  5

#define Mask_radius Mask_width/2

#define TILE_WIDTH 16

#define w (TILE_WIDTH + Mask_width - 1)

#define clamp(x) (min(max((x), 0.0), 1.0))

 

//@@ INSERT CODE HERE

__global__ void convolution(float *I, const float* __restrict__ M, float *P,

                            int channels, int width, int height) {

   __shared__ float N_ds[w][w];

   int k;

   for (k = 0; k < channels; k++) {

      // First batch loading

      int dest = threadIdx.y * TILE_WIDTH + threadIdx.x,

         destY = dest / w, destX = dest % w,

         srcY = blockIdx.y * TILE_WIDTH + destY - Mask_radius,

         srcX = blockIdx.x * TILE_WIDTH + destX - Mask_radius,

         src = (srcY * width + srcX) * channels + k;

      if (srcY >= 0 && srcY < height && srcX >= 0 && srcX < width)

         N_ds[destY][destX] = I[src];

      else

         N_ds[destY][destX] = 0;

 

      // Second batch loading

      dest = threadIdx.y * TILE_WIDTH + threadIdx.x + TILE_WIDTH * TILE_WIDTH;

      destY = dest / w, destX = dest % w;

      srcY = blockIdx.y * TILE_WIDTH + destY - Mask_radius;

      srcX = blockIdx.x * TILE_WIDTH + destX - Mask_radius;

      src = (srcY * width + srcX) * channels + k;

      if (destY < w) {

         if (srcY >= 0 && srcY < height && srcX >= 0 && srcX < width)

            N_ds[destY][destX] = I[src];

         else

            N_ds[destY][destX] = 0;

      }

      __syncthreads();

 

      float accum = 0;

      int y, x;

      for (y = 0; y < Mask_width; y++)

         for (x = 0; x < Mask_width; x++)

            accum += N_ds[threadIdx.y + y][threadIdx.x + x] * M[y * Mask_width + x];

      y = blockIdx.y * TILE_WIDTH + threadIdx.y;

      x = blockIdx.x * TILE_WIDTH + threadIdx.x;

      if (y < height && x < width)

         P[(y * width + x) * channels + k] = clamp(accum);

      __syncthreads();

   }

}

 

int main(int argc, char* argv[]) {

    wbArg_t arg;

    int maskRows;

    int maskColumns;

    int imageChannels;

    int imageWidth;

    int imageHeight;

    char * inputImageFile;

    char * inputMaskFile;

    wbImage_t inputImage;

    wbImage_t outputImage;

    float * hostInputImageData;

    float * hostOutputImageData;

    float * hostMaskData;

    float * deviceInputImageData;

    float * deviceOutputImageData;

    float * deviceMaskData;

 

    arg = wbArg_read(argc, argv); /* parse the input arguments */

 

    inputImageFile = wbArg_getInputFile(arg, 0);

    inputMaskFile = wbArg_getInputFile(arg, 1);

 

    inputImage = wbImport(inputImageFile);

    hostMaskData = (float *) wbImport(inputMaskFile, &maskRows, &maskColumns);

 

    assert(maskRows == 5); /* mask height is fixed to 5 in this mp */

    assert(maskColumns == 5); /* mask width is fixed to 5 in this mp */

 

    imageWidth = wbImage_getWidth(inputImage);

    imageHeight = wbImage_getHeight(inputImage);

    imageChannels = wbImage_getChannels(inputImage);

 

    outputImage = wbImage_new(imageWidth, imageHeight, imageChannels);

 

    hostInputImageData = wbImage_getData(inputImage);

    hostOutputImageData = wbImage_getData(outputImage);

 

    wbTime_start(GPU, "Doing GPU Computation (memory + compute)");

 

    wbTime_start(GPU, "Doing GPU memory allocation");

    cudaMalloc((void **) &deviceInputImageData, imageWidth * imageHeight * imageChannels * sizeof(float));

    cudaMalloc((void **) &deviceOutputImageData, imageWidth * imageHeight * imageChannels * sizeof(float));

    cudaMalloc((void **) &deviceMaskData, maskRows * maskColumns * sizeof(float));

    wbTime_stop(GPU, "Doing GPU memory allocation");

 

 

    wbTime_start(Copy, "Copying data to the GPU");

    cudaMemcpy(deviceInputImageData,

               hostInputImageData,

               imageWidth * imageHeight * imageChannels * sizeof(float),

               cudaMemcpyHostToDevice);

    cudaMemcpy(deviceMaskData,

               hostMaskData,

               maskRows * maskColumns * sizeof(float),

               cudaMemcpyHostToDevice);

    wbTime_stop(Copy, "Copying data to the GPU");

 

 

    wbTime_start(Compute, "Doing the computation on the GPU");

    //@@ INSERT CODE HERE

    dim3 dimGrid(ceil((float)imageWidth/TILE_WIDTH), ceil((float)imageHeight/TILE_WIDTH));

    dim3 dimBlock(TILE_WIDTH, TILE_WIDTH, 1);

    convolution<<<dimGrid, dimBlock>>>(deviceInputImageData, deviceMaskData, deviceOutputImageData,

                                       imageChannels, imageWidth, imageHeight);

    wbTime_stop(Compute, "Doing the computation on the GPU");

 

 

    wbTime_start(Copy, "Copying data from the GPU");

    cudaMemcpy(hostOutputImageData,

               deviceOutputImageData,

               imageWidth * imageHeight * imageChannels * sizeof(float),

               cudaMemcpyDeviceToHost);

    wbTime_stop(Copy, "Copying data from the GPU");

 

    wbTime_stop(GPU, "Doing GPU Computation (memory + compute)");

 

    wbSolution(arg, outputImage);

 

    cudaFree(deviceInputImageData);

    cudaFree(deviceOutputImageData);

    cudaFree(deviceMaskData);

 

    free(hostMaskData);

    wbImage_delete(outputImage);

    wbImage_delete(inputImage);

 

    return 0;

}

View Code

NPU的工作原理：神经网络计算的流水线绿算技术 NPU架构介绍神经网络人工智能深度学习
NPU的工作原理可以概括为以下几个步骤：1.模型加载·将训练好的神经网络模型加载到NPU的内存中。2.数据输入·输入数据（如图像、语音）通过接口传输到NPU。3.计算执行·NPU根据模型结构，依次执行卷积、池化、全连接等计算任务。·矩阵乘法单元和卷积加速器并行工作，高效完成计算。4.结果输出·计算完成后，输出结果（如分类标签、检测框）返回给主机或其他处理器。5.任务调度·在多任务场景下，NPU的任
关于scipy中uniform_filter函数的注意事项明·煜 scipy
关于scipy中uniform_filter函数的注意事项在处理分组聚合问题时，有时需要使用均值作为统计量。那其实就是一个均值滤波问题。我不希望使用for循环和均值卷积核来对二维数组进行滤波，因为这个线性运算且可用通过数字搬移来实现。在使用uniform_filter时在边界处会出现难以解释的值，不过后来发现是我对python语法不够熟悉导致的。例如以下代码：importnumpyasnpx=np
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
二叉树中两个节点最近公共祖先的查找算法研究 cloudman08 深度优先算法
目录摘要一、引言二、问题定义三、问题分析3.1二叉树的特性利用3.2暴力搜索的不足四、算法设计4.1递归算法（适用于普通二叉树）4.2迭代算法（适用于二叉搜索树）4.3代码实现（Python）4.4代码解释五、复杂度分析5.1递归算法复杂度（普通二叉树）5.2迭代算法复杂度（二叉搜索树）六、实际应用6.1文件系统目录结构6.2遗传算法中的基因树分析6.3数据库索引结构优化七、结论摘要在二叉树相关算
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发应用开发
引言在HarmonyNext生态系统中，图像处理是一个重要且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的图像处理应用，重点介绍图像卷积、边缘检测等核心算法的实现。我们将从理论基础出发，逐步构建一个完整的图像处理应用，并通过优化技巧提升性能。图像处理基础1.1图像表示在数字图像处理中，图像通常被表示为一个二维矩阵，每个元素代表一个像素的灰度值或颜色值。在HarmonyNex
【C++基础八】类和对象—末(初始化列表、友元和匿名对象) Pacify_The_North C++c++开发语言 windows visualstudio
【C++基础八】类和对象—末1.初始化列表1.1初始化列表的使用1.2初始化列表的细节2.static成员3.友元3.1友元函数3.2友元类4.类的匿名对象5.explicit1.初始化列表构造函数中,为一个成员赋值，只能说对此成员赋初始值，不能称之为初始化，初始化列表才是真正初始化成员变量的地方1.1初始化列表的使用例：classDate{public:Date(intyear,intmonth
数据结构（C\C++）——算法复杂度飞鸟吟数据结构数据结构 c语言 c++
算法复杂度前言1.数据结构前言1.1数据结构1.2算法1.3如何学好数据结构和算法2.算法效率2.1复杂度的概念2.2复杂度的重要性3.时间复杂度3.1定义3.2大O的渐进表示法3.3时间复杂度计算示例3.3.1示例13.3.2示例23.3.3示例33.3.4示例43.3.5示例5冒泡排序时间复杂度3.3.6示例63.3.7示例74.空间复杂度4.1空间复杂度计算示例4.1.1示例14.1.2示例
Python 爬虫实战：于好大夫在线抓取医生评价数据，选择优质医疗服务西攻城狮北 python 爬虫实战案例好大夫在线
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍二、抓取医生评价数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、选择优质医疗服务4.1选择标准4.2推荐医生4.3分享推荐五、总结与展望5.1总结5.2展望引言在当今医疗信息爆炸的时代，选择一位合适的医生对于患者来说至关重要。好大夫在线是一
C语言第八章数组丸丸丸子w c语言笔记 c语言开发语言后端
专栏指路C语言笔记汇总文章目录1数组定义2一维数组2.1一维数组的定义2.2一维数组初始化2.3一维数组赋值2.4一维数组引用3二维数组3.1二维数组的定义3.2二维数组初始化4向函数传递数组4.1一维数组传递4.2二维数组传递4.3将数组名作为参数传递时5应用5.1选择排序法5.2冒泡排序法1数组定义数组是一组相同类型的数据的集合数组中的元素通过下标来区分一维数组：储存线性数据二维数组：用来储存
Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
Transformer架构在生成式AI中的应用解析二进制独立开发非纯粹GenAI 人工智能 transformer 架构深度学习机器学习 tensorflow 迁移学习
文章目录1.Transformer架构概述1.1Transformer的核心思想1.2Transformer架构的优势2.Transformer在文本生成中的应用2.1GPT系列：基于Transformer的自回归文本生成2.2BERT系列：基于Transformer的双向编码器3.Transformer在图像生成中的应用3.1VisionTransformer（ViT）3.2DALL·E：基于T
DeepSeek 使用教程及部署指南：从入门到实践点我头像干啥 Ai 信息可视化 python 人工智能分类数据挖掘深度学习
目录引言第一部分：DeepSeek简介1.1什么是DeepSeek？1.2DeepSeek的核心功能1.3DeepSeek的应用场景第二部分：DeepSeek使用教程2.1注册与登录2.2创建项目2.3数据导入2.4数据分析2.5文本挖掘2.6信息检索2.7保存与分享第三部分：DeepSeek部署指南3.1本地部署3.1.1环境准备3.1.2安装DeepSeek3.1.3启动DeepSeek3.2
Mahilo技术深度解析：构建下一代人机协同智能系统的开源框架花生糖@ AIGC学习资料库开源智能体 mahilo
一、框架定位与技术突破Mahilo作为2025年最受关注的多智能体协作框架，其创新性在于实现了人机协同的闭环控制与智能体自主协作的动态平衡。根据GitHub仓库数据显示，该框架在开源首周即获得3.2k星标，在医疗、金融、工业等领域的15个场景验证中，任务执行效率提升58%。核心技术创新混合通信协议：支持点对点(P2P)与层级式通信的灵活切换，在911紧急响应场景测试中，医疗/物流/通信智能体的协作
docker-compose配置文件详解东方、宏 docker 容器运维
文章目录一、docker-compose配置文件详解1.语法与格式2.版本兼容性3.服务定义4.网络配置数据持久化5.安全相关6.其他注意事项二、调试和测试DockerCompose配置文件1基本检查1.1语法检查1.2检查镜像和依赖2.启动和日志查看2.1.启动容器2.2.查看日志3.服务状态检查3.1.查看容器状态3.2.进入容器内部4.网络和端口测试4.1.检查网络连接4.2.测试端口映射5
Spring Boot与Django对比：哪个更适合做为Web服务器框架？ m0_74824076 面试学习路线阿里巴巴 spring boot django 前端
文章目录1.基础背景与技术栈1.1SpringBoot1.2Django2.架构对比2.1SpringBoot架构2.2Django架构3.性能比较3.1SpringBoot性能3.2Django性能4.开发效率4.1SpringBoot开发效率4.2Django开发效率5.社区与生态系统5.1SpringBoot社区5.2Django社区6.部署与运维6.1SpringBoot部署与运维6.2D
图解AUTOSAR_CP_ComM KaiGer666 图解AUTOSAR_CP 嵌入式硬件单片机汽车
AUTOSARComM模块详解AUTOSAR通信管理模块详细解析目录1.概述1.1.ComM模块的作用1.2.ComM模块的位置2.架构设计2.1.模块上下文视图2.2.内部组件结构3.状态机3.1.通道状态机3.2.PNC状态机4.配置模型4.1.配置结构4.2.用户-PNC-通道映射5.服务接口5.1.API概述5.2.主要功能6.通信序列<
《Windows API开发》：（一）Windows编程概述下雪就该搓雪球一些小玩意 windows
（一）Windows编程概述1、WindowsAPI简介2、Windows应用程序开发入门2.1、第一个实例程序3、WindowsAPI概要3.1、Windows数据类型3.2、WindowsAPI的功能分类4、WindowsAPI核心DLL5、Unicode和多字节5.1、字符串类型与其初始化5.2、W版本和A版本的API5.3、Unicode和ASCII的转换6、Windows程序设计规范的建
【Transformer-Hugging Face手册 07/10】微调预训练模型无水先生人工智能高级阶段人工智能综合 transformer 深度学习人工智能
微调预训练模型-目录一、说明二、在本机PyTorch中微调预训练模型。2.1加载数据2.2训练2.2.1使用PyTorchTrainer进行训练2.3训练超参数2.4评价2.5训练类三、使用Keras训练TensorFlow模型3.1为Keras加载数据3.2将数据加载为tf.data.Dataset3.3数据加载器3.4优化器和学习率调度器3.5训练循环3.6评价四、结论一、说明使用预训练模
QLineEdit控件：基础用法、样式表与扩展应用 Quz 掌握Qt控件：从入门到精通 qt
目录前言1.基础用法1.1创建QLineEdit1.2常用属性设置2.样式表美化2.1基础样式2.2动态效果2.3自定义图标3.信号与槽3.1常用信号3.2实时输入处理4.高级功能4.1输入验证4.2自动补全参考前言QLineEdit是Qt中最常用的输入控件之一，广泛应用于表单输入、搜索框等场景。本文将全面解析QLineEdit的使用方法，涵盖以下内容：基础用法：文本输入、占位符、输入限制样式表美
USB 3.0、USB 5Gbps和USB 10Gbps区别 Eternal-Student 5G
文章目录USB3.0、USB5Gbps和USB10Gbps区别标准规范与命名数据传输速度编码方式兼容性外观接口类型应用场景USB3.0与USB2.0兼容性虚拟机设置为USB2.0模式时，接入的U盘无法在卷栏显示驱动问题U盘问题操作系统问题USB3.0、USB5Gbps和USB10Gbps区别标准规范与命名USB3.0：通常指USB3.1Gen1或USB3.2Gen1，理论数据传输速率为5Gbps。
redis内部数据结构(5)-quicklist Tinner丶链表数据结构算法 java redis
Redis对外暴露的list数据类型，它底层实现所依赖的内部数据结构就是`quicklist`。我们在讨论中还会涉及到两个Redis配置(在redis.conf中的ADVANCEDCONFIG部分)：12list-max-ziplist-size-2list-compress-depth0注：本文讨论的quicklist实现基于Redis源码的3.2分支。quicklist概述Redis对外暴露的
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发引言在HarmonyNext生态系统中，图像处理是一个重要且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的图像处理应用，重点介绍图像卷积、边缘检测等核心算法的实现。我们将从理论基础出发，逐步构建一个完整的图像处理应用，并通过优化技巧提升性能。1.图像处理基础1.1图像表示在数字图像处理中，图像通常被表示为一个
基于大模型的单纯性孔源性视网膜脱离预测及治疗方案研究报告 LCG元围术期危险因子预测模型研究人工智能
目录一、引言1.1研究背景与目的1.2国内外研究现状1.3研究方法与创新点二、单纯性孔源性视网膜脱离概述2.1发病机制2.2高危因素2.3临床表现与诊断方法三、大模型在术前预测中的应用3.1模型选择与数据收集3.2术前风险预测指标3.3预测结果分析与验证四、基于预测结果的手术方案制定4.1手术原则与目标4.2不同预测结果下的手术方式选择4.3手术案例分析五、麻醉方案的确定5.1麻醉方式的选择依据5
前端请求全面解析：AJAX、Axios 与 Fetch 的使用详解与代码示例软件工匠师前端 ajax javascript
前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例1.AJAX——传统的异步请求1.1基本用法示例1.2AJAX特点2.FetchAPI——现代化请求方案2.1基本用法示例2.2Fetch特点3.Axios——第三方HTTP请求库3.1安装Axios3.2基本用法示例3.3Axios特点4.总结前端请求全面解
【JS】JS中的jQuery库简介及使用方法菜就多练少说 javascript javascript jquery 开发语言
jQuery简介及使用方法jQuery简介如何使用jQuery1导入jQuery库2编写自己的jQuery文件3jQuery语法3.1基础语法3.2文档就绪函数3.3选择器3.4事件绑定函数结语jQuery简介jQuery是一个流行的JavaScript库，用于简化JavaScript编程。它提供了许多便捷的方法来处理DOM操作、事件处理、动画效果等，使得JavaScript开发变得更加简单和高效
离散数学-万字课堂笔记-期末考试-考研复习-北航离散数学1 桃木山人考研数学离散数学期末
第一章逻辑语言1.1逻辑运算1.2命题逻辑合式公式1.3谓词逻辑合式公式1.4自然语言命题第二章命题逻辑语义2.1命题合式公式语义2.2推论式与等价式的语义2.3变换合式公式的语义2.4命题公式范式2.5等式演算2.6完全集第三章谓词逻辑语义3.1谓词合式公式语义3.2推论关系和相等关系3.3前束范式与斯科伦范式3.4一阶理论语言3.5论域、结构与模型第四章逻辑公理系统4.1形式系统4.2命题逻辑
前端流式输出实现详解：从原理到实践代码剑客588 前端
前端流式输出实现详解：从原理到实践前言一、流式输出核心原理1.1什么是流式输出？1.2技术优势对比1.3关键技术支撑二、原生JavaScript实现方案2.1使用FetchAPI流式处理关键点解析：2.2处理SSE（Server-SentEvents）三、主流框架实现示例3.1React实现方案3.2Vue实现方案四、高级优化策略4.1性能优化4.2用户体验增强4.3安全注意事项五、实际应用案例5
前端请求全面解析：AJAX、Axios 与 Fetch 的使用详解与代码示例二进制忍者前端 ajax javascript
前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例1.AJAX——传统的异步请求1.1基本用法示例1.2AJAX特点2.FetchAPI——现代化请求方案2.1基本用法示例2.2Fetch特点3.Axios——第三方HTTP请求库3.1安装Axios3.2基本用法示例3.3Axios特点4.总结前端请求全面解
VSCode安装及配置Go开发环境 weixin_42764969 Tools
全篇目录---我们不生产知识，我们只做知识的搬运工。1、VSCode的安装下载安装简单使用2、Go开发环境下载安装下载Go安装包配置GOPATH环境变量GOPATH目录介绍3、配置VSCode的Go开发环境3.1、安装Go开发扩展3.2、安装Go开发工具包解决方法一：有梯子就不怕墙高解决方法二：将package下载到本地解决方法三：设置镜像一劳永逸3.3第一个Go程序HelloWorld.本文参考
【设计模式】原型模式浅慕Antonio 设计模式设计模式原型模式 c++
三、原型模式3.2原型模式同工厂模式一样，原型(Prototype)模式也是一种创建型模式。原型模式通过一个对象(原型对象)克隆出多个一模一样的对象。实际上，该模式与其说是一种设计模式，不如说是一种创建对象的方法(对象克隆),尤其是创建给定类的对象(实例)过程很复杂(例如，要设置许多成员变量的值)时，使用这种设计模式就比较合适。3.2.1通过工厂方法模式演变到原型模式回顾一下前面讲解工厂方法模式时
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

3.2 卷积

一维卷积

二维卷积

使用Tile 来计算卷积

1D卷积tile优化

2D卷积tile优化

你可能感兴趣的:(3.2 卷积)