萌萌哒程序猴

非局部均值滤波（NL-means）算法的CUDA优化加速

在上一篇文章中，我们讲了使用积分图来加速NL-means算法，虽然运算耗时减少了好多，还是没达到毫秒级。所以本文在积分图加速的基础上，进一步使用CUDA来并行加速，使得耗时减少到毫秒级。

使用积分图来加速NL-means算法原理，此处给出链接，不再复述：

非局部均值滤波（NL-means）算法的原理与C++实现

非局部均值滤波（NL-means）算法的积分图加速原理与C++实现

1. 使用CUDA并行计算内两层循环

由上篇文章，我们知道使用积分图加速的计算顺序是：外两层循环是搜索窗口循环，内两层循环是原图像循环。

for 搜索窗口的每一行
{
  for 搜索窗口的每一列  //在这一层循环确定了所有搜索窗口中相同偏移位置的点 
  {
    for 原图像的每一行
    {
      for 原图像的每一列   //在这一层循环确定了原图像中的一个待滤波点
      {
          
      }
    }
  }
}

假设原图像为m行n列图像，搜索窗口的大小为2half_ssize+1行2half_ssize+1列，那么我们可以使用CUDA开启m*n个线程并行计算内两层循环，每一个线程对应原图像的一个点。这样一来，总循环次数由原来的(2half_ssize+1)*(2half_ssize+1)*m*n减少为(2half_ssize+1)*(2half_ssize+1)，因此可以大程度减少计算耗时。

for 搜索窗口的每一行
{
  for 搜索窗口的每一列  //在这一层循环确定了所有搜索窗口中相同偏移位置的点 
  {
    //CUDA并行计算内两层循环的每一个点
  }
}

我们还知道，内两层循环要执行的计算步骤包括：

(1) 构造平方差图像；

(2) 计算平方差图像的积分图；

积分图的并行计算原理，我们在在前文主要讲了两种思路，由于思路2更加细化的分块并行计算，因此思路2要比思路1更快，虽然看起来思路2的计算步骤更多。

积分图的一种CUDA并行运算

思路1：

步骤一：开启m个线程，每个线程分别对应原图像的一行，负责计算该行的前缀和，所有线程并行计算。该步骤计算结束之后，得到了m*n的行前缀和图像。
步骤二：开启n个线程，每个线程分别对应行前缀和图像的一列，负责计算该列的前缀和，所有线程并行计算。该步骤计算结束之后，则得到m*n的积分图像。

思路2：在思路1的基础上进一步分块并行计算。

(3) 使用积分图快速计算搜索窗口内点的权重，然后累加权重，以及累加权重与搜索窗口内点的乘积。

因此如果要并行计算内两层循环，就涉及到平方差图像的并行计算、积分图的并行计算，还有权重、权重和、像素值加权和的并行计算。

此外，外两层循环结束之后，还要计算“像素值加权和/权重和”，使像素值加权和得到归一化，这里也可以并行计算。

我们根据思路2来计算积分图，使用8个CUDA核函数来实现内两层循环，使用1个CUDA核函数实现“像素值加权和/权重和”的计算。总共9个核函数，且这9个核函数按顺序执行（核函数内部并行执行，但核函数之间顺序执行）：

for 搜索窗口的每一行
{
  for 搜索窗口的每一列  //在这一层循环确定了所有搜索窗口中相同偏移位置的点 
  {
    //计算平方差图像的核函数
    //积分图核函数1
    //积分图核函数2
    //积分图核函数3
    //积分图核函数4
    //积分图核函数5
    //积分图核函数6
    //计算权重、权重和、像素值加权和的核函数
  }
}
//计算“像素值加权和/权重和”的核函数

讲完并行计算思路，下面我们上代码。

计算差值平方图的核函数代码：

__global__ void cuda_SqDiff2_tex(float *src, float *diff2, int Ds, int t1, int t2, int m1, int n1)
{
  int j = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int i = threadIdx.y + blockDim.y * blockIdx.y;  //row


  if (i < m1 && j < n1)
  {
    float diff;
    int src_n = n1 + Ds + Ds;
    int index = (i + Ds)*src_n + j + Ds;
    diff = src[index] - src[index + t1*src_n + t2];   //src[(i+Ds)*src_n+j+Ds] - src[(i+Ds+t1)*src_n+j+Ds+t2];            
    diff2[i*n1 + j] = diff*diff;
  }
}

积分图核函数1代码：

__global__ void cuda_integal0_tex(float *src, float *integral, int row, int col)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //col/4
  int idy = threadIdx.y + blockDim.y * blockIdx.y;  //row


  if (idx < col / 4 && idy < row)
  {
    int offset = idy*col + idx * 4;   //每个小块的首地址


    integral[offset] = src[offset];
    integral[offset + 1] = src[offset + 1] + integral[offset];
    integral[offset + 2] = src[offset + 2] + integral[offset + 1];
    integral[offset + 3] = src[offset + 3] + integral[offset + 2];
  }
}

积分图核函数2代码：

__global__ void cuda_integal1_tex(float *integral, int row, int col)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //row


  if (idx < row)
  {
    int offset = idx*col;
    for (int i = 7; i < col; i += 4)
    {
      integral[offset + i] += integral[offset + i - 4];
    }
  }
}

积分图核函数3代码：

__global__ void cuda_integal2_tex(float *integral, int row, int col)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //col/4
  int idy = threadIdx.y + blockDim.y * blockIdx.y;  //row


  if (idx > 0 && idx < col / 4 && idy < row)
  {
    int offset = idy*col + idx * 4;   //每个小块的首地址
    float pre_sum = integral[idy*col + (idx * 4 - 1)];   //前一个小块的最后一个数
    integral[offset] += pre_sum;
    integral[offset + 1] += pre_sum;
    integral[offset + 2] += pre_sum;
  }
}

积分图核函数4代码：

__global__ void cuda_integal3_tex(float *integral, int row, int col)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int idy = threadIdx.y + blockDim.y * blockIdx.y;  //row/4


  if (idx < col && idy < row / 4)
  {
    int offset = idy * 4 * col + idx;   //每个小块的首地址
    int offset1 = offset + col;
    int offset2 = offset1 + col;
    int offset3 = offset2 + col;


    integral[offset1] += integral[offset];
    integral[offset2] += integral[offset1];
    integral[offset3] += integral[offset2];
  }
}

积分图核函数5代码：

__global__ void cuda_integal4_tex(float *integral, int row, int col)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //col


  if (idx < col)
  {
    int col_4 = 4 * col;
    for (int i = 7; i < row; i += 4)
    {
      //integral[i*col + idx] += integral[(i - 4)*col + idx];
      int offset = i*col + idx;
      integral[offset] += integral[offset - col_4];
    }
  }
}

积分图核函数6代码：

__global__ void cuda_integal5_tex(float *integral, int row, int col)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int idy = threadIdx.y + blockDim.y * blockIdx.y;  //row/4


  if (idx < col && idy > 0 && idy < row / 4)
  {
    int offset = idy * 4 * col + idx;   //每个小块的首地址
    float pre_sum = integral[(idy * 4 - 1)*col + idx];   //前一个小块的最后一个数
    integral[offset] += pre_sum;
    integral[offset + col] += pre_sum;
    integral[offset + col + col] += pre_sum;
  }
}

计算权重、权重和、像素值加权和的核函数代码：

__global__ void NLmeansKernel_tex(float *v, float *St, int t1, int t2, int Ds, int ds, float d2, float h2, int m, int n, int n1, float *sweight, float *average)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int idy = threadIdx.y + blockDim.y * blockIdx.y;  //row


  int i1;   //行
  int j1;   //列
  int index1, index2;
  double dist2;
  int i1n1;
  int dsn1;


  if (idx < n && idy < m)
  {
    i1 = idy + ds + 1;   //行
    j1 = idx + ds + 1;   //列 
    i1n1 = i1*n1;
    dsn1 = ds*n1;
    //dist2 = (St[(i1+ds)*n1+(j1+ds)] + St[(i1-ds-1)*n1+(j1-ds-1)]) - (St[(i1+ds)*n1+(j1-ds-1)] + St[(i1-ds-1)*n1+(j1+ds)]);
    dist2 = (St[(i1n1 + dsn1) + (j1 + ds)] + St[(i1n1 - dsn1 - n1) + (j1 - ds - 1)]) - (St[(i1n1 + dsn1) + (j1 - ds - 1)] + St[(i1n1 - dsn1 - n1) + (j1 + ds)]);
    dist2 /= (-d2*h2);
    dist2 = exp(dist2);


    index1 = idy*n + idx;
    //index2 = (idy + Ds + t1)*(n + 2 * Ds) + (idx + Ds + t2);
    index2 = (idy + Ds + t1 + ds)*(n + 2 * (Ds + ds + 1)) + (idx + Ds + t2 + ds);
    sweight[index1] += dist2;
    average[index1] += dist2 * v[index2];
  }
}

计算“像素值加权和/权重和”的代码：

__global__ void cuda_mean(float *average, float *sweight, int m, int n)
{
  int j = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int i = threadIdx.y + blockDim.y * blockIdx.y;  //row


  if (i < m && j < n)
  {
    int index = i*n + j;
    average[index] /= sweight[index];
  }
}

主体函数代码：

void cuda_fastNLmeans_tex(Mat src, Mat &dst, int ds, int Ds, float h)
{
  Mat src_tmp;
  src.convertTo(src_tmp, CV_32F);


  int row_r = src_tmp.rows % 4;
  int col_r = src_tmp.cols % 4;
  if (row_r || col_r)   //这里要扩充边缘时因为积分图的计算以4为block，因此图像尺寸必须为4的倍数
  {
    copyMakeBorder(src_tmp, src_tmp, 0, row_r, 0, col_r, BORDER_REFLECT);   //扩充边缘
  }




  int m = src_tmp.rows;
  int n = src_tmp.cols;
  int boardSize_x = Ds + ds + 1;
  int boardSize_y = Ds + ds + 1;


  Mat src_board;
  copyMakeBorder(src_tmp, src_board, boardSize_y, boardSize_y, boardSize_x, boardSize_x, BORDER_REFLECT);


  float h2 = h*h;
  float d2 = (float)(2 * ds + 1)*(2 * ds + 1);


  int m1 = src_board.rows - 2 * Ds;   //行
  int n1 = src_board.cols - 2 * Ds;   //列
                    
  //host端
  int img_size = sizeof(float) * m * n;
  int img_size1 = sizeof(float) * m1 * n1;
  int img_size3 = sizeof(float) * src_board.rows * src_board.cols;
  //
  float *sweight_array = (float *)malloc(img_size);
  float *average_array = (float *)malloc(img_size);
  //device端
  float *sweight_array_cuda;
  float *average_array_cuda;
  float *src_board_cuda;
  float *diff2_cuda;
  float *integral;
  
  cudaMalloc((void**)&sweight_array_cuda, img_size);
  cudaMalloc((void**)&average_array_cuda, img_size);
  cudaMalloc((void**)&src_board_cuda, img_size3);
  cudaMalloc((void**)&diff2_cuda, img_size1);
  cudaMalloc((void**)&integral, m1*n1 * sizeof(float));


  //


  cudaMemset(sweight_array_cuda, 0.0, img_size);
  cudaMemset(average_array_cuda, 0.0, img_size);
  cudaMemcpy(src_board_cuda, (float *)src_board.data, img_size3, cudaMemcpyHostToDevice);
  //


  dim3 dimBlock(16, 16);   //每个线程块有16*16个线程
  int M = (src.cols + dimBlock.x - 1) / dimBlock.x;
  int N = (src.rows + dimBlock.y - 1) / dimBlock.y;
  dim3 dimGrid(M, N);      //M*N个线程块
               
  dim3 diffBlock(16, 16);   //每个线程块有16*16个线程
  M = (n1 + diffBlock.x - 1) / diffBlock.x;
  N = (m1 + diffBlock.y - 1) / diffBlock.y;
  dim3 diffGrid(M, N);
  
  dim3 k0block(16, 16);   //row*(col/4)
  dim3 k0grid((n1 / 4 + k0block.x - 1) / k0block.x, (m1 + k0block.y - 1) / k0block.y);
  dim3 k1block(16, 1);  //row
  dim3 k1grid((m1 + k1block.x - 1) / k1block.x, 1);
  dim3 k2block = k0block;   //row*(col/4)
  dim3 k2grid = k0grid;
  dim3 k3block(16, 16);    //(row/4)*col
  dim3 k3grid((n1 + k3block.x - 1) / k3block.x, (m1 / 4 + k3block.y - 1) / k3block.y);
  dim3 k4block(16, 1);   //col
  dim3 k4grid((n1 + k4block.x - 1) / k4block.x, 1);
  dim3 k5block = k3block;
  dim3 k5grid = k3grid;


  //


  for (int t1 = -Ds; t1 <= Ds; t1++)
  {
    for (int t2 = -Ds; t2 <= Ds; t2++)
    {
      cuda_SqDiff2_tex << > >(src_board_cuda, diff2_cuda, Ds, t1, t2, m1, n1);   //计算差值平方图
      cuda_integal0_tex << > >(diff2_cuda, integral, m1, n1);
      cuda_integal1_tex << > >(integral, m1, n1);
      cuda_integal2_tex << > >(integral, m1, n1);
      cuda_integal3_tex << > >(integral, m1, n1);
      cuda_integal4_tex << > >(integral, m1, n1);
      cuda_integal5_tex << > >(integral, m1, n1);
      NLmeansKernel_tex << > >(src_board_cuda, integral, t1, t2, Ds, ds, d2, h2, m, n, n1, sweight_array_cuda, average_array_cuda);
    }
  }


  ///
  dim3 meanBlock(16, 16);   //每个线程块有16*16个线程
  M = (n + meanBlock.x - 1) / meanBlock.x;
  N = (m + meanBlock.y - 1) / meanBlock.y;
  dim3 meanGrid(M, N);
  cuda_mean << > >(average_array_cuda, sweight_array_cuda, m, n);   //除以权重归一化
                                              
  cudaMemcpy(average_array, average_array_cuda, img_size, cudaMemcpyDeviceToHost);   //这里的内存拷贝是阻塞拷贝，必须等待上方所有kernel运行完毕才会进行拷贝
                                            
  Mat average(m, n, CV_32FC1, average_array);
  Mat dst_tmp;
  
  average(Rect(0, 0, src.cols, src.rows)).convertTo(dst_tmp, CV_8U);
  dst = dst_tmp.clone();   //为了确保dst连续，所以clone了一份


  cudaFree(sweight_array_cuda);
  cudaFree(average_array_cuda);
  cudaFree(src_board_cuda);
  cudaFree(diff2_cuda);
  cudaFree(integral);


  free(sweight_array);
  free(average_array);
}

运行上述代码，同样对496*472的Lena图像去噪，结果如下（左侧噪声图，右侧去噪图）。耗时由上文的1.6秒左右减少到约86毫秒，成功实现毫秒级加速，耶~！

2. 使用CUDA并行计算内三层循环

在上述并行思路中，内两层循环并行计算，还有外两层循环需要顺序计算。那么，还有没有进一步并行加速的思路呢，答案是有的。CUDA的线程可以是一维、二维、三维线程。在上方的并行思路中我们使用了二维线程，其实还可以使用三维线程来并行计算内三层循环，这时只有最外面一层循环需要顺序计算了，循环次数由(2half_ssize+1)*(2half_ssize+1)减少为2half_ssize+1，因此计算耗时进一步减少。

for 搜索窗口的每一行
{
    //CUDA并行计算内三层循环
}

由于三维线程有点复杂，核函数个数还是少一点好，我们选择使用上述思路1的积分图并行计算方法的来计算积分图。

上代码：

计算差值平方图的核函数代码：

__global__ void cuda_SqDiff2_dim3(float *src, float *diff2, int Ds, int t1, int m1, int n1)
{
  int j = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int i = threadIdx.y + blockDim.y * blockIdx.y;  //row
  int k = blockIdx.z;    //t2 = k - Ds


  if (i < m1 && j < n1 && k <= 2*Ds)
  {
    //float data, diff;
    float diff;
    int src_n = n1 + Ds + Ds;
    int index = (i + Ds)*src_n + j + Ds;
    int t2 = k - Ds;
    diff = src[index] - src[index + t1*src_n + t2];   //src[(i+Ds)*src_n+j+Ds] - src[(i+Ds+t1)*src_n+j+Ds+t2];
                              
    int offset = m1*n1*k;   //k取0~2Ds
    diff2[offset + i*n1 + j] = diff*diff;
  }
}

积分图核函数1代码：

__global__ void cal_integral_X_dim3(float *src, float *integral_x, int Ds, int row, int col)
{
  int idx = threadIdx.x + blockIdx.x*blockDim.x;
  int k = blockIdx.y;   //t2 = k - Ds


  if (idx < row && k <= 2*Ds)
  {
    int row_offset = k*row*col + idx*col;
    integral_x[row_offset] = src[row_offset];
    for (int i = 1; i < col; i++)
    {
      int index = row_offset + i;
      integral_x[index] = src[index] + integral_x[index - 1];
    }
  }
}

积分图核函数2代码：

__global__ void cal_integral_Y_dim3(float *src, float *integral_y, int Ds, int row, int col)
{
  int idx = threadIdx.x + blockIdx.x*blockDim.x;
  int k = blockIdx.y;   //t2 = k - Ds


  if (idx < col && k <= 2*Ds)
  {
    int offset = k*row*col;
    integral_y[offset+idx] = src[offset+idx];
    for (int i = 1; i < row; i++)
    {
      int col_offset = offset + i*col + idx;
      integral_y[col_offset] = src[col_offset] + integral_y[col_offset - col];
    }
  }
}

计算权重、权重和、像素值加权和的核函数代码：

__global__ void NLmeansKernel_dim3(float *v, float *St, int t1, int Ds, int ds, float d2, float h2, int m, int n, int m1, int n1, float *sweight, float *average)
{
  int idx = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int idy = threadIdx.y + blockDim.y * blockIdx.y;  //row
  int k = blockIdx.z;   //t2 = k - Ds


  int i1;   //行
  int j1;   //列
  int index1, index2;
  double dist2;
  int i1n1;
  int dsn1;


  if (idx < n && idy < m && k <= 2*Ds)
  {
    int t2 = k - Ds;
    int st_offset = k*m1*n1;
    int sweight_offset = k*m*n;
    i1 = idy + ds + 1;   //行
    j1 = idx + ds + 1;   //列 
    i1n1 = i1*n1;
    dsn1 = ds*n1;
    //dist2 = (St[(i1+ds)*n1+(j1+ds)] + St[(i1-ds-1)*n1+(j1-ds-1)]) - (St[(i1+ds)*n1+(j1-ds-1)] + St[(i1-ds-1)*n1+(j1+ds)]);
    dist2 = (St[st_offset + (i1n1 + dsn1) + (j1 + ds)] + St[st_offset + (i1n1 - dsn1 - n1) + (j1 - ds - 1)]) - (St[st_offset + (i1n1 + dsn1) + (j1 - ds - 1)] + St[st_offset + (i1n1 - dsn1 - n1) + (j1 + ds)]);
    dist2 /= (-d2*h2);
    dist2 = exp(dist2);


    index1 = sweight_offset + idy*n + idx;
    index2 = (idy + Ds + t1 + ds)*(n + 2 * (Ds + ds + 1)) + (idx + Ds + t2 + ds);
    sweight[index1] += dist2;
    average[index1] += dist2 * v[index2];
  }
}

计算“像素值加权和/权重和”的代码：

__global__ void cuda_mean_dim3(float *average, float *sweight, int Ds, int m, int n)
{
  int j = threadIdx.x + blockDim.x * blockIdx.x;  //col
  int i = threadIdx.y + blockDim.y * blockIdx.y;  //row


  if (i < m && j < n)
  {
    int index = i*n + j;
    int cnt = Ds * 2;
    int img_size = m*n;
    int offset = img_size;
    for (int k = 1; k <= cnt; k++)
    {
      average[index] += average[offset + index];
      sweight[index] += sweight[offset + index];
      offset += img_size;
    }


    average[index] /= sweight[index];
  }
}

主体函数代码：

void cuda_fastNLmeans_dim3(Mat src, Mat &dst, int ds, int Ds, float h)
{
  Mat src_tmp;
  src.convertTo(src_tmp, CV_32F);
 
  int m = src_tmp.rows;
  int n = src_tmp.cols;
  int boardSize_x = Ds + ds + 1;
  int boardSize_y = Ds + ds + 1;


  Mat src_board;
  copyMakeBorder(src_tmp, src_board, boardSize_y, boardSize_y, boardSize_x, boardSize_x, BORDER_REFLECT);


  float h2 = h*h;
  float d2 = (float)(2 * ds + 1)*(2 * ds + 1);
  int m1 = src_board.rows - 2 * Ds;   //行
  int n1 = src_board.cols - 2 * Ds;   //列
  int t2_num = 2 * Ds + 1;


  //host端
  int img_size = sizeof(float) * m * n;
  int img_size1 = sizeof(float) * m1 * n1;
  int img_size3 = sizeof(float) * src_board.rows * src_board.cols;


  //


  //device端
  float *sweight_array_cuda;
  float *average_array_cuda;
  float *src_board_cuda;
  float *diff2_cuda;
  
  cudaMalloc((void**)&sweight_array_cuda, img_size*t2_num);
  cudaMalloc((void**)&average_array_cuda, img_size*t2_num);
  cudaMalloc((void**)&src_board_cuda, img_size3);
  cudaMalloc((void**)&diff2_cuda, img_size1*t2_num);
  //
  cudaMemset(sweight_array_cuda, 0.0, img_size*t2_num);
  cudaMemset(average_array_cuda, 0.0, img_size*t2_num);
  cudaMemcpy(src_board_cuda, (float *)src_board.data, img_size3, cudaMemcpyHostToDevice);
  //
  dim3 dimBlock(16, 16, 1);   //每个线程块有16*16个线程
  int M = (src.cols + dimBlock.x - 1) / dimBlock.x;
  int N = (src.rows + dimBlock.y - 1) / dimBlock.y;
  dim3 dimGrid(M, N, t2_num);      //M*N*t2_num个线程块


  dim3 diffBlock(16, 16, 1);   //每个线程块有16*16个线程
  M = (n1 + diffBlock.x - 1) / diffBlock.x;
  N = (m1 + diffBlock.y - 1) / diffBlock.y;
  dim3 diffGrid(M, N, t2_num);
  
  float *y_presum;
  float *x_presum;
  cudaMalloc((void**)&y_presum, m1*n1 * sizeof(float)*t2_num);
  cudaMalloc((void**)&x_presum, m1*n1 * sizeof(float)*t2_num);


  int block_num = 16;
  M = (n1 + block_num - 1) / block_num;    //n1是列
  N = (m1 + block_num - 1) / block_num;    //m1是行
  dim3 integal_block_x(block_num, 1);
  dim3 integal_grid_x(N, t2_num);
  dim3 integal_block_y(block_num, 1);
  dim3 integal_grid_y(M, t2_num);
  //


  for (int t1 = -Ds; t1 <= Ds; t1++)
  {
    cuda_SqDiff2_dim3 << > >(src_board_cuda, diff2_cuda, Ds, t1, m1, n1);   //计算差值平方图
    cal_integral_X_dim3 << > >(diff2_cuda, x_presum, Ds, m1, n1);
    cal_integral_Y_dim3 << > >(x_presum, y_presum, Ds, m1, n1);
    NLmeansKernel_dim3 << > >(src_board_cuda, y_presum, t1, Ds, ds, d2, h2, m, n, m1, n1, sweight_array_cuda, average_array_cuda);
  }


  ///
  dim3 meanBlock(16, 16);   //每个线程块有16*16个线程
  M = (n + meanBlock.x - 1) / meanBlock.x;
  N = (m + meanBlock.y - 1) / meanBlock.y;
  dim3 meanGrid(M, N);
  cuda_mean_dim3 << > >(average_array_cuda, sweight_array_cuda, Ds, m, n);   //除以权重归一化
                                            
  //


  Mat average(m, n, CV_32FC1);
  cudaMemcpy((float *)average.data, average_array_cuda, img_size, cudaMemcpyDeviceToHost);
  average.convertTo(dst, CV_8U);


  cudaFree(sweight_array_cuda);
  cudaFree(average_array_cuda);
  cudaFree(src_board_cuda);
  cudaFree(diff2_cuda);
  cudaFree(y_presum);
  cudaFree(x_presum);


}

运行上述代码，也对496*472的Lena图像去噪，结果如下（左侧噪声图，右侧去噪图）。耗时由上文的86毫秒左右减少到约59毫秒，耗时进一步减少啦，嘿嘿~

我在想，其实是不是可以再进一步加速呢，比如使用思路2并行计算积分图，结合三维线程的使用，应该可以更进一步加速吧。本文就讲到这里，接下有时间来再试试哈~

本人公众号如下，不定期更新精彩内容，欢迎扫码关注~

PHP 性能优化全攻略：提升 Web 应用速度的关键来恩1003 PHP 从入门到精通 php 性能优化前端
PHP学习资料PHP学习资料PHP学习资料在Web开发领域，PHP凭借其简单易用、开源免费等特性，成为众多开发者构建网站和应用的首选语言。然而，随着业务的发展和用户量的增加，PHP应用的性能问题逐渐凸显。性能不佳不仅会导致用户体验下降，还可能影响业务的发展。因此，对PHP代码进行性能优化至关重要。本文将深入探讨PHP性能优化的各个方面，包括缓存的使用、代码优化策略以及服务器配置优化等，帮助开发者打
client-go: k8s选主
快速上手下面这个代码就是一个选主的大概逻辑packagemainimport("context""flag""fmt"_"net/http/pprof""os""path/filepath""time""golang.org/x/exp/rand"v1"k8s.io/api/core/v1"metav1"k8s.io/apimachinery/pkg/apis/meta/v1""k8s.io/ap
MySQL(141)如何处理重复数据问题？辞暮尔尔-烟火年年 MySQL mysql 数据库
处理重复数据问题是数据管理中的一个常见挑战。重复数据会影响数据库的性能、占用资源，并且可能导致数据分析结果的偏差。以下是处理重复数据问题的详细步骤以及结合代码的示例。一、识别重复数据首先，需要识别数据库中的重复数据。可以使用SQL查询来查找重复的数据。示例：假设我们有一个名为employees的表，其中包含以下字段：id、name和email。CREATETABLEemployees(idINTP
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
2024年圈子社交APP源码开发：仿小红书垂直社区小程序搭建详解宠友信息 IM即时通讯 APP源码社交APP源码小程序微信 java uni-app spring boot 微服务
目录核心功能模块及技术解析多平台适配与技术架构结语在社交网络迅速发展的今天，垂直社交平台逐渐成为主流。特别是类似小红书的圈子社交应用，它们不仅为用户提供了一个分享和交流的空间，还满足了特定群体的个性化需求。2024年您可以打造一个深度互动、功能丰富的垂直社区。本文将详细描述如何基于这些技术构建社交平台，并结合相关的技术术语和代码片段。演示下载地址：社交源码_语音聊天软件_即时通信软件-社交软件-宠
微信小程序分包難釋懷微信小程序小程序
一、前言随着微信小程序功能的不断扩展，代码体积也逐渐增大。而微信小程序对主包大小限制为2MB（压缩后），超过这个限制将无法上传发布。为了解决这一问题，小程序分包机制应运而生——它允许我们将一个大型小程序拆分为多个子包，按需加载，从而突破大小限制并提升首屏加载速度。本文将带你全面掌握：✅小程序分包的基本原理✅分包的配置方式（app.json）✅主包与子包的通信机制✅页面路径的引用规则✅分包预下载策略
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
Microsoft 紧急修补 SharePoint 远程代码执行漏洞，应对持续网络攻击
微软紧急修复SharePoint高危漏洞并提供安全建议周日，微软发布了一个关键补丁，用于修复SharePoint中正在被恶意利用的安全漏洞，同时公布了另一个已通过"增强防护措施"修复的漏洞细节。这家科技巨头确认，目前已发现攻击者正针对本地部署的SharePointServer用户发起攻击，利用的是7月安全更新中未完全修复的漏洞。漏洞详情当前被利用的漏洞编号为CVE-2025-53770（CVSS评
小程序框架单元测试：Jest在不同框架中的配置与使用小程序开发2020 小程序开发宝典小程序单元测试 log4j ai
小程序框架单元测试：Jest在不同框架中的配置与使用关键词：Jest、单元测试、小程序、Taro、uni-app、WePY、测试配置摘要：本文将深入探讨如何在不同的小程序框架（Taro、uni-app、WePY）中配置和使用Jest进行单元测试。我们将从基础概念讲起，逐步深入到具体配置和实战案例，帮助开发者掌握小程序单元测试的核心技能，提升代码质量和开发效率。背景介绍目的和范围本文旨在帮助小程序开
FPGA自学——整体设计思路 Sunrise黎 fpga自学 fpga 学习
FPGA自学——整体设计思路1.设计定义写一套硬件描述语言，能够在指定的硬件平台上实现响应的功能根据想要实现的功能进行设定（如：让LED一秒闪烁一次）2.设计输入方法：编写逻辑：使用verilog代码描述逻辑画逻辑图使用IP3.分析综合（EDA）逻辑门级别的电路内容：对所写的逻辑描述的内容进行分析4.功能仿真1.目的：使用专门的仿真工具进行仿真，验证设计的逻辑功能能够实现2.仿真工具：models
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
后台管理系统登录思路大鼻子的四色鸳鸯笔记
一般来说我们不管是做后台管理，还是做普通项目，必不可少的其实就是登录。那么登录又是怎么实现的呢？废话不多说，上代码。首先我们把登录接口封装在一个文件里，如果这个接口有必备的参数，我们就得传参，然后在登录页引入调用。其次就是我们在登录页写登录框信息，这时候就需要接收接口必备的参数，那具体怎么接呢？先在data里设置两个放置参数的空数组。然后在登录信息框中外围prop接收，然后在信息框上v-model
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
智界R7智驾功能和性能评价 TheWanderers 智能驾驶智界
一、智驾行车能力标题硬件配置与系统架构感知硬件：Max/Ultra版搭载1个192线激光雷达、3个毫米波雷达（含1个4D成像雷达）、12个超声波雷达、11个高清摄像头（含前向800万像素双目+鱼眼镜头）。Pro版未配备激光雷达，但保留3个毫米波雷达和10个摄像头。核心算法：HUAWEIADS3.0系统，基于端到端架构，整合感知、决策与控制模块，支持全场景目标识别（如非标准障碍物、夜间行人）。算力支
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
2025年服务器技术全景解析：量子计算、液冷革命与未来生态构建国际云1688 腾讯云国际量子计算腾讯云服务器云计算架构运维
2025年服务器技术全景解析：量子计算、液冷革命与未来生态构建一、量子计算：从实验室到产业化的跨越1.中国量子计算产业化突破•本源量子“悟空”超导计算机：搭载72位自主超导量子芯片“悟空芯”，支持198个量子比特并行计算，已为全球139个国家完成超32万个计算任务。在金融领域，其投资组合优化应用使资源消耗较经典计算机降低50%，黑石集团等机构已将其用于高频交易策略优化；在生物医药领域，量子混合神经
第十二届“中关村青联杯”全国研究生数学建模竞赛-A题：水面舰艇编队防空和信息化战争评估模型（续）（附MATLAB代码实现）格图素书大数据竞赛赛题解析数学建模
目录5.3.3问题三的总结5.4问题四的模型建立与求解5.4.1问题分析5.4.2计算方位角和航向角5.4.3计算距离D和水平速度5.4.4分析并建立模型5.4.4.1聚类分析方法的提出5.4.4.2模型的建立5.4.5问题四的总结5.5问题五的模型建立与求解5.5.1问题五的分析5.5.2传统的战争评估模型5.5.2.1正规作战模型5.5.2.2游击作战模型5.5.2.3混合作战模型5.5.3信
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
微算法科技技术创新，将量子图像LSQb算法与量子加密技术相结合，构建更加安全的量子信息隐藏和传输系统
随着信息技术的发展，数据的安全性变得尤为重要。在传统计算模式下，即便采用复杂的加密算法，也难以完全抵御日益增长的网络攻击威胁。量子计算技术的出现为信息安全带来了新的解决方案。然而，量子图像处理领域仍面临复杂度高、效率低的问题。微算法科技通过将量子图像LSQb算法与量子加密技术相结合，提出了一种全新的信息隐藏和传输方案，旨在构建更加安全高效的数据保护机制。LSQb算法，即量子图像的最小有效量子比特算
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
【舰艇控制】基于matlab具有不确定性和扰动的水面舰艇的自适应有限时间平滑非线性滑模跟踪控制【含Matlab源码 13748期】复现含文献海神之光 Matlab路径规划（进阶版）matlab
欢迎来到海神之光博客之家✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进；个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式Matlab毕设：Matlab毕设系列–说明期刊发表：发表北大核心，SCI不是梦！！⛳️座右铭：行百里者，半于九十。更多Matlab路径规划仿真内容点击①Matlab路径规划（进阶版）②付费专栏Matlab路径规划（初级版）⛳️关注
离岗误报率 20%？陌讯时序算法实测降 90% 2501_92474711 算法计算机视觉目标跟踪机器学习人工智能边缘计算
开篇：工业安防中的"隐形漏洞"在制造业车间、变电站等关键场景，离岗检测是保障生产安全的核心环节。传统监控系统依赖人工巡检，存在85%的漏检率；而普通视觉算法在光照变化、人员遮挡场景下，误报率常高达20%以上[实测数据显示]。某汽车零部件厂曾因离岗检测失效导致设备空转2小时，直接损失超12万元。这种"看得见的监控，防不住的风险"困境，凸显了传统视觉方案在复杂工业场景中的局限性。技术解析：从单帧检测到
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
XSS介绍及利用 0x00dream 常见漏洞 web javascript
XSS——跨站脚本攻击XSS介绍及利用**XSS的三种类型****构造xss脚本****自动化XSS——BeEF**XSS介绍及利用1、XSS介绍XSS（crosssitescripting）跨站脚本攻击，恶意攻击者往web页面里插入恶意script代码，当用户浏览该页面时，代码就会被执行2、XSS原理在HTML中常用到字符实体，对常用到的字符实体没有进行转译，导致完整的标签出现，在可输入的文本框
洛谷：一元三次方程求解解析&代码翻肚皮的翻车鱼洛谷题目c++题解算法数学建模
题目描述:有形如：ax3+bx2+cx+d=0这样的一个一元三次方程。给出该方程中各项的系数（a,b,c,d均为实数），并约定该方程存在三个不同实根（根的范围在−100至100之间），且根与根之差的绝对值≥1。要求由小到大依次在同一行输出这三个实根(根与根之间留有空格)，并精确到小数点后2位。提示：记方程f(x)=0f(x)=0，若存在2个数x1和x2，且x1=1,说明每一个大小为1的区间里至多有
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

非局部均值滤波（NL-means）算法的CUDA优化加速

你可能感兴趣的:(代码优化加速,算法,opencv,计算机视觉,cuda,并行计算)