白水baishui

CUDA C/C++ 教程一：加速应用程序

文章目录

- - 1. CUDA 基础
  - - 1.1. CUDA 简介
    - 1.2. 学习前的准备工作
    - 1.3. 加速系统的硬件设施
  - 2. 编写在GPU运行的代码
  - - 2.1. 编写运行一个 Hello GPU 核函数
  - 3. CUDA 线程的层次结构
  - - 3.1. 运行核函数
    - 3.2. 线程和块的索引
    - 3.3. 用 CUDA 加速 For 循环
    - 3.4. 管理不同块之间的线程
  - 4. 分配可同时被GPU和CPU访问的内存
  - 5. 网格大小与实际并行工作量不匹配
  - - 5.1. 网格大于工作量
    - 5.2. 网格小于工作量
  - 6. 错误处理
  - - 6.1. 定制一个 CUDA 错误处理宏
  - 7. 总结
  - - 7.1 用 CUDA 实现向量加法
    - 7.2. 二维和三维的网格和块
    - 7.3 用 CUDA 实现矩阵乘法

1. CUDA 基础

1.1. CUDA 简介

GPU 加速计算正在逐步取代 CPU 计算，近年来加速计算带来了越来越多的突破性进展，各类应用程序对加速计算日益增长地需求、便捷地编写加速计算的程序的需求以及不断改进的支持加速计算的硬件设施，所有这一切都在推动着计算方式从 CPU 计算过渡到 GPU 加速计算。

无论是从出色的性能还是易用性来看，CUDA 计算平台均是加速计算的重要实现方式。CUDA 提供了一种可扩展于 C、C++、Python 和 Fortran 等语言的编码接口，并行化后的代码能够在 NVIDIA GPU 上运行，以大幅加速应用程序。它包含有 DNN、BLAS、图形分析和 FFT 等等库，并且还附带功能强大的命令行和可视化分析器。

CUDA 支持许多领域的超性能计算应用程序：计算流体动力学、分子动力学、量子化学、物理学和高性能计算 (HPC)等等。

学习 CUDA 将能帮你加速自己的应用程序。应用程序加速后的执行速度会远远超过原本在 CPU 上的执行速度，使那些在 CPU 上性能受限的计算得以进行下去。在本教程中, 你将学习使用 CUDA 的 C/C++ 接口作为加速应用程序编程的入门知识，这些入门知识足以让你加速自己的 CPU 应用程序，以获得性能上的巨大提升并帮你迈入全新的计算领域。

1.2. 学习前的准备工作

如要充分利用本教程学习CUDA，那么你应该要先有如下知识储备：

在 C++/C 中声明变量、编写循环并使用 if/else 语句。
在 C++/C 中定义和调用函数。
在 C++/C 中分配数组。

说白了就是要有C或C++语言的基础，此外不需要事先知道任何关于 CUDA 的知识，当你在本教程完成学习后，你就可以做到：

编写、编译及运行既可调用 CPU 函数也可启动 GPU 核函数的 C/C++ 程序。
通过配置参数控制并行线程的层次结构。
重构串行循环以在 GPU 上并行执行其迭代。
分配和释放可用于 CPU 和 GPU 的内存。
处理 CUDA 代码产生的错误。
加速 CPU 应用程序。

1.3. 加速系统的硬件设施

带有GPU的计算机系统称为加速系统（又称异构系统，即指包含CPU和GPU的系统）。在一个包含 NVIDIA GPU 的加速系统的实验环境上，可以使用 nvidia-smi 命令查询有关此 GPU 的信息。例如：

nvidia-smi

按回车之后，将输出该机器上的GPU信息

需要注意的是，加速系统在运行程序时首先会运行 CPU 程序，在运行到需要GPU进行大规模并行计算的函数时，再将对应函数载入GPU执行。

也就是说，由GPU加速的依然还是纯CPU的应用程序，只是某些模块在运行时调入了GPU中，该模块在同步完毕后将会重新回到CPU中执行主程序的后续代码：

2. 编写在GPU运行的代码

CUDA 为许多编程语言提供了扩展接口，而在本教程用CUDA为 C/C++ 提供的接口来展示。对编程语言的扩展可以让开发人员在 GPU 上更加方便的运行 CUDA 库的函数。

以下是一个 .cu 文件（.cu 是 CUDA 加速程序的文件扩展名，实际上.cu文件只是含有CUDA代码的.cpp文件，没有别的特殊之处）。其中包含两个函数，第一个函数 CPUFunction() 将在 CPU 上运行，第二个函数 GPUFunction() 将在 GPU 上运行：

// 在CPU上运行的函数
void CPUFunction() {
  printf("This function is defined to run on the CPU.\n");
}

// 在GPU上运行的函数
__global__ void GPUFunction() {
  printf("This function is defined to run on the GPU.\n");
}

int main() {
  CPUFunction(); // 调用CPU函数

  GPUFunction<<<1, 1>>>(); // 调用GPU函数
  cudaDeviceSynchronize(); // 同步
}

根据上面的代码，我们来讲解一些需要特别注意的重要代码行，以及加速计算中使用的一些其他常用术语：
__global__ void GPUFunction()：

__global__ 关键字表明该函数将在 GPU 上运行并可全局调用（既可以由CPU ，也可以由 GPU 调用）；
通常，我们将在 CPU 上执行的代码称为 Host （主机）代码，而将在 GPU 上运行的代码称为 Device （设备）代码；
注意返回类型为 void。使用 __global__ 关键字定义的函数返回值需为 void 类型。

GPUFunction<<<1, 1>>>()：

通常，我们把要运行在 GPU 上的函数称为 kernel （核）函数;
启动核(kernel)函数时，我们必须事先配置GPU参数，使用 <<< ... >>> 语法向核函数传递两个必要的参数;
在 <<< ... >>> 中传递的参数用于为核函数设定线程的层次结构，第一个参数定义线程块(Block)的数量，第二个参数定义Block中含有的线程(Thread)数量。例如本例中的核函数 GPUFunction() 将在包含 1 个线程（第二个配置参数）的 1 个线程块（第一个执行配置参数）上运行。

cudaDeviceSynchronize()：

与其他并行化的代码类似，核函数启动方式为异步，即 CPU 代码将继续执行而不会等待核函数执行完成；
调用 CUDA 提供的函数 cudaDeviceSynchronize 可以让Host 代码(CPU) 等待 Device 代码(GPU) 执行完毕，再在CPU上继续执行。

2.1. 编写运行一个 Hello GPU 核函数

#include 

void helloCPU() {
  printf("Hello from the CPU.\n");
}

// __global__ 表明这是一个全局GPU核函数.
__global__ void helloGPU() {
  printf("Hello from the GPU.\n");
}

int main() {
  helloCPU(); // 调用CPU函数

   /* 使用 <<<...>>> 配置核函数的GPU参数，
   * 第一个1表示1个线程块，第二个1表示每个线程块1个线程。*/
  helloGPU<<<1, 1>>>(); // 调用GPU函数
  cudaDeviceSynchronize(); // `cudaDeviceSynchronize` 同步CPU和GPU
}

现在来编译并运行加速后的CUDA代码。将上述文件命名为hello-gpu.cu，执行命令：

nvcc hello-gpu.cu -o hello-gpu
./hello-gpu

得到结果：

3. CUDA 线程的层次结构

从上面的图中可以看出，CUDA线程的层次结构分为三层：Thread（线程）、Block（块）、Grid（网格），网格由块组成，块由线程组成。

3.1. 运行核函数

我们可以通过配置参数指定核函数如何在 GPU 的多个线程中并行运行。具体来说，就可以配置 Block 的数量以及每个 Block 中所包含 Thread 的数量。配置参数的语法如下：

<<< Block 数, 每个Block中的 Thread 数>>>

启动核函数时，核函数代码由我们自行配置的 Block 中的每个 Thread 执行。因此，如果假设已定义一个名为 someKernel 的核函数，则GPU线程可以配置为下列情况：

someKernel<<<1, 1>>() 在GPU中为该核函数分配1个具有1个线程的线程块，核函数中的代码将只运行1次；
someKernel<<<1, 10>>() 在GPU中为该核函数分配1个具有10个线程的线程块，核函数中的代码将运行10次；
someKernel<<<10, 1>>() 在GPU中为该核函数分配10个具有1个线程的线程块，核函数中的代码将运行10次；
someKernel<<<10, 10>>() 在GPU中为该核函数分配10个具有10个线程的线程块，核函数中的代码将运行100次；

启动并行运行的核函数示例：

#include 

__global__ void firstParallel() {
  printf("This is running in parallel.\n");
}

int main() {
  firstParallel<<<5, 5>>>(); // 在GPU中为核函数分配5个具有5个线程的线程块，将运行25次；
  cudaDeviceSynchronize(); // 同步
}

将上述代码命名为basic-parallel.cu，然后编译运行：

nvcc basic-parallel.cu -o basic-parallel
./basic-parallel

结果如下，数了一下，确实是25次：

3.2. 线程和块的索引

如图所示，每个线程在其线程块的内部都会被分配一个索引，从 0 开始。此外，每个线程块也会被分配一个索引，也是从 0 开始。正如线程组成线程块，线程块又会组成网格(Grid)，而网格是 CUDA 线程层次结构中级别最高的实体，它没有索引。

简言之，CUDA 核函数在由一个或多个线程块组成的网格中执行，且每个线程块中均包含相同数量的一个或多个线程（每个线程块中的线程数量相同）。

在核函数中，可以通过两个变量来获取到索引： threadIdx.x （线程索引）和 blockIdx.x（线程块索引）。

现在让我们来使用索引控制特定的线程和块：

#include 

// 核函数
__global__ void printSuccessForCorrectExecutionConfiguration() {
  // 当执行到第255个线程块的第1023个线程时，才输出
  if(threadIdx.x == 1023 && blockIdx.x == 255) {
    printf("Success!\n"); // 输出 Success！
    printf("threadIdx.x: %d\n", threadIdx.x); // 输出线程ID
    printf("blockIdx.x: %d\n", blockIdx.x); // 输出线程块ID
  }
}

int main() {
  // 配置该核函数由256个含有1024个线程的线程块中执行
  printSuccessForCorrectExecutionConfiguration<<<256, 1024>>>();
  cudaDeviceSynchronize(); // 同步
}

将上述代码命名为thread-and-block-idx.cu，然后编译运行：

nvcc thread-and-block-idx.cu -o thread-and-block-idx
./thread-and-block-idx

输出：

3.3. 用 CUDA 加速 For 循环

到此为止，加速 for 循环就是一个可行的操作了。在加速计算中，for 循环不再顺序执行每次迭代，而是让每次迭代都在不同的线程中并行执行。

例如，现在有以下在 CPU 中执行的 for 循环：

int N = 10;
for (int i = 0; i < N; ++i) {
  printf("%d\n", i);
}

如要并行此循环，必须执行以下 2 个步骤：

编写用于执行单次迭代工作的核函数。
调用核函数时为它配置执行参数，即并行的线程数，每个线程执行一次迭代。

如下例程序：

#include 

// 核函数
__global__ void loop() {
  // 输出每一个线程的线程号（0~9）
  printf("This is iteration number %d\n", threadIdx.x);
}

int main() {
  loop<<<1, 10>>>(); // 执行核函数
  cudaDeviceSynchronize();
}

将上述代码命名为single-block-loop.cu，然后编译运行：

nvcc single-block-loop.cu -o single-block-loop
./single-block-loop

输出：

3.4. 管理不同块之间的线程

之前提到过，一个线程块可以包含多个线程，那么我们就可以调整线程块的大小以实现更多类型的并行化。线程块包含的线程具有数量限制：确切地说是 1024 个（即每个块中的线程数量 <= 1024）。通常为了增加加速应用程序中的并行量，我们需要利用多个线程块，并在它们之间进行协调。

CUDA 核函数中，记录了每个块中线程数的变量是 blockDim.x（一个线程块中包含的线程数量，每个块中包含的线程数都是一样的）。通过将此变量与 blockIdx.x 和 threadIdx.x 变量结合使用，并借助表达式 threadIdx.x + blockIdx.x * blockDim.x 计算线程ID。该表达式可以用C++中访问二维数组的索引计算来类比看待，以增强理解。

以下是详细示例：

配置参数 <<<10, 10>>> 将启动共计拥有 100 个线程的网格，该网格又分为由 10 个线程组成的 10 个线程块（即一个线程块中含有10个线程，blockDim.x=10）。这时候，就可以利用表达式 threadIdx.x + blockIdx.x * blockDim.x 来计算某个线程的唯一索引（0 至 99 之间）了。

如果线程块 blockIdx.x 索引为 0，则 blockIdx.x * blockDim.x 为 0。以 0 为起始索引加上可能的 threadIdx.x 值（0 至 9），便可在网格中找到索引为 0 至 9 的线程。
如果线程块 blockIdx.x 索引为 1，则 blockIdx.x * blockDim.x 为 10。以 10 为起始索引加上可能的 threadIdx.x 值（0 至 9），便可在网格中找到索引为 10 至 19 的线程。
如果线程块 blockIdx.x 索引为 5，则 blockIdx.x * blockDim.x 为 50。以 50 为起始索引加上可能的 threadIdx.x 值（0 至 9），便可在网格中找到索引为 50 至 59 的线程。
如果线程块 blockIdx.x 索引为 9，则 blockIdx.x * blockDim.x 为 90。以 90 为起始索引加上可能的 threadIdx.x 值（0 至 9），便可在网格中找到索引为 90 至 99 的线程。

现在我们来加速具有多个线程块的For循环：

#include 

__global__ void loop()
{
  // 在Grid中遍历所有thread
  int i = blockIdx.x * blockDim.x + threadIdx.x;
  printf("%d\n", i);
}

int main()
{
  /*
   * 配置参数还可以试试其他的，例如：
   * <<<5, 2>>>
   * <<<10, 1>>>
   */
  loop<<<2, 5>>>();
  cudaDeviceSynchronize();
}

将上述代码命名为multi-block-loop.cu，然后编译运行：

nvcc multi-block-loop.cu -o multi-block-loop
./multi-block-loop

输出：

4. 分配可同时被GPU和CPU访问的内存

CUDA 的最新版本（版本 6 和更高版本）可以便捷地分配和释放既可用于 Host 也可被 Device 访问的内存。

在 Host（CPU）中，我们一般适用malloc 和 free 来分配和释放内存，但这样分配的内存无法直接被Device（GPU）访问，所以在这里我们用cudaMallocManaged 和 cudaFree 两个函数来分配和释放同时可被 Host 和 Device 访问的内存。如下例所示：

// CPU
int N = 10;
size_t size = N * sizeof(int);
int *a;

a = (int *)malloc(size); // 分配CPU内存
free(a); // 释放CPU内存

// GPU
int N = 10;
size_t size = N * sizeof(int);
int *a;

cudaMallocManaged(&a, size);// 为a分配CPU和GPU内存
cudaFree(a); // 释放GPU内存

实际上，cudaMallocManaged在统一内存中创建了一个托管内存池（CPU上有，GPU上也有），内存池中已分配的空间可以通过相同的指针直接被CPU和GPU访问，底层系统在统一的内存空间中自动地在设备和主机间进行传输。数据传输对应用来说是透明的，大大简化了代码。

现在让我们来看看如何利用GPU来执行数组元素的乘法操作：

#include 

// 初始化数组
void init(int *a, int N) {
  int i;
  for (i = 0; i < N; ++i) {
    a[i] = i;
  }
}

// CUDA 核函数，所有元素乘2
__global__ void doubleElements(int *a, int N) {
  int i;
  i = blockIdx.x * blockDim.x + threadIdx.x;
  if (i < N) {
    a[i] *= 2;
  }
}

// 检查数组内所有元素的值是否均为复数
bool checkElementsAreDoubled(int *a, int N) {
  int i;
  for (i = 0; i < N; ++i) {
    if (a[i] != i*2) return false;
  }
  return true;
}

int main() {
  int N = 1000;
  int *a;

  size_t size = N * sizeof(int);
  cudaMallocManaged(&a, size); // 为a分配CPU和GPU空间

  init(a, N); // 为数组a赋值
  size_t threads_per_block = 256; // 定义每个block的thread数量
  size_t number_of_blocks = (N + threads_per_block - 1) / threads_per_block; // 定义block的数量

  doubleElements<<<number_of_blocks, threads_per_block>>>(a, N); // 执行核函数
  cudaDeviceSynchronize(); // 同步

  bool areDoubled = checkElementsAreDoubled(a, N); // 检查元素是否为复数
  printf("All elements were doubled? %s\n", areDoubled ? "TRUE" : "FALSE");

  cudaFree(a); // 释放由cudaMallocManaged
}

将上述代码命名为double-elements.cu，然后编译运行：

nvcc double-elements.cu -o double-elements
./double-elements

输出：

5. 网格大小与实际并行工作量不匹配

5.1. 网格大于工作量

鉴于 GPU 的硬件特性，线程块中的线程数最好配置为 32 的倍数。但是在实际工作中，很可能会出现这样的情况，我们手动配置参数所创建的线程数无法匹配为实现并行循环所需的线程数，比如实际上需要执行1230次循环，但是你却配置了2048个线程。

我们不可能每次配置参数的时候都手动去算一遍最佳配置，更何况并不是所有的数都是 32 的倍数。不过这个问题现在已经可以通过以下三个步骤轻松地解决：

首先，设置配置参数，使线程总数超过实际工作所需的线程数。
然后，在向核函数传递参数时传递一个用于表示要处理的数据集总大小或完成工作所需的总线程数 N。
最后，计算网格内的线程索引后（使用 threadIdx + blockIdx*blockDim），判断该索引是否超过 N，只在不超过的情况下执行与核函数相关的工作。

以下是一种可选的配置方式，适用于工作总量 N 和线程块中的线程数已知的情况。如此一来，便可确保网格中至少始终能执行 N 次任务，且最多只浪费 1 个线程块的线程数量：

// 假设N是已知的
int N = 100000;

// 把每个block中的thread数设为256
size_t threads_per_block = 256;

// 根据N和thread数量配置Block数量
size_t number_of_blocks = (N + threads_per_block - 1) / threads_per_block;

some_kernel<<<number_of_blocks, threads_per_block>>>(N);

由于上述执行配置致使网格中的线程数超过 N，因此需要注意 some_kernel 定义中的内容，以确保 some_kernel 在由其中一个额外的（大于N的）线程执行时不会尝试访问超出范围的数据元素，也就是要加个判断：

__global__ some_kernel(int N) {
  int idx = threadIdx.x + blockIdx.x * blockDim.x;

  if (idx < N) { // 保证线程ID小于元素数量N
    // 并行代码
  }

使用不匹配的配置参数来加速 For 循环

#include 

__global__ void initializeElementsTo(int initialValue, int *a, int N) {
  int i = threadIdx.x + blockIdx.x * blockDim.x;
  if (i < N) {
    a[i] = initialValue;
  }
}

int main() {
  int N = 1000;

  int *a;
  size_t size = N * sizeof(int);
  cudaMallocManaged(&a, size);

  size_t threads_per_block = 256;
  // 这是惯用的CUDA语法
  // 为 number_of_blocks 分配一个值，以确保线程数至少与指针 a 中可供访问的元素数同样多。
  size_t number_of_blocks = (N + threads_per_block - 1) / threads_per_block;

  int initialValue = 6; // 初始化的值
  initializeElementsTo<<<number_of_blocks, threads_per_block>>>(initialValue, a, N);
  cudaDeviceSynchronize();

  // 检查元素值是否被初始化
  for (int i = 0; i < N; ++i) {
    if(a[i] != initialValue) {
      printf("FAILURE: target value: %d\t a[%d]: %d\n", initialValue, i, a[i]);
      exit(1);
    }
  }
  printf("SUCCESS!\n");

  cudaFree(a);
}

将上述代码命名为mismatched-config-loop.cu，然后编译运行：

nvcc mismatched-config-loop.cu -o mismatched-config-loop
./mismatched-config-loop

输出：

5.2. 网格小于工作量

有时，工作量比网格大，或者出于某种原因，一个网格中的线程数量可能会小于实际工作量的大小。请思考一下包含 1000 个元素的数组和包含 250 个线程的网格（此处使用极小的规模以便于说明）。此网格中的每个线程将需使用 4 次。如要实现此操作，一种常用方法便是在核函数中使用跨网格循环。

在跨网格循环中，每个线程将在网格内使用 threadIdx + blockIdx*blockDim 计算自身唯一的索引，并对数组内该索引的元素执行相应运算，然后用网格中的线程数加上自身索引值，并重复此操作，直至超出数组范围。

例如，对于包含 500 个元素的数组 a 和包含 250 个线程的网格，网格中索引为 20 的线程将执行如下操作：

对 a[20] 执行相应运算；
将线程索引增加 250，使网格的大小达到 270
对a[270] 执行相应运算；
将线程索引增加 250，使网格的大小达到 520
由于 520 现已超出数组范围，因此线程将停止工作。

CUDA 提供一个记录了网格中线程块数的变量：gridDim.x。然后可以利用它来计算网格中的总线程数，即网格中的线程块数乘以每个线程块中的线程数：gridDim.x * blockDim.x。现在来看看以下核函数中网格跨度循环的示例：

__global void kernel(int *a, int N)
{
  int indexWithinTheGrid = threadIdx.x + blockIdx.x * blockDim.x;
  int gridStride = gridDim.x * blockDim.x; // grid 的一个跨步

  for (int i = indexWithinTheGrid; i < N; i += gridStride) {
    // 对 a[i] 的操作;
  }
}

上面是一个简单的例子，现在我们来看看一个更详细的例子，使用了跨网格循环来处理比网格更大的数组：

#include 

// 初始化数组a
void init(int *a, int N) {
  int i;
  for (i = 0; i < N; ++i) {
    a[i] = i;
  }
}

__global__ void doubleElements(int *a, int N) {

  // 使用grid-stride循环，这样每个线程可以处理数组中的多个元素。
  int idx = blockIdx.x * blockDim.x + threadIdx.x;
  int stride = gridDim.x * blockDim.x; // grid 的一个跨步

  for (int i = idx; i < N; i += stride) {
    a[i] *= 2;
  }
}

// 检查数组内所有元素的值是否均为复数
bool checkElementsAreDoubled(int *a, int N) {
  int i;
  for (i = 0; i < N; ++i) {
    if (a[i] != i*2) return false;
  }
  return true;
}

int main() {
  int N = 10000;
  int *a;
  size_t size = N * sizeof(int);
  cudaMallocManaged(&a, size);

  init(a, N); // 初始化数组a

  size_t threads_per_block = 256; // 每个block的thread数量
  size_t number_of_blocks = 32; // block数量

  doubleElements<<<number_of_blocks, threads_per_block>>>(a, N);
  cudaDeviceSynchronize();

  bool areDoubled = checkElementsAreDoubled(a, N); 
// 检查数组内所有元素的值是否均为复数
  printf("All elements were doubled? %s\n", areDoubled ? "TRUE" : "FALSE");

  cudaFree(a);
}

将上述代码命名为grid-stride-double.cu，然后编译运行：

nvcc grid-stride-double.cu -o grid-stride-double
./grid-stride-double

输出：

6. 错误处理

CUDA 函数发生错误时会返回一个类型为 cudaError_t 的变量，该变量可用于检查调用函数时是否发生错误。以下是对调用 cudaMallocManaged 函数执行错误处理的示例：

cudaError_t err;
err = cudaMallocManaged(&a, N)                    // 假设a和N已经被定义

if (err != cudaSuccess) { // `cudaSuccess` 是一个 CUDA 变量.
  printf("Error: %s\n", cudaGetErrorString(err)); // `cudaGetErrorString` 是一个 CUDA 函数.
}

但是，核函数并不会返回类型为 cudaError_t 的值（因为核函数的返回值为void）。为检查执行核函数时是否发生错误（例如配置错误），CUDA 提供了 cudaGetLastError 函数，可以用于检查核函数执行期间发生的错误。

// 这段程序中的核函数会出一个CUDA错误，但是核函数本身无法捕获该错误
someKernel<<<1, -1>>>();  // 线程数不能为-1

cudaError_t err;
err = cudaGetLastError(); // `cudaGetLastError` 会捕获上面代码中的最近的一个错误
if (err != cudaSuccess) {
  printf("Error: %s\n", cudaGetErrorString(err));
}

另一个要注意的点是，为了捕捉在异步核函数执行期间发生的错误，一定要检查后续同步 CPU 与 GPU 时 API 调用所返回的状态（例如 cudaDeviceSynchronize）；如果之前执行的某一个核函数失败了，则将会返回错误。

添加错误处理的示例：

#include 

// 初始化数组a
void init(int *a, int N) {
  int i;
  for (i = 0; i < N; ++i) {
    a[i] = i;
  }
}

// CUDA 核函数 数组元素值乘2
__global__ void doubleElements(int *a, int N) {
  int idx = blockIdx.x * blockDim.x + threadIdx.x;
  int stride = gridDim.x * blockDim.x;

  // for (int i = idx; i < N; i += stride) {
  // 这里出现一个数值越界错误
  for (int i = idx; i < N + stride; i += stride) {
    a[i] *= 2;
  }
}

// 检查数组元素是否均为复数
bool checkElementsAreDoubled(int *a, int N) {
  int i;
  for (i = 0; i < N; ++i) {
    if (a[i] != i*2) return false;
  }
  return true;
}

int main() {
  int N = 10000;
  int *a;

  size_t size = N * sizeof(int);
  cudaMallocManaged(&a, size);
  init(a, N);

  cudaError_t syncErr, asyncErr; // 定义错误处理变量
  
  // size_t threads_per_block = 1024;
  // 线程数大于1024（前面说过每个block的线程数不能超过1024）
  size_t threads_per_block = 2048;
  size_t number_of_blocks = 32;
  doubleElements<<<number_of_blocks, threads_per_block>>>(a, N); // 执行核函数

  syncErr = cudaGetLastError(); // 捕获核函数执行期间发生的错误
  asyncErr = cudaDeviceSynchronize(); // 同步，并捕获同步期间发生的错误

  // 输出错误 说明：两个错误需分别设置（即每次运行时只保留一个错误）
  if (syncErr != cudaSuccess) printf("Error: %s\n", cudaGetErrorString(syncErr));
  if (asyncErr != cudaSuccess) printf("Error: %s\n", cudaGetErrorString(asyncErr));

  bool areDoubled = checkElementsAreDoubled(a, N); // 验证数组元素值是否均为复数
  printf("All elements were doubled? %s\n", areDoubled ? "TRUE" : "FALSE");

  cudaFree(a);
}

将上述代码命名为add-error-handling.cu，然后编译运行：

nvcc add-error-handling.cu -o add-error-handling
./add-error-handling

输出：

6.1. 定制一个 CUDA 错误处理宏

创建一个包装 CUDA 函数调用的宏对于检查错误十分有用。以下是一个宏示例，我们可以在其他的 CUDA 代码中随时使用：

#include 
#include 

// CUDA 错误处理宏
inline cudaError_t checkCuda(cudaError_t result)
{
  if (result != cudaSuccess) {
    fprintf(stderr, "CUDA Runtime Error: %s\n", cudaGetErrorString(result));
    assert(result == cudaSuccess);
  }
  return result;
}

int main() {
  // checkCuda 宏可以返回 CUDA 函数返回的错误类型`cudaError_t`的值
  checkCuda( cudaDeviceSynchronize() )
}

7. 总结

至此，我们已经完成了我们预期的学习目标：

编写、编译及运行既可调用 CPU 函数也可启动GPU核函数的 C/C++ 程序。
使用执行配置控制并行线程层次结构。
重构串行循环以在 GPU 上并行执行其迭代。
分配和释放可用于 CPU 和 GPU 的内存。
处理 CUDA 代码生成的错误。

现在，加速 CPU 应用程序进行是可行的了。

7.1 用 CUDA 实现向量加法

为了展示一下如何综合运用本篇教程提到的内容，我们通过一个向量与向量加分的案例来串用以上知识：

#include 
#include 

// CUDA 错误处理宏
inline cudaError_t checkCuda(cudaError_t result)
{
  if (result != cudaSuccess) {
    fprintf(stderr, "CUDA Runtime Error: %s\n", cudaGetErrorString(result));
    assert(result == cudaSuccess);
  }
  return result;
}

// 初始化数组 a
void initWith(float num, float *a, int N) {
  for(int i = 0; i < N; ++i) {
    a[i] = num;
  }
}

// 向量加法核函数
__global__ void addVectorsInto(float *result, float *a, float *b, int N) {
  int index = threadIdx.x + blockIdx.x * blockDim.x;
  int stride = blockDim.x * gridDim.x;

  for(int i = index; i < N; i += stride) {
    result[i] = a[i] + b[i]; // 元素a[i] + 元素 b[i]
  }
}

// 检查 CUDA 向量加分是否计算正确
void checkElementsAre(float target, float *array, int N) {
  for(int i = 0; i < N; i++) {
    if(array[i] != target) {
      printf("FAIL: array[%d] - %0.0f does not equal %0.0f\n", i, array[i], target);
      exit(1);
    }
  }
  printf("SUCCESS! All values added correctly.\n");
}

int main() {
  const int N = 10;
  size_t size = N * sizeof(float);

  float *a;
  float *b;
  float *c;

  // 分配内存，且检查执行期间发生的错误
  checkCuda( cudaMallocManaged(&a, size) );
  checkCuda( cudaMallocManaged(&b, size) );
  checkCuda( cudaMallocManaged(&c, size) );

  initWith(3, a, N); // 将数组a中所有的元素初始化为3
  initWith(4, b, N); // 将数组b中所有的元素初始化为4
  initWith(0, c, N); // 将数组c中所有的元素初始化为0，数组c是结果向量

  // 配置参数
  size_t threadsPerBlock = 256;
  size_t numberOfBlocks = (N + threadsPerBlock - 1) / threadsPerBlock;
  addVectorsInto<<<numberOfBlocks, threadsPerBlock>>>(c, a, b, N); // 执行核函数

  checkCuda( cudaGetLastError() ); // 检查核函数执行期间发生的错误
  checkCuda( cudaDeviceSynchronize() ); // 同步，且检查执行期间发生的错误

  checkElementsAre(7, c, N);  // 检查向量加的结果是否正确

  // 释放内存，且检查执行期间发生的错误
  checkCuda( cudaFree(a) );
  checkCuda( cudaFree(b) );
  checkCuda( cudaFree(c) );
}

7.2. 二维和三维的网格和块

网格和线程块最多可以定义有 3 个维度，使用多个维度定义网格和线程块在处理具有多个维度的数据时可能很有效，例如二维矩阵。如果要定义二维或三维的网格或线程块，可以使用 CUDA 的 dim3 关键字来定义多维网格或块，即如下所示：

dim3 threads_per_block(16, 16, 1);
dim3 number_of_blocks(16, 16, 1);
someKernel<<<number_of_blocks, threads_per_block>>>();

鉴于以上示例，someKernel 内部的变量 gridDim.x、gridDim.y、blockDim.x 和 blockDim.y 均将等于 16。

7.3 用 CUDA 实现矩阵乘法

#include 
#define N  64

// GPU 矩阵乘法
__global__ void matrixMulGPU( int * a, int * b, int * c ) {
  int val = 0;

  int row = blockIdx.x * blockDim.x + threadIdx.x;
  int col = blockIdx.y * blockDim.y + threadIdx.y;

  if (row < N && col < N) {
    for ( int k = 0; k < N; ++k )
      val += a[row * N + k] * b[k * N + col];
    c[row * N + col] = val;
  }
}

// CPU矩阵乘法
void matrixMulCPU( int * a, int * b, int * c ) {
  int val = 0;

  for( int row = 0; row < N; ++row )
    for( int col = 0; col < N; ++col ) {
      val = 0;
      for ( int k = 0; k < N; ++k )
        val += a[row * N + k] * b[k * N + col];
      c[row * N + col] = val;
    }
}

int main() {
  int *a, *b, *c_cpu, *c_gpu;
  int size = N * N * sizeof (int); // Number of bytes of an N x N matrix

  // 分配内存
  cudaMallocManaged (&a, size);
  cudaMallocManaged (&b, size);
  cudaMallocManaged (&c_cpu, size);
  cudaMallocManaged (&c_gpu, size);

  // 初始化数组
  for( int row = 0; row < N; ++row )
    for( int col = 0; col < N; ++col )
    {
      a[row * N + col] = row;
      b[row * N + col] = col + 2;
      c_cpu[row * N + col] = 0;
      c_gpu[row * N + col] = 0;
    }

  dim3 threads_per_block (16, 16, 1); // 一个 16 * 16 的线程阵
  dim3 number_of_blocks ((N / threads_per_block.x) + 1, (N / threads_per_block.y) + 1, 1);
  matrixMulGPU <<< number_of_blocks, threads_per_block >>> ( a, b, c_gpu ); // 执行核函数

  cudaDeviceSynchronize(); // 同步

  matrixMulCPU( a, b, c_cpu ); // 执行 CPU 版本的矩阵乘法

  // 比较 CPU 和 GPU 两种方法的计算结果是否一致
  bool error = false;
  for( int row = 0; row < N && !error; ++row )
    for( int col = 0; col < N && !error; ++col )
      if (c_cpu[row * N + col] != c_gpu[row * N + col]) {
        printf("FOUND ERROR at c[%d][%d]\n", row, col);
        error = true;
        break;
      }
  if (!error)
    printf("Success!\n");

  // 释放内存
  cudaFree(a); cudaFree(b);
  cudaFree( c_cpu ); cudaFree( c_gpu );
}

你可能感兴趣的:(并行与分布式,c语言,c++,cuda,gpu,加速)

STM32 —— 嵌入式系统、通用计算机系统、物联网三层架构 Exhausted、 stm32 单片机 stm32 嵌入式硬件物联网架构
目录一、嵌入式系统的概念二、通用计算机系统与嵌入式系统的比较用途硬件软件性能与功耗开发与维护三、嵌入式系统与物联网的关系四、物联网的三层架构1.感知层（PerceptionLayer）2.网络层（NetworkLayer）3.应用层（ApplicationLayer）三层架构的协作流程一、嵌入式系统的概念嵌入式系统一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及应用程序等4部分组成，并且分为
C++编程：从入门到精通的指南 zifeng0015 c++java jvm
本文将引导读者走进C++编程的世界，从基础知识讲起，逐步深入到高级特性。无论你是编程新手还是希望提升C++技能的开发者，本文都将为你提供有价值的指导和建议。正文：一、C++简介C++是一种面向对象的编程语言，由BjarneStroustrup于1985年开发。它结合了C语言的低级特性和面向对象编程的高级特性，因此既适合进行系统级编程，也适合进行大型应用软件开发。二、C++基础变量和数据类型：C++
Adobe Lightroom Classic（简称LRC）图像编辑和管理软件下载安装与使用 xczrFDG adobe
AdobeLightroomClassic（LRC）软件简介AdobeLightroomClassic（简称LRC）是一款强大的图像编辑和管理软件，专为摄影师和图像处理爱好者设计。LRC不仅提供了一系列的编辑工具，还集成了强大的照片管理和组织功能，使用户能够高效地处理和发布摄影作品。该软件是AdobeCreativeCloud的一部分，适用于各类用户，无论是业余爱好者还是专业摄影师。安装包http
SpringBoot测试：@SpringBootTest与MockMvc的实战应用程序媛学姐 Spring 全家桶 Java spring boot 后端 java
文章目录引言一、SpringBoot测试基础1.1测试环境配置1.2测试目录结构二、@SpringBootTest注解详解2.1基本用法与配置选项2.2不同WebEnvironment模式的应用场景三、MockMvc实战应用3.1MockMvc基本使用方法3.2高级请求构建和响应验证四、模拟服务层与依赖4.1使用@MockBean模拟服务4.2测试异常处理和边界情况五、测试最佳实践5.1测试数据准
暗链威胁与检测方法之Screaming Frog SEO Spider qq_39541626 黑帽研究 windows
尖叫青蛙，网站暗链检测方法网站暗链是指那些隐藏在网页上，对普通用户不可见或难以察觉的超链接。这些链接可能被故意设置为与背景颜色相同、使用极小的字体、或通过CSS技巧使其隐藏，从而在视觉上对用户隐藏。暗链通常用于不良的SEO实践，如操纵搜索引擎排名，或链接到恶意网站。这种做法可能导致网站在搜索引擎中被降级或罚款，损害网站的可信度和用户体验为了解决网站暗链，一次性筛选所有暗链买了一个软件Screami
深入理解 C++11 多线程编程：从入门到实践小河cpp c++开发语言
C++多线程编程是指使用C++提供的多线程库来并行执行代码块，从而提高程序的性能和响应能力。C++11标准引入了多线程支持，使得在C++中进行多线程编程变得更加容易和直观。以下是C++多线程编程的基本知识，并附有例子代码。多线程的基本概念线程（Thread）：线程是进程中的一个执行单元，每个线程有自己的堆栈，但与其他线程共享程序的全局内存。竞争条件（RaceCondition）：多个线程并发访问同
鸿蒙保姆级教学冬冬小圆帽 harmonyos 华为
鸿蒙（HarmonyOS）是华为推出的一款面向全场景的分布式操作系统，支持手机、平板、智能穿戴、智能家居、车载设备等多种设备。鸿蒙系统的核心特点是分布式架构、一次开发多端部署和高性能。以下是从入门到大神级别的鸿蒙开发深度分析，结合代码示例，帮助你逐步掌握鸿蒙开发。1.鸿蒙开发入门1.1环境搭建鸿蒙编译器安装运行教程安装DevEcoStudio：下载并安装DevEcoStudio，这是鸿蒙官方提供的
3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
使用CPLEX进行C++优化建模：从入门到精通 m0_57781768 c++java 开发语言
使用CPLEX进行C++优化建模：从入门到精通前言CPLEX是IBM开发的一款强大的数学编程求解器，广泛应用于线性规划（LP）、混合整数规划（MIP）和约束规划（CP）等领域。它具有高效的求解能力和灵活的建模功能，是优化领域的重要工具之一。本文将详细介绍如何在C++中使用CPLEX进行优化建模，从基本概念到高级应用，结合具体实例展示其强大功能。通过这篇文章，读者将能够深入理解CPLEX的使用方法，
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
Chapter 8: Advanced Template Metaprogramming in C++__《C++ Templates》notes 郭涤生 c/c++c++算法开发语言笔记
AdvancedTemplateMetaprogramminginC++1.KeyConcepts&CodeExplanations1.1SFINAE(SubstitutionFailureIsNotAnError)1.2`constexpr`andCompile-TimeComputation1.3TypeTraits1.4VariadicTemplateswithRecursion1.5C++
巨人学术搜索官网入口，免费参考文献论文及学术搜索引擎黄豆匿zlib 学习方法
巨人学术搜索自2024年上线以来，迅速成为学术界不可或缺的重要工具，尤其受到研究人员、教师及学生的青睐。这款专注于学术领域的专业搜索引擎，覆盖了自然科学、人文科学、社会科学等多个学科领域，整合了国内外众多主流数据库，包括维普、万方、Elsevier、WebofScience等，为用户提供了期刊论文、学位论文、专利、图书、预印本等多种类型资源的精准检索服务。与普通搜索引擎相比，巨人学术搜索的优势在于
分布式事务解决方案：Seata原理详解与实战教程 Cloud_. 分布式 wpf seata
一、为什么需要Seata？在微服务架构中，跨服务的事务管理成为核心痛点：传统事务失效：服务拆分导致无法使用本地事务数据不一致风险：网络抖动、服务宕机等情况导致数据错乱复杂场景处理难：涉及多个数据库、消息队列等异构存储Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，提供AT模式、TCC模式、Saga模式三
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
【新能源集成热管理系统的开发与优化】新能源汽车--三电老K 研发测试汽车学习方法
新能源集成热管理系统的开发与优化涉及多阶段的试验、标定和策略调整，需结合实验室仿真、环境仓测试及实车道路验证，以应对高低温、极端气候等复杂工况。以下是具体实施方法：一、环境仓试验室测试系统标定与基础验证模型搭建：通过AMESim等仿真工具建立机-电-热耦合模型，涵盖电池、电机、空调等子系统，分析高温工况下各部件能耗占比及整车续航表现。参数标定：在环境仓中模拟极端温度（如38℃高温或-30℃低温），
【C#】Task.Delay与Thread.Sleep 我不是程序猿儿 C#c#开发语言
Task.Delay和Thread.Sleep都是用来使程序暂停一段时间，但它们有一些关键的区别，特别是在多线程和异步编程的上下文中。1.Thread.Sleep：阻塞当前线程Thread.Sleep是同步操作，它会让当前线程暂停执行，直到指定的时间过去。它会阻塞当前线程，导致线程无法继续执行任何代码，直到休眠时间结束。这意味着如果你在UI线程中使用Thread.Sleep，会导致UI卡顿，用户无
c#:使用串口通讯实现数据的发送和接收妮妮学代码 c#串口通讯 c#开发语言
串口通讯（SerialCommunication）是一种常见的硬件设备与计算机之间的数据传输方式，广泛应用于工业控制、嵌入式系统、传感器数据采集等领域。本文将详细介绍如何使用C#实现基于串口通讯的数据发送和接收，并结合代码示例解析其实现过程。1.概述串口通讯的核心是System.IO.Ports.SerialPort类，它封装了串口操作的底层细节，提供了简单易用的接口。以下是串口通讯的基本流程：1
C#：使用UDP协议实现数据的发送和接收妮妮学代码 c#UDP c#udp
UDP（UserDatagramProtocol）是一种无连接的、轻量级的传输协议，适用于对实时性要求较高的应用场景，如视频流、在线游戏等。与TCP不同，UDP不保证数据的可靠传输，但其传输效率更高。本文将详细介绍如何使用C#实现基于UDP协议的数据发送和接收，并结合代码示例解析其实现过程。1.概述UDP通讯的核心是UdpClient类，它封装了UDP协议的底层操作，提供了简单易用的接口。以下是U
什么是联盟营销？2025新手怎么入局联盟营销？跨境知识搬运工 facebook 大数据
联盟营销为商家和营销人员提供了一个低成本、高效益的合作平台，同时也让消费者能够享受更多的优惠和产品推荐。那么，什么是联盟营销？如何入局联盟营销，尤其是对于新手来说，又该如何开始这项业务？本文将详细介绍这些问题，并帮助你了解如何顺利入局联盟营销。一、什么是联盟营销？联盟营销是一种基于成果的合作营销模式。在这种模式下，商家与联盟营销者（即“推广者”或“发布者”）合作，推广其产品或服务。联盟营销者通过推
什么是联盟营销？2025新手怎么入局联盟营销？纯干苹果派人工智能大数据
联盟营销为商家和营销人员提供了一个低成本、高效益的合作平台，同时也让消费者能够享受更多的优惠和产品推荐。那么，什么是联盟营销？如何入局联盟营销，尤其是对于新手来说，又该如何开始这项业务？本文将详细介绍这些问题，并帮助你了解如何顺利入局联盟营销。一、什么是联盟营销？联盟营销是一种基于成果的合作营销模式。在这种模式下，商家与联盟营销者（即“推广者”或“发布者”）合作，推广其产品或服务。联盟营销者通过推
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
STM32 SPI总线驱动CH376T实现U盘/TF卡读写全解析—SPI通信、命令集与文件操作（下） | 零基础入门STM32第七十五步触角01010001 STM32入门教程（100步）stm32 驱动开发单片机嵌入式硬件物联网
主题内容教学目的/扩展视频CH376芯片重点课程电路原理，跳线设置，切换U盘和TF卡。手册分析。驱动程序。调用常用函数。会调用现有函数操作U盘即可。师从洋桃电子，杜洋老师文章目录1.引言2.硬件连接3.驱动程序分析3.1SPI通信机制4.CH376命令集详解4.1常用命令表4.2命令使用示例5.初始化程序解析6.数据读写函数实现6.1写数据到文件6.2从文件读取数据7.应用示例：U盘状态检测8.扩
固态电池行业深度研究报告：技术变革与市场展望萧十一郎@ 知识科普大数据人工智能
目录一、引言1.1研究背景与目的1.2研究方法与数据来源二、固态电池概述2.1定义与分类2.1.1定义2.1.2分类2.2工作原理2.3发展历程三、固态电池技术优势与挑战3.1技术优势3.1.1高安全性3.1.2高能量密度3.1.3长循环寿命3.2技术挑战3.2.1离子电导率低3.2.2固-固界面问题3.2.3锂枝晶生长3.2.4成本高昂四、固态电池材料体系与技术路线4.1固态电解质材料4.1.1
编译时报错“LNK2019 无法解析的外部符号”的可能原因及其解决办法烟锁池塘柳0 程序设计与编程语言 c++
在VS2022中运行C++程序的时候，有时候会遇到这样的问题：1>（源文件名称）.obj:errorLNK2019:无法解析的外部符号"public:__cdecl（函数名(参数列表)）"(??0（函数名与乱码）@@QEAA@XZ)，函数main中引用了该符号1>项目路径\x64\Debug\可执行程序名.exe:fatalerrorLNK1120:1个无法解析的外部命令遇到这种问题，可以说是很难
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
查看 Linux 系统中安装的 CUDA 版本烟锁池塘柳0 Linux CUDA linux ubuntu
查看Linux系统中安装的CUDA版本的常见方法：文章目录1查看/usr/local/cuda目录2使用nvcc命令3检查libcublas版本注意：nvidia-smi1查看/usr/local/cuda目录通常，CUDA被安装在/usr/local/cuda目录下，所以可以使用ls命令来查看这个目录是否存在，以及查看其中的内容。ls/usr/local/cuda如果这个目录存在，通常它会是一个
【网易雷火秋招】前端面经分享编程自学-领绿学长前端求职招聘面试
网易网易雷火是国内一流且最有创新力的游戏研发团队，是网易杭州的第一个游戏工作室。雷火开创性的打造了《逆水寒》、《永劫无间》、《倩女幽魂》、《全明星街球派对》等一众爆款游戏；并在二次元、FPS、主机游戏等方向上持续探索，《代号：无限大》等在研项目收到玩家广泛关注。与此同时，我们与全球合作伙伴一起共同构建开放、协同、共荣共生的产业生态，致力于让中国游戏走出去，让世界听见雷火声音。雷火还拥有国内专业从事
优化Redis AOF重写配置：解决AOF文件过大的终极指南冯·诺依曼的 redis 数据库缓存云计算
核心配置参数解析与优化以下配置参数位于Redis配置文件/etc/redis.conf中，用于控制AOF持久化与重写行为。通过合理调整这些参数，可显著减少AOF文件体积并提升性能。1.appendfsync：AOF文件同步策略默认值：everysec修改建议：appendfsyncno作用：控制AOF日志同步到磁盘的频率。everysec（默认）：每秒同步一次，平衡性能与数据安全。no：由操作系统
深入解析：C# 中 `Task.Delay` 与 `Thread.Sleep` 的对比与实战墨夶 C#学习资料1 c#开发语言
嘿，小伙伴们！今天我们要一起深入探讨C#中的Task.Delay和Thread.Sleep。想象一下，你正在开发一个需要处理异步操作的应用程序，如何有效地管理线程和延迟执行任务呢？别急，让我们通过这篇文章来详细解析Task.Delay和Thread.Sleep的区别，并涵盖以下内容：基本概念Thread.Sleep的用法Task.Delay的用法对比分析实战示例注意事项与最佳实践常见面试题及答案正
详解Springboot的启动流程凭君语未可面试 spring boot 后端 java
在Redis中实现分布式锁1.主入口与SpringApplication.run()2.准备阶段3.创建应用上下文（ApplicationContext）4.Bean定义加载与上下文刷新5.EmbeddedWebServer的启动（针对Web应用）6.ApplicationRunner和CommandLineRunner执行7.应用启动完成总结1.主入口与SpringApplication.run
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交