#include "cuda_runtime.h" //使用 runtime API

#include "device_launch_parameters.h"

#include <stdio.h>

cudaError_t addWithCuda(int *c, const int *a, const int *b, size_t size);

// 显示芯片上执行的程序。在 CUDA 中,在函式前面加上

// __global__ 表示这个函式是要在显示芯片上执行的。

// 在显示芯片上执行的程序有一些限制,例如它不能有传回值。

// 接下来是要让 CUDA 执行这个函式。

__global__ void addKernel(int *c, const int *a, const int *b)


// threadIdx  是 CUDA 的一个内部的变量,表示目前的 thread 是

//第几个 thread(由 0 开始计算)这边会有 size =5 个 threads

//每一个的 threadIdx.x  则分别会是 0 ~ 5。利用这个变量,我们


int i = threadIdx.x;

c[i] = a[i] + b[i];


int main()


const int arraySize = 5;

const int a[arraySize] = { 1, 2, 3, 4, 5 };

const int b[arraySize] = { 10, 20, 30, 40, 50 };

int c[arraySize] = { 0 };

// Add vectors in parallel.

cudaError_t cudaStatus = addWithCuda(c, a, b, arraySize);

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "addWithCuda failed!");

return 1;


printf("{1,2,3,4,5} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n",

c[0], c[1], c[2], c[3], c[4]);

// cudaDeviceReset must be called before exiting in order for profiling and

// tracing tools such as Nsight and Visual Profiler to show complete traces.

cudaStatus = cudaDeviceReset();

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaDeviceReset failed!");

return 1;


return 0;


// Helper function for using CUDA to add vectors in parallel.

cudaError_t addWithCuda(int *c, const int *a, const int *b, size_t size)


int *dev_a = 0;

int *dev_b = 0;

int *dev_c = 0;

cudaError_t cudaStatus;

// Choose which GPU to run on, change this on a multi-GPU system.

// 选择哪个GPU去运行,这个在多GPU系统上修改。

cudaStatus = cudaSetDevice(0);

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaSetDevice failed!  Do you have a CUDA-capable GPU installed?");

goto Error;


// Allocate GPU buffers for three vectors (two input, one output)

// 给三个向量(两个输入,一个输出)分配GPU缓存.

// 要利用 CUDA 进行计算之前,要先把数据复制到显卡内存中,// 才能让显示芯片使用。因此,

// 需要取得一块适当大小的显卡内存,再把产生好的数据复制进去

cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int));

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaMalloc failed!");

goto Error;


cudaStatus = cudaMalloc((void**)&dev_a, size * sizeof(int));

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaMalloc failed!");

goto Error;


cudaStatus = cudaMalloc((void**)&dev_b, size * sizeof(int));

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaMalloc failed!");

goto Error;


// Copy input vectors from host memory to GPU buffers.

// 复制输入向量从主存到显卡内存。

// 通过调用cudaMalloc 取得一块显卡内存,然后通过过

// cudaMemcpy 将上述两个数组复制到显卡内存中.

// cudaMalloc 和 cudaMemcpy 的用法和一般的 malloc 及

// memcpy 类似,不过 cudaMemcpy 则多出一个参数,指示复制内// 存的方向。在这里因为是从主内存复制到显卡内存,所以使用

// cudaMemcpyHostToDevice。如果是从显卡内存到主内存,则使用 // cudaMemcpyDeviceToHost。

cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice);

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaMemcpy failed!");

goto Error;


cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice);

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaMemcpy failed!");

goto Error;


// Launch a kernel on the GPU with one thread for each element.

// 函式名称<<<block 数目, thread 数目, shared memory 大小

// >>>(参数...); 

//在 CUDA 中,thread 是可以分组的,也就是 block。一个 block 中//的 thread,具有一个共享的 shared memory,也可以进行同步工作。//不同 block 之间的 thread 则不行。在我们的程序中,其实不太需//要进行 thread 的同步动作,因此我们可以使用多个 block 来进一//步增加 thread 的数目。就是把这个1改变

addKernel<<<1, size>>>(dev_c, dev_a, dev_b);

// cudaDeviceSynchronize waits for the kernel to finish, and returns

// any errors encountered during the launch.

cudaStatus = cudaDeviceSynchronize();

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaDeviceSynchronize returned error code %d after launching addKernel!\n", cudaStatus);

goto Error;


// Copy output vector from GPU buffer to host memory.

cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);

if (cudaStatus != cudaSuccess) {

fprintf(stderr, "cudaMemcpy failed!");

goto Error;






return cudaStatus;



#include "cuda_util.h"



#include <helper_functions.h>

#include <helper_cuda.h>

