这两天想看看GPU编程的东西,可是资料太稀少了,NVIDIA公司出的那个倒霉文档根本没法入门。现在算是东拉西扯的找到了一些资料,入了点门。先写点笔记吧,等有时间了,写个完整的pdf出来,和大家共享。
1 硬件架构
CUDA编程中,习惯称CPU为Host,GPU为Device。
2 并行模型
Thread:并行基本单位
Block:相互合作的一组线程。可以彼此同步,快速交换数据,最多可以512个线程
Grid:一组Block,有共享全局内存
Kernel:在GPU上执行的程序,一个Kernel对应一个Grid
Block和Thread都有各自的ID,记作blockIdx(1D,2D),threadIdx(1D,2D,3D)
Block和Thread还有Dim,即blockDim与threadDim. 他们都有三个分量x,y,z
线程同步:void __syncthreads(); 可以同步一个Block内的所有线程
3 存储层次
per-thread register 1 cycle
per-thread local memory slow
per-block shared memory 1 cycle
per-grid global memory 500 cycle,not cached!!
constant and texture memories 500 cycle, but cached and read-only
分配内存:cudaMalloc,cudaFree,它们分配的是global memory
Hose-Device数据交换:cudaMemcpy
4 变量类型
__device__:GPU的global memory空间,grid中所有线程可访问
__constant__:GPU的constant memory空间,grid中所有线程可访问
__shared__:GPU上的thread block空间,block中所有线程可访问
local:位于SM内,仅本thread可访问
在编程中,可以在变量名前面加上这些前缀以区分。
5 数据类型
内建矢量:int1,int2,int3,int4,float1,float2, float3,float4 ...
纹理类型:texture
内建dim3类型:定义grid和block的组织方法。
例如:
dim3 dimGrid(2, 2);
dim3 dimBlock(4, 2, 2);
kernelFoo<<
6 CUDA函数定义
__device__:执行于Device,仅能从Device调用。
限制:不能用&取地址;不支持递归;不支持static variable;不支持可变长度参数
__global__ void: 执行于Device,仅能从Host调用。此类函数必须返回void
__host__:执行于Host,仅能从Host调用
在执行kernel函数时,必须提供execution configuration,即<<<....>>>的部分。
例如:
__global__ void KernelFunc(...);
dim3 DimGrid(100, 50); // 5000 thread blocks
dim3 DimBlock(4, 8, 8); // 256 threads per block
size_t SharedMemBytes = 64; // 64 bytes of shared memory
KernelFunc<<< DimGrid, DimBlock, SharedMemBytes >>>(...);
7 CUDA包含一些数学函数,如sin,pow等。每一个函数包含有两个版本,例如正弦函数sin,一个普通版本sin,另一个不精确但速度极快的__sin版本。
8 内置变量
gridDim, blockIdx, blockDim, threadIdx, wrapsize. 这些内置变量不允许赋值的
9 编写程序
目前CUDA仅能良好的支持C,在编写含有CUDA代码的程序时,首先要导入头文件cuda_runtime_api.h。文件名后缀为.cu,使用nvcc编译器编译。本来想在这里给出些源码的,但是源码教程,以后单独开一个文章在说吧。