OpenCL是一个API,就是应用程序的编程接口,OpenCL和OpenGL很像,这种API可以调用API最底层的数据,通过程序开发调用各种各样的函数,实现各种各样的功能。
对于API来说一般它对硬件设备有比较完整的访问权,以访问硬件的设备,可以对内存进行管理,这是由开发人员通过编程来做的这些事情。最后OpenCL通过编译、通过驱动程序可以生成PTX代码在GPU上进行执行。
kernel是什么呢?可以当成是GPU设备上执行的程序函数,而且它是唯一的可被host调用的函数。
OpenCL代码执行大致过程为:host选择一些devices组成context。许许多多的
kernel一起组成program,然后host从program中选择一些kernel放入command queue。
每个device对应一个command queue。每个device处理执行其command queue中的kernel。之后,由host接收设备处理后的events,调用事件处理routines。一旦设备处理结束,host处理得到输出的最终结果。
//kernel文件为minna.cl
gclFile kernelFile;
if(!kernelFile.open("minna.cl")){
printf("Failed to load kernel file \n");
exit(0);
}
const char * source =kernelFile.source().c_str();
size_t sourceSize[] ={strlen(source)};
//存储编译好的kernel文件
char **binaries = (char **)malloc(sizeof(char *) * 1 );
size_t *binarySizes =(size_t*)malloc( sizeof(size_t) * 1 );
status = clGetProgramInfo(program,CL_PROGRAM_BINARY_SIZES,
sizeof(size_t) * 1,binarySizes, NULL);
binaries[0] = (char *)malloc(sizeof(char) * binarySizes[0]);
status = clGetProgramInfo(program,
CL_PROGRAM_BINARIES,
sizeof(char *) * 1,
binaries,
NULL);
kernelFile.writeBinaryToFile("vecadd.bin",binaries[0],binarySizes[0]);
//数据拷回host内存
cl_float *ptr;
clTimer.Reset();
clTimer.Start();
ptr = (cl_float *)clEnqueMapBuffer( queue,
buffer,
CL_TRUE,
CL_MAP_READ,
0,
BUFSIZE * sizeof(cl_float),
0, NULL, NULL, NULL );
clTimer.Stop();
printf("copy from device tohost:%.6f ms \n ", clTimer.GetElapsedTime()*1000 );
由以上示例可以看出kernel函数的限制说明如下:
√ 指针类型的kernel函数的参数必须用global, constant或者local修饰;
√ kernel函数的参数不能是指针的指针;
√ kernel函数的参数不能是一下的内建数据类型:bool, half, size_t, ptrdiff_t, intptr_t, uintptr_t或event_t;
√ kernel函数返回值必须是void。
在OpenCL中有工作项和工作组,有更深的层次program、command queue,在需要GPU的时候,调用kernel函数,更加灵活。