右手边的蓝天

AMD OpenCL大学课程(8):OpenCL buffer使用及两个简单例子

转载自：http://blog.sina.com.cn/s/blog_7e2e98ad0101bqhf.html

在本节，我们主要介绍OpenCL中buffer的使用，同时提供了2个完整的例子，一个是图像的旋转，一个是矩阵乘法（非常简单，没有分块优化）。

1、创建OpenCL设备缓冲(buffer)

OpenCL设备使用的数据都存放在设备的buffer中[其实就是device memory中]。我们用下面的代码创建buffer对象：

cl_mem bufferobj = clCreateBuffer ( 
cl_context context, //Context name
cl_mem_flags flags, //Memory flags
size_t size, //Memory size allocated in buffer
void *host_ptr, //Host data 
cl_int *errcode) //Returned error code

如果host_ptr指向一个有效的host指针，则创建一个buffer对象的同时会实现隐式的数据拷贝（会在kernel函数进入队列时候，把host_prt中的数据从host memory拷贝到设备内存对象bufferobj中)。

我们可以通过flags参数指定buffer对象的属性。

函数clEnqueueWriteBuffer()用来实现显示的数据拷贝，即把host memory中的数据拷贝到device meomory中。

cl_int clEnqueueWriteBuffer ( 
cl_command_queue queue, //Command queue to device
cl_mem buffer, //OpenCL Buffer Object
cl_bool blocking_read, //Blocking/Non-Blocking Flag
size_t offset, //Offset into buffer to write to
size_t cb, //Size of data
void *ptr, //Host pointer
cl_uint num_in_wait_list, //Number of events in wait list
const cl_event * event_wait_list, //Array of events to wait for
cl_event *event) //Event handler for this function

2、图像旋转的例子

下面是一个完整的OpenCL例子，实现图像的旋转。在这个例子中，我把美丽的lenna旋转了90度。

下面是原始图像和旋转后的图像（黑白）

在这个例子中，我使用FreeImage库，可以从FreeImage网站或者我的code工程中下载。

http://code.google.com/p/imagefilter-opencl/downloads/detail?name=Dist.rar&can=2&q=#makechanges

图像旋转是指把定义的图像绕某一点以逆时针或顺时针方向旋转一定的角度，通常是指绕图像的中心以逆时针方向旋转。

假设图像的左上角为（left, top),右下角为（right, bottom)，则图像上任意点（x0, y0）绕其中心（xcenter, ycenter)逆时针旋转angle角度后，新的坐标位置（x′, y′）的计算公式为：

xcenter = (right － left ＋ 1) ／ 2 ＋ left; ;

ycenter = (bottom － top ＋ 1) ／ 2 ＋ top;

x′ = (x0 － xcenter) cosθ － (y0 － ycenter) sinθ ＋ xcenter;

y′ = (x0 － xcenter) sinθ ＋ (y0 － ycenter) cosθ ＋ ycenter

下面给出kernel的代码：

1: __kernel void image_rotate( __global uchar * src_data, __global uchar * dest_data, //Data in global memory

2: int W, int H, //Image Dimensions

3: float sinTheta, float cosTheta ) //Rotation Parameters

4: {

5: //Thread gets its index within index space

6: const int ix = get_global_id(0);

7: const int iy = get_global_id(1);

8:

9: int xc = W/2;

10: int yc = H/2;

11:

12: int xpos = ( ix-xc)*cosTheta - (iy-yc)*sinTheta+xc;

13: int ypos = (ix-xc)*sinTheta + ( iy-yc)*cosTheta+yc;

14:

15: if ((xpos>=0) && (xpos< W) && (ypos>=0) && (ypos< H)) //Bound Checking

16: {

17: dest_data[ypos*W+xpos]= src_data[iy*W+ix];

18: }

19: }

20:

src_data为原始图像（灰度图）数据，dest_data为旋转后的图像数据。W、H分别为图像的高度和宽度。sinTheta和cosTheta是旋转参数。我在代码中实现了旋转90度，所以sinTheta为1，cosTheta为0，大家可以尝试其它的值。

下面是程序的流程图：

在前面向量加法的例子中，我已经介绍了OpenCL一些基本的步骤。

创建platform对象
创建GPU设备
创建contex
创建命令队列

创建缓冲对象，代码如下：

1: cl_mem d_ip = clCreateBuffer(

2: context, CL_MEM_READ_ONLY,

3: mem_size,

4: NULL, NULL);

5: l_mem d_op = clCreateBuffer(

6: context, CL_MEM_WRITE_ONLY,

7: mem_size,

8: NULL, NULL);

9: status = clEnqueueWriteBuffer (

10: queue , d_ip, CL_TRUE,

11: 0, mem_size, (void *)src_image,

12: 0, NULL, NULL);

创建程序对象
编译程序对象
创建Kernel对象
设置kernel参数
执行kernel
数据拷贝回host memory，我采用映射memory的方式。

1: unsigned char *op_data=0;

2: //op_data =(unsigned char *)malloc(mem_size);

3: status = clEnqueueReadBuffer(

4: //queue, d_op,

5: //CL_TRUE, //Blocking Read Back

6: //0, mem_size,(void*)op_data, NULL, NULL, NULL);

7: op_data = (cl_uchar *) clEnqueueMapBuffer( queue,

8: d_op,

9: CL_TRUE,

10: CL_MAP_READ,

11: 0,

12: mem_size,

13: 0, NULL, NULL, NULL );

kernel执行时间的计算后面教程会有详细介绍，但在本节中，我们会给出通过事件机制来得到kernel执行时间，首先要在创建队列时候，使用CL_QUEUE_PROFILING_ENABLE参数，否则计算的kernel运行时间是0。

下面是代码：

1: //计算kerenl执行时间

2: cl_ulong startTime, endTime;

clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_START,

4: sizeof(cl_ulong), &startTime, NULL);

5: clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_END,

6: sizeof(cl_ulong), &endTime, NULL);

7: cl_ulong kernelExecTimeNs = endTime-startTime;

8: printf("kernal exec time :%8.6f ms\n ", kernelExecTimeNs*1e-6 );

完整的程序代码：

1: #include "stdafx.h"

2: #include

3: #include

4: #include

5: #include

6: #include

7: #include

8:

9: #include "gFreeImage.h"

10:

11: using namespace std;

12: #define NWITEMS 4

13: #pragma comment (lib,"OpenCL.lib")

14: #pragma comment(lib,"FreeImage.lib")

15:

16: //把文本文件读入一个string中

17: int convertToString(const char *filename, std::string& s)

18: {

19: size_t size;

20: char* str;

21:

22: std::fstream f(filename, (std::fstream::in | std::fstream::binary));

23:

24: if(f.is_open())

25: {

26: size_t fileSize;

27: f.seekg(0, std::fstream::end);

28: size = fileSize = (size_t)f.tellg();

29: f.seekg(0, std::fstream::beg);

30:

31: str = new char[size+1];

32: if(!str)

33: {

34: f.close();

35: return NULL;

36: }

37:

38: f.read(str, fileSize);

39: f.close();

40: str[size] = '\0';

41:

42: s = str;

43: delete[] str;

44: return 0;

45: }

46: printf("Error: Failed to open file %s\n", filename);

47: return 1;

48: }

49:

50: //CPU旋转图像

51: void cpu_rotate(unsigned char* inbuf, unsigned char* outbuf, int w, int h,float sinTheta,float cosTheta)

52: {

53: int i, j;

54: int xc = w/2;

55: int yc = h/2;

56:

57: for(i = 0; i < h; i++)

58: {

59: for(j=0; j< w; j++)

60: {

61: int xpos = ( j-xc)*cosTheta - (i-yc)*sinTheta+xc;

62: int ypos = (j-xc)*sinTheta + ( i-yc)*cosTheta+yc;

63:

64: if(xpos>=0&&ypos>=0&&xpos

65: outbuf[ypos*w + xpos] = inbuf[i*w+j];

66: }

67: }

68: }

69:

70: int main(int argc, char* argv[])

71: {

72: //装入图像

73: unsigned char *src_image=0;

74: unsigned char *cpu_image=0;

75: int W, H;

76: gFreeImage img;

77: if(!img.LoadImageGrey("lenna.jpg"))

78: {

79: printf("装入lenna.jpg失败\n");

80: exit(0);

81: }

82: else

83: src_image = img.getImageDataGrey(W, H);

84:

85: size_t mem_size = W*H;

86: cpu_image = (unsigned char*)malloc(mem_size);

87:

88: cl_uint status;

89: cl_platform_id platform;

90:

91: //创建平台对象

92: status = clGetPlatformIDs( 1, &platform, NULL );

93:

94: cl_device_id device;

95:

96: //创建GPU设备

97: clGetDeviceIDs( platform, CL_DEVICE_TYPE_GPU,

98: 1,

99: &device,

100: NULL);

101: //创建context

102: cl_context context = clCreateContext( NULL,

103: 1,

104: &device,

105: NULL, NULL, NULL);

106: //创建命令队列

107: cl_command_queue queue = clCreateCommandQueue( context,

108: device,

109: CL_QUEUE_PROFILING_ENABLE, NULL );

110:

111: //创建三个OpenCL内存对象，并把buf1的内容通过隐式拷贝的方式

112: //拷贝到clbuf1,buf2的内容通过显示拷贝的方式拷贝到clbuf2

113: cl_mem d_ip = clCreateBuffer(

114: context, CL_MEM_READ_ONLY,

115: mem_size,

116: NULL, NULL);

117: cl_mem d_op = clCreateBuffer(

118: context, CL_MEM_WRITE_ONLY,

119: mem_size,

120: NULL, NULL);

121: status = clEnqueueWriteBuffer (

122: queue , d_ip, CL_TRUE,

123: 0, mem_size, (void *)src_image,

124: 0, NULL, NULL);

125:

126: const char * filename = "rotate.cl";

127: std::string sourceStr;

128: status = convertToString(filename, sourceStr);

129: const char * source = sourceStr.c_str();

130: size_t sourceSize[] = { strlen(source) };

131:

132: //创建程序对象

133: cl_program program = clCreateProgramWithSource(

134: context,

135: 1,

136: &source,

137: sourceSize,

138: NULL);

139: //编译程序对象

140: status = clBuildProgram( program, 1, &device, NULL, NULL, NULL );

141: if(status != 0)

142: {

143: printf("clBuild failed:%d\n", status);

144: char tbuf[0x10000];

145: clGetProgramBuildInfo(program, device, CL_PROGRAM_BUILD_LOG, 0x10000, tbuf, NULL);

146: printf("\n%s\n", tbuf);

147: return -1;

148: }

149:

150:

151: //创建Kernel对象

152: //Use the “image_rotate” function as the kernel

153:

154: //创建Kernel对象

155: cl_kernel kernel = clCreateKernel( program, "image_rotate", NULL );

156:

157: //设置Kernel参数

158: float sintheta = 1, costheta = 0;

159: clSetKernelArg(kernel, 0, sizeof(cl_mem), (void *)&d_ip);

160: clSetKernelArg(kernel, 1, sizeof(cl_mem), (void *)&d_op);

161: clSetKernelArg(kernel, 2, sizeof(cl_int), (void *)&W);

162: clSetKernelArg(kernel, 3, sizeof(cl_int), (void *)&H);

163: clSetKernelArg(kernel, 4, sizeof(cl_float), (void *)&sintheta);

164: clSetKernelArg(kernel, 5, sizeof(cl_float), (void *)&costheta);

165:

166: //Set local and global workgroup sizes

167: size_t localws[2] = {16,16} ;

168: size_t globalws[2] = {W, H};//Assume divisible by 16

169:

170: cl_event ev;

171: //执行kernel

172: clEnqueueNDRangeKernel(

173: queue ,kernel,

174: 2, 0, globalws, localws,

175: 0, NULL, &ev);

176:

177: clFinish( queue );

178:

179: //计算kerenl执行时间

180: cl_ulong startTime, endTime;

181: clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_START,

182: sizeof(cl_ulong), &startTime, NULL);

183: clGetEventProfilingInfo(ev, CL_PROFILING_COMMAND_END,

184: sizeof(cl_ulong), &endTime, NULL);

185: cl_ulong kernelExecTimeNs = endTime-startTime;

186: printf("kernal exec time :%8.6f ms\n ", kernelExecTimeNs*1e-6 );

187:

188: //数据拷回host内存

189: // copy results from device back to host

190: unsigned char *op_data=0;

191: //op_data =(unsigned char *)malloc(mem_size);

192: // status = clEnqueueReadBuffer(

193: //queue, d_op,

194: //CL_TRUE, //Blocking Read Back

195: //0, mem_size,(void*)op_data, NULL, NULL, NULL);

196: op_data = (cl_uchar *) clEnqueueMapBuffer( queue,

197: d_op,

198: CL_TRUE,

199: CL_MAP_READ,

200: 0,

201: mem_size,

202: 0, NULL, NULL, NULL );

203:

204: int i;

205: cpu_rotate(src_image,cpu_image, W, H, 1, 0);

206: for(i = 0; i < mem_size; i++)

207: {

208: src_image[i] =cpu_image[i];

209: }

210: img.SaveImage("cpu_lenna_rotate.jpg");

211: for(i = 0; i < mem_size; i++)

212: {

213: src_image[i] =op_data[i];

214: }

215: img.SaveImage("lenna_rotate.jpg");

216:

217: if(cpu_image)

218: free(cpu_image);

219:

220: //删除OpenCL资源对象

221: clReleaseMemObject(d_ip);

222: clReleaseMemObject(d_op);

223: clReleaseProgram(program);

224: clReleaseCommandQueue(queue);

225: clReleaseContext(context);

226: return 0;

227: }

228:

感兴趣的朋友可以从http://code.google.com/p/imagefilter-opencl/downloads/detail?name=amdunicourseCode2.zip&can=2&q=#makechanges下载完整代码。

注意代码运行后，会在程序目录生成lenna_rotate.jpg,这时gpu执行的结果，另外还有一个cpu_lenna_rotate.jpg这是CPU执行的结果。

3、一个矩阵乘法的例子

在amd的slides中，本节还讲了一个简单的，没有优化的矩阵乘法，一共才2两页ppt，所以我也不在这儿详细讲述了，…,但简单介绍还是需要的。

1: for(int i = 0; i < Ha; i++)

2: for(int j = 0; j < Wb; j++){

3: c[i][j] = 0;

4: for(int k = 0; k < Wa; k++)

5: c[i][j] += a[i][k] + b[k][j]

6: }

上面的代码是矩阵乘法的例子，有三重循环，下面我们只给出kernel代码，完整程序请从：http://code.google.com/p/imagefilter-opencl/downloads/detail?name=amdunicodeCode3.zip&can=2&q=#makechanges下载。

1: __kernel void simpleMultiply(

2: __global float* c, int Wa, int Wb,

3: __global float* a, __global float* b)

4: {

5:

6: //Get global position in Y direction

7: int row = get_global_id(1);

8: //Get global position in X direction

9: int col = get_global_id(0);

10: float sum = 0.0f;

11: //Calculate result of one element

12: for (int i = 0; i < Wa; i++)

13: {

14: sum +=

15: a[row*Wa+i] * b[i*Wb+col];

16: }

17: c[row*Wb+col] = sum;

18: }

19:

20:

原文作者：迈克老狼

你可能感兴趣的:(OpenCL)

FPGA器件在线配置方法概述 fpga和matlab FPGA 其他 fpga开发 FPGA 在线配置
目录1.配置电路结构和原理2.ICR控制电路软件3.几种常见的FPGA在线配置方法3.1动态部分重配置（PartialReconfiguration,PR）3.2在系统编程（In-SystemProgramming,ISP）3.3多比特流配置（Multi-BitstreamConfiguration）3.4远程更新与配置3.5使用OpenCL或HLS工具FPGA（Field-Programmabl
OPENCL之SIMT与SIMD在架构上的主要区别是什么？糯米宝宝 gpu opencv
SIMT（单指令多线程）与SIMD（单指令多数据）在架构上的主要区别体现在以下几个方面：执行单元的组织方式：SIMD：采用的是多数据流架构，即同一条指令同时作用于多个数据元素。这种架构特别适合于多媒体应用等数据密集型运算。SIMT：采用的是多线程架构，即同一条指令由多个线程并行执行。每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（
10 自研rgbd相机基于rk3566之OPENCL加速库测试与开发三十度角阳光的问候 opencl gpu加速 rk3566/rk3588 核函数异构加速
OPENCL加速库测试与开发opencl加速库介绍1OpenCL概念2OpenCL程序通常包含以下几个主要组件：3opencl移植与调用：opencl加速库核函数编写1开发流程：2核函数编写接口函数定义如下：示例代码如下：opencl加速库示例代码opencl加速库介绍1OpenCL概念opencl是可以直接调用gpu资源进行加速的库，除英伟达外的gpu调用方法。例如maligpu，适用于多种ar
《C++与新兴硬件技术的完美融合：开启未来科技新篇章》程序猿阿伟 c++科技开发语言
在科技飞速发展的今天，新兴硬件技术不断涌现，为软件开发带来了前所未有的机遇和挑战。C++作为一种强大而高效的编程语言，如何更好地与这些新兴硬件技术结合，成为了众多开发者关注的焦点。首先，在与GPU（图形处理单元）的结合方面，C++展现出了巨大的潜力。GPU拥有强大的并行计算能力，能够快速处理大量的数据和复杂的计算任务。通过CUDA和OpenCL等技术，C++开发者可以充分利用GPU的性能优势，实现
Java设计模式七大原则-开闭原则 zoeil Java设计模式
开闭原则基本介绍开闭原则（OpenClosedPrinciple）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。例子publicclassOcp{pu
设计模式-七大原则-开闭原则一个路过的小孩 java #设计模式设计模式开闭原则
开闭原则OpenClosedPrinciple目录开闭原则基本介绍案例1运行结果分析demo输出结果基本介绍1.开闭原则OpenClosedPrinciple是编程中最基础、最重要的设计原则（ocp原则）2.一个软件的实体（eg：类），模块和函数应该对扩展开放（对提供方），对修改关闭（对使用方）用抽象构建框架，用实现扩展细节。3.当软件需求发生变化的时候，尽量通过扩展软件实体的行为实现变化，而不是
OpenCL在移动端GPU计算中的应用与实践 m0_67544708 java GPU OpenCL
一、引言移动端芯片性能的不断提升为在手机上进行计算密集型任务，如计算机图形学和深度学习模型推理，提供了可能。在Android设备上，GPU，尤其是高通Adreno和华为Mali，因其卓越的浮点运算能力，成为了异构计算中的重要组成部分。百度APP已经利用GPU计算加速深度模型推理和计算密集型业务。本文将介绍OpenCL的基础概念和简单编程。二、基础概念2.1异构计算异构计算指的是使用不同类型指令集和
设计模式 -- 七大原则（五）-- 开闭原则认真的小羽❅ 设计模式开闭原则
1基本介绍开闭原则（OpenClosedPrinciple，简称OCP）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。2实例2.1问题程序public
tvm交叉编译android opencl 极乐净土0822 android tvm ndk 交叉编译 opencl
模型编译：#encoding:utf-8importonnximportnumpyasnpimporttvmimporttvm.relayasrelayimportosfromtvm.contribimportndkonnx_model=onnx.load('mobilenet_v3_small.onnx')x=np.ones([1,3,224,224])input_name='input1'sh
OpenCL 图像处理函数、图像放缩和插值陈塬升 OpenCL c++算法
1.OpenCL提供了大量可以在内核中运行的图像处理函数，它们大致可以分为以下三类：（1）Readfunctiongs--返回给定坐标上的颜色取值；（2）writefunctiongs--设定给定坐标上的颜色取值；（3）Informationfunctions--提供关于图像对象的信息，例如图像的维度以及像素属性；图像读取函数是从图像对象中读取向量，他们各自的参数基本一样。唯一的区别是函数返回的是
Stable Diffusion模型对比研三小学渣学习笔记人工智能计算机视觉深度学习
StableDiffusionV1系列是用基于GPT的CLIP模型，其模型参数量为123.65M；StableDiffusionV2系列则换成了更新更好的OpenCLIP模型，其参数量为354.03M，相比SDV1的TextEncoder模型大了3倍左右StableDiffusionv1：它使用了LAION-2B(en)数据集以及laion-high-resolution和laion-improv
嵌入式调试工具之GDB 稚肩嵌入式linux linux 嵌入式 GDB
在单片机开发中，我们可以通过集成式的IDE来进行调试，比如MDK、IAR等。GDB工具是GNU项目调试器，基于命令行使用。和其他的调试器一样，可使用GDB工具单步运行程序、单步执行、跳入/跳出函数、设置断点、查看变量等等，它是UNIX/LINUX操作系统下强大的程序调试工具。GDB支持多种语言，包括Ada、汇编、C/C++、D、Fortran、GO、Objective-C、OpenCL、Modul
前端常见的设计模式一只理智恩前端设计模式 javascript 前端开发语言
说到设计模式，大家想到的就是六大原则，23种模式。这么多模式，并非都要记住，但作为前端开发，对于前端出现率高的设计模式还是有必要了解并掌握的，浅浅掌握9种模式后，整理了这份文章。六大原则：依赖倒置原则(DependenceInversionPrinciple)：高层(业务层)不应该直接调用底层(基础层)模块开闭原则(OpenClosePrinciple)：单模块对拓展开放、对修改关闭单一原则(Si
GraphicsMagick 的 OpenCL 开发记录（三十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录`AccelerateScaleImage()`和`AccelerateResizeImage()`的性能测试AccelerateScaleImage()和AccelerateResizeImage()的性能测试迭代100次，缩小图片50%，如下：[ysouyno@archgm-ocl]$MAGICK_OCL_DEVICE=truegmbenchmark-iterations100conv
GraphicsMagick 的 OpenCL 开发记录（三十七）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十一）如何写ScaleImage()的硬件加速函数（十一）“如何写ScaleImage()的硬件加速函数（十）”这里的代码写得比较随意，其中stopi=0;赋值为0后，下面的循环根本没有执行，这才使得显示的图片变正确了；且async_work_group_copy()的参数传得可能也不对，等等等。我原来的想法是在外部计算好需要的行数传入ke
GraphicsMagick 的 OpenCL 开发记录（八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL c++
文章目录调用`clCreateBuffer()`产生异常问题（六）调用clCreateBuffer()产生异常问题（六）我可能解决了这个问题，原来是因为没有及时清理内存的缘故！将问题最终定位在了RunOpenCLBenchmark()的结尾DestroyImage(resizedImage);处，即在DestroyCacheInfo()中应该有清除OpenCL相关内存的代码。见commit：fix
GraphicsMagick 的 OpenCL 开发记录（九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录关于`ImageMagick`中的`number_channels`成员（一）关于ImageMagick中的number_channels成员（一）在ImageMagick中number_channels成员出现频率有点高，经调试发现ImageMagick中图片对象初始化时通过调用OpenPixelCache()然后在InitializePixelChannelMap()中设置number
GraphicsMagick 的 OpenCL 开发记录（三十六）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十）如何写ScaleImage()的硬件加速函数（十）难道就这么被我轻松实现了？“如何写ScaleImage()的硬件加速函数（九）”是在“如何写ScaleImage()的硬件加速函数（八）”的基础上处理了图片放大变亮的问题，但是他们都只是X方向的处理，没有实现原始函数ScaleImage()的Y方向缩放。目前先处理Y方向再处理X方向的代码
GraphicsMagick 的 OpenCL 开发记录（四）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL
文章目录调用`clCreateBuffer()`产生异常问题（二）调用clCreateBuffer()产生异常问题（二）使用MAGICK_OCL_DEVICE=GPU且在已经安装了opencl-compute-runtime的情况下会产生两个问题：gm运行卡死，无法操作，CPU使用率居高不下，或者gm运行崩溃，产生如下提示：$gmdisplay~/temp/bg1a.jpgAbortwascall
【Vitis】Vitis HLS2023不支持的功能特性神仙约架 xilinx vitis fpga开发 xilinx vitis hls
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开发组件的步骤【Vitis】Viti
【Vitis】Vitis HLS简介神仙约架 vitis xilinx fpga开发 vitis HSL xilinx
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】VitisHLS简介【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开
设计模式概述大海_9052
设计模式主要是基于以下的面向对象设计原则。对接口编程而不是对实现编程。优先使用对象组合而不是继承。设计模式分类：设计模式的六大原则1、开闭原则（OpenClosePrinciple）开闭原则的意思是：对扩展开放，对修改关闭。在程序需要进行拓展的时候，不能去修改原有的代码，实现一个热插拔的效果。简言之，是为了使程序的扩展性好，易于维护和升级。想要达到这样的效果，我们需要使用接口和抽象类，后面的具体设
GraphicsMagick 的 OpenCL 开发记录（三十四）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（八）如何写ScaleImage()的硬件加速函数（八）我觉得Y方向的缩放以下面这种ScaleFilter()的方法是实现不了的，我只能添加进X方向的处理，缩小正常，放大的话图片变亮。STRINGIFY(__kernel__attribute__((reqd_work_group_size(256,1,1)))voidScaleFilter(
GraphicsMagick 的 OpenCL 开发记录（三十二）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（六）如何写ScaleImage()的硬件加速函数（六）不管什么事儿看来都怕琢磨，如果连做梦都能梦到你正在琢磨的事儿，估计离成功也就不远了。似乎目前已经达到了最好的效果，离目标越来越近了。要理解clEnqueueNDRangeKernel()函数的第五第六个参数意义，但目前为止只能说暂时理解了。cl_intclEnqueueNDRangeKe
GraphicsMagick 的 OpenCL 开发记录（三十三）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（七）如何写ScaleImage()的硬件加速函数（七）其实“如何写ScaleImage()的硬件加速函数（六）”的实现就是一个ResizeHorizontalFilter()将y改成y/xFactor的精简版，并不是ScaleImage()的硬件加速函数。虽然它不是，但至少省掉了ResizeVerticalFilter()的调用，速度上更快
linux运维:ywtools工具安装/卸载介绍 Z顺其自然 ywtools工具 linux 服务器 centos 运维工具安装/卸载
一.工具功能功能介绍ywtools工具是全部shell脚本编写,用于日常工作的linux运维二.已测试系统:centos7centos8centossteam8centossteam9rocky8rocky9AlmaLinux8.2/8.4AlmaLinux9.0/9.3opencloudos8.8(腾讯,类似centos8,软件包是oc8)三.安装/移除工具3.1安装工具工具包是bin文件,加执
2018-04-15 FPGA Kernel Log 七点水Plus
AMDprintf我们在kernel中增加了#pragmaOPENCLEXTENSIONcl_amd_printf:enable，以便在kernel中通过printf函数进行debug，这是AMD的一个扩展。printf还可以直接打印出float4这样的向量，比如printf(“%v4f”,vec)。#pragmaOPENCLEXTENSIONcl_amd_printf:enable__kerne
GraphicsMagick 的 OpenCL 开发记录（三十）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（四）如何写ScaleImage()的硬件加速函数（四）经过这两天的尝试，越来越对ScaleImage()用硬件加速实现这件事感到怀疑，因为似乎没有发现这个函数的硬件加速版本能带来很好的性能，当然我这个OpenCL新手写的代码连我自己也不敢恭维，这也是一方面的原因，甚至可能占比很高。正如前面日志所说的能参考的代码只有ResizeHorizon
GraphicsMagick 的 OpenCL 开发记录（二十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（二）如何写ScaleImage()的硬件加速函数（二）搞了一天也没有搞出来kernel函数怎么写，还得仔细分析一下ScaleImage()函数流程：从GraphicsMagick的ScaleImage()入手，它比ImageMagick好懂。大循环的第一个if-else分支处理Y方向，即垂直方向，它用到两个动态数组x_vector和y_ve
GraphicsMagick 的 OpenCL 开发记录（二十九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（三）如何写ScaleImage()的硬件加速函数（三）在“如何写ScaleImage()的硬件加速函数（二）”中介绍的kernel函数的写法可能会产生如下现象：ScaleFilter()不是总能被成功调用。每次修改过ScaleFilter()后，有时在~.cache/GraphicsMagick目录中不会生成新的.bin文件。这种情况下，调
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>