icamera0

使用OpenCL+OpenCV实现图像卷积（二）

[题外话]近期申请了一个微信公众号：平凡程式人生。有兴趣的朋友可以关注，那里将会涉及更多更新OpenCL+OpenCV以及图像处理方面的文章。

3、kernel程序代码

Kernel程序是每个workitem需要执行的，它需要存储在以cl为后缀的文件中。该程序中kernel文件为ImageConvolution.cl。

Kernel内程序定义如下：

constsampler_t mysampler = CLK_ADDRESS_CLAMP_TO_EDGE | CLK_FILTER_NEAREST;

__kernelvoidconvolution(

__read_only image2d_t sourceImage,

__write_only image2d_t outputImage,

int cols,

int rows,

__constant float*filter,

int filterWidth)；

变量sourceImage和outputImage为输入、输出图像的buffer；

变量cols和rows是所需处理图像的宽度和高度；

变量*filter指向存储卷积核的buffer；

变量filterWidth为卷积核的宽度；

这里在私有空间，定义了一个sampler_t变量，用于从输入图像buffer中读取图像数据。如下面的code：

pixel =read_imageui(sourceImage, mysampler, coords);

Kernel程序定义如下：

1.	const sampler_t mysampler = CLK_ADDRESS_CLAMP_TO_EDGE | CLK_FILTER_NEAREST;  
2.	__kernel void convolution(  
3.	    __read_only image2d_t sourceImage,  
4.	    __write_only image2d_t outputImage,  
5.	    int cols,  
6.	    int rows,     
7.	    __constant float *filter,  
8.	    int filterWidth)  
9.	{  
10.	    //Store each work-item's unique row and column  
11.	    int column = get_global_id(0);  
12.	    int row = get_global_id(1);  
13.	  
14.	    //Each work-item iterates around its local area based on the size of the filter  
15.	    int2 coords; //Coordinates for accessing the image  
16.	      
17.	    //Half the width of the filter is needed for indexing memory later  
18.	    int halfWidth = (int)(filterWidth / 2);  
19.	  
20.	    //All accesses to images return data as four-element vector  
21.	    //(i.e., float4), although only the 'x' component will contain meaningful data in this code  
22.	    uint4 sum = {0, 0, 0, 0};     
23.	  
24.	    //Iterator for the filter  
25.	    int filterIdx = 0;    
26.	  
27.	    //Iterate the filter rows  
28.	    for (int i = -halfWidth; i <= halfWidth; i++) {  
29.	        coords.y = row + i;  
30.	  
31.	        //Iterate over the filter columns  
32.	        for (int j = -halfWidth; j <= halfWidth; j++) {  
33.	            coords.x = column + j;  
34.	            uint4 pixel;  
35.	  
36.	            //Read a pixel from the image. A single channel image store the pixel  
37.	            //in the 'x' coordinate of the returned vector  
38.	            pixel = read_imageui(sourceImage, mysampler, coords);  
39.	            sum.x += pixel.x * filter[filterIdx++];           
40.	        }  
41.	    }  
42.	  
43.	    //Copy the datat to the output image if the work-item is in bounds  
44.	    if (row < rows && column < cols)   
45.	    {  
46.	        coords.x = column;  
47.	        coords.y = row;  
48.	        write_imageui(outputImage, coords, sum);  
49.	    }  
50.	}

4、host端程序代码

Host端程序处理流程就是按照前面“程序设计”一节编写的。除了调用OpenCL+OpenCV的API函数，其他的地方都是按照C/C++语法编写的。

具体代码如下：

1.	// ImageConvolution.cpp : 定义控制台应用程序的入口点。  
2.	//  
3.	  
4.	#include "stdafx.h"  
5.	#include   
6.	#include   
7.	#include   
8.	  
9.	#include   
10.	  
11.	#ifdef __APPLE__  
12.	#include   
13.	#else  
14.	#include   
15.	#endif  
16.	  
17.	using namespace cv;  
18.	  
19.	void DisplayPlatformInfo(  
20.	    cl_platform_id id,  
21.	    cl_platform_info name,  
22.	    std::string str)  
23.	{  
24.	    cl_int errNum;  
25.	    std::size_t paramValueSize;  
26.	  
27.	    errNum = clGetPlatformInfo(id, name, 0, NULL, ¶mValueSize);  
28.	    if (errNum != CL_SUCCESS) {  
29.	        std::cerr << "Failed to find OpenCL platform"  
30.	            << str << "." << std::endl;  
31.	        return;  
32.	    }  
33.	  
34.	    char *info = (char *)alloca(sizeof(char) * paramValueSize);  
35.	    errNum = clGetPlatformInfo(id, name, paramValueSize, info, NULL);  
36.	    if (errNum != CL_SUCCESS) {  
37.	        std::cerr << "Failed to find OpenCL platform "  
38.	            << str << "." << std::endl;  
39.	        return;  
40.	    }  
41.	  
42.	    std::cout << "\t" << str << ":\t" << info << std::endl;  
43.	  
44.	    return;  
45.	}  
46.	  
47.	int _tmain(int argc, _TCHAR* argv[])  
48.	{  
49.	    cl_int ciErrNum;  
50.	    const char *fileName = "ImageConvolution.cl";  
51.	    int width = 0, height = 0;  
52.	    const char* imageName = "F:\\code\\pic\\test01.jpg";  
53.	    char *bufInput = NULL, *bufOutput = NULL;  
54.	    const float filter[] = {-1,0,-1,0,4,0,-1,0,-1};   
55.	      
56.	    //read one jpeg pic and store it in a Mat variable.  
57.	    Mat img = imread(imageName);  
58.	    if (!img.data) {  
59.	        std::cout << "fail to open the file:" << imageName << std::endl;  
60.	        return -1;  
61.	    }  
62.	  
63.	    //the type of img is RGB, convert to gray image.  
64.	    Mat imgGray;  
65.	    cvtColor(img, imgGray, CV_BGR2GRAY);  
66.	    width = imgGray.cols;  
67.	    height = imgGray.rows;  
68.	    std::cout << "picture width: " << width << ", height: " << height << std::endl;  
69.	      
70.	    //save the source data of original gray image.  
71.	    FILE *yuvFileOrg = NULL;  
72.	    fopen_s(&yuvFileOrg, "gray_org.yuv", "wb");  
73.	    fwrite(imgGray.data, width * height * sizeof(unsigned char), 1, yuvFileOrg);  
74.	    fclose(yuvFileOrg);  
75.	    yuvFileOrg = NULL;    
76.	  
77.	    //display the original gray image in a window.  
78.	    namedWindow( imageName, CV_WINDOW_AUTOSIZE );  
79.	    imshow(imageName, imgGray);  
80.	    //waitKey(0);  
81.	  
82.	    //allocate the input buffer to store the original gray image  
83.	    if (NULL == (bufInput = (char *)malloc(width * height * sizeof(char)))) {  
84.	        std::cerr << "Failed to malloc buffer for input image. " << std::endl;  
85.	        return -1;  
86.	    }  
87.	  
88.	    //allocate the output buffer to store the image rotated.  
89.	    if (NULL == (bufOutput = (char *)malloc(width * height * sizeof(char)))) {  
90.	        std::cerr << "Failed to malloc buffer for output image. " << std::endl;  
91.	        return -1;  
92.	    }  
93.	  
94.	    //copy the data of gray image to the input buffer. initialize the output buffer by zero.   
95.	    memcpy(bufInput, imgGray.data, width * height * sizeof(unsigned char));  
96.	    memset(bufOutput, 0x0, width * height * sizeof(unsigned char));  
97.	      
98.	    //use the first platform  
99.	    cl_platform_id platform;  
100.	    cl_platform_id *platforms;  
101.	    cl_uint numPlatform;  
102.	    ciErrNum = clGetPlatformIDs(0, NULL, &numPlatform); //get the number of platform  
103.	    if (ciErrNum != CL_SUCCESS) {  
104.	        std::cerr << "Failed to get the number of platform." << std::endl;  
105.	        return -1;  
106.	    }  
107.	    std::cout << "The number of the platform is: " << numPlatform << std::endl;  
108.	  
109.	    platforms = (cl_platform_id *)malloc(numPlatform * sizeof(cl_platform_id));  
110.	    ciErrNum = clGetPlatformIDs(numPlatform, platforms, NULL);  
111.	    if (ciErrNum != CL_SUCCESS) {  
112.	        std::cerr << "Failed to get the ID of platform." << std::endl;  
113.	        return -1;  
114.	    }  
115.	    for(cl_uint i = 0; i < numPlatform; i++) {  
116.	        std::cout << "The platform " << i << ":" << std::endl;  
117.	        DisplayPlatformInfo(platforms[i], CL_PLATFORM_PROFILE, "CL_PLATFORM_PROFILE");  
118.	        DisplayPlatformInfo(platforms[i], CL_PLATFORM_VERSION, "CL_PLATFORM_VERSION");  
119.	        DisplayPlatformInfo(platforms[i], CL_PLATFORM_VENDOR, "CL_PLATFORM_VENDOR");  
120.	        DisplayPlatformInfo(platforms[i], CL_PLATFORM_EXTENSIONS, "CL_PLATFORM_EXTENSIONS");  
121.	    }  
122.	  
123.	    platform = platforms[1]; //choose the platform of NVIDIA, support the OpenCL 1.2  
124.	  
125.	    //use the first device  
126.	    cl_device_id device;  
127.	    ciErrNum = clGetDeviceIDs(  
128.	        platform,  
129.	        CL_DEVICE_TYPE_ALL,  
130.	        1,  
131.	        &device,  
132.	        NULL);  
133.	    if (ciErrNum != CL_SUCCESS) {  
134.	        std::cerr << "Failed to get the device." << std::endl;  
135.	        return -1;  
136.	    }  
137.	  
138.	    cl_context_properties cps[3] = {  
139.	        CL_CONTEXT_PLATFORM, (cl_context_properties)platform, 0  
140.	    };  
141.	    //create the context  
142.	    cl_context ctx = clCreateContext(  
143.	        cps,  
144.	        1,  
145.	        &device,  
146.	        NULL,  
147.	        NULL,  
148.	        &ciErrNum);  
149.	    if (ciErrNum != CL_SUCCESS) {  
150.	        std::cerr << "Failed to create the context." << std::endl;  
151.	        return -1;  
152.	    }  
153.	  
154.	    //create the command queue  
155.	    cl_command_queue myqueue = clCreateCommandQueue(  
156.	        ctx,  
157.	        device,  
158.	        0,  
159.	        &ciErrNum);  
160.	    if (ciErrNum != CL_SUCCESS) {  
161.	        std::cerr << "Failed to create the queue." << std::endl;  
162.	        return -1;  
163.	    }  
164.	  
165.	    //the convolution filter is 3x3  
166.	    int filterWidth = 3;  
167.	    int filterSize = filterWidth * filterWidth; //assume a square kernel  
168.	  
169.	    //the image format describes how the data will be stored in memory  
170.	    cl_image_format format;  
171.	    format.image_channel_order = CL_R; //single channel  
172.	    format.image_channel_data_type = CL_UNSIGNED_INT8; //float  data type  
173.	    cl_int status;  
174.	    cl_image_desc desc;  
175.	    desc.image_type = CL_MEM_OBJECT_IMAGE2D;  
176.	    desc.image_width = width;  
177.	    desc.image_height = height;  
178.	    desc.image_depth = 0;  
179.	    desc.image_array_size = 0;  
180.	    desc.image_row_pitch = 0;  
181.	    desc.image_slice_pitch = 0;  
182.	    desc.num_mip_levels = 0;  
183.	    desc.num_samples = 0;  
184.	    desc.buffer = NULL;  
185.	  
186.	    //create the image buffers for input and output data.  
187.	    cl_mem bufferSourceImage = clCreateImage(ctx, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, &format, &desc, bufInput, &status);  
188.	    cl_mem bufferOutputImage = clCreateImage(ctx, CL_MEM_WRITE_ONLY, &format, &desc, bufOutput, &status);  
189.	     
190.	    //create space for the 3x3 filter on the device  
191.	    cl_mem bufferFilter = clCreateBuffer(  
192.	        ctx,  
193.	        0,  
194.	        filterSize * sizeof(float),  
195.	        NULL,  
196.	        NULL);  
197.	  
198.	    //copy the source image to the device  
199.	    size_t origin[3] = {0, 0, 0}; //offset within the image to copy from  
200.	    size_t region[3] = {width, height, 1}; //elements to per dimension  
201.	  
202.	    ciErrNum = clEnqueueWriteImage(  
203.	        myqueue,  
204.	        bufferSourceImage,  
205.	        CL_FALSE,  
206.	        origin,  
207.	        region,  
208.	        0,  
209.	        0,  
210.	        bufInput,  
211.	        0,  
212.	        NULL,  
213.	        NULL);  
214.	    if (ciErrNum != CL_SUCCESS) {  
215.	        std::cerr << "Failed to write the image to the device." << std::endl;  
216.	        return -1;  
217.	    }  
218.	      
219.	    //copy the 3x3 filter to the device  
220.	    ciErrNum = clEnqueueWriteBuffer(  
221.	        myqueue,  
222.	        bufferFilter,  
223.	        CL_FALSE,  
224.	        0,  
225.	        filterSize * sizeof(float),  
226.	        filter,  
227.	        0,  
228.	        NULL,  
229.	        NULL);  
230.	    if (ciErrNum != CL_SUCCESS) {  
231.	        std::cerr << "Failed to write the filter to the device." << std::endl;  
232.	        return -1;  
233.	    }  
234.	  
235.	    //open kernel file and read the content to a string variable.  
236.	    std::ifstream kernelFile("ImageConvolution.cl", std::ios::in);  
237.	    //std::ifstream kernelFile("ImageRotate.cl", std::ios::in);  
238.	    if (!kernelFile.is_open()) {  
239.	        std::cerr << "Failed to open file for reading: " << fileName << std::endl;  
240.	        return NULL;  
241.	    }  
242.	    std::ostringstream oss;  
243.	    oss << kernelFile.rdbuf();  
244.	    std::string srcStdStr = oss.str();  
245.	    const char *srcStr = srcStdStr.c_str();  
246.	    kernelFile.close();  
247.	  
248.	    //create the program with source code of kernel.  
249.	    cl_program myprog = clCreateProgramWithSource(  
250.	        ctx,  
251.	        1,  
252.	        (const char**)&srcStr,  
253.	        NULL,  
254.	        &ciErrNum);  
255.	    if (ciErrNum != CL_SUCCESS) {  
256.	        std::cerr << "Failed to create the program." << std::endl;  
257.	        return -1;  
258.	    }  
259.	  
260.	    //compile the program. passing NULL for the 'device_list' argument targets all devices in the context  
261.	    ciErrNum = clBuildProgram(myprog, 0, NULL, NULL, NULL, NULL);  
262.	    if (ciErrNum != CL_SUCCESS) {  
263.	        std::cerr << "Failed to build the program." << std::endl;  
264.	        return -1;  
265.	    }  
266.	  
267.	    //create the kernel  
268.	    cl_kernel mykernel = clCreateKernel(  
269.	        myprog,  
270.	        "convolution",  
271.	        &ciErrNum);  
272.	    if (ciErrNum != CL_SUCCESS) {  
273.	        std::cerr << "Failed to create the kernel." << std::endl;  
274.	        return -1;  
275.	    }  
276.	  
277.	    //set the kernel arguments  
278.	    clSetKernelArg(mykernel, 0, sizeof(cl_mem), (void *)&bufferSourceImage);  
279.	    clSetKernelArg(mykernel, 1, sizeof(cl_mem), (void *)&bufferOutputImage);  
280.	    clSetKernelArg(mykernel, 2, sizeof(cl_int), (void *)&width);  
281.	    clSetKernelArg(mykernel, 3, sizeof(cl_int), (void *)&height);   
282.	    clSetKernelArg(mykernel, 4, sizeof(cl_mem), (void *)&bufferFilter);   
283.	    clSetKernelArg(mykernel, 5, sizeof(cl_int), (void *)&filterWidth);  
284.	  
285.	    //set local and global workgroup sizes  
286.	    size_t localws[2] = {1, 1};  
287.	    size_t globalws[2] = {width, height};  
288.	  
289.	    //execute the kernel  
290.	    ciErrNum = clEnqueueNDRangeKernel(  
291.	        myqueue,  
292.	        mykernel,  
293.	        2,  
294.	        NULL,  
295.	        globalws,  
296.	        localws,  
297.	        0,  
298.	        NULL,  
299.	        NULL);  
300.	    if (ciErrNum != CL_SUCCESS) {  
301.	        std::cerr << "Failed to execute the kernel." << std::endl;  
302.	        return -1;  
303.	    }  
304.	  
305.	    //read the output data back to the host  
306.	    ciErrNum = clEnqueueReadImage(  
307.	        myqueue,  
308.	        bufferOutputImage,  
309.	        CL_TRUE,  
310.	        origin,  
311.	        region,  
312.	        0,  
313.	        0,  
314.	        bufOutput,  
315.	        0,  
316.	        NULL,  
317.	        NULL);  
318.	    if (ciErrNum != CL_SUCCESS) {  
319.	        std::cerr << "Failed to read the image from the device." << std::endl;  
320.	        return -1;  
321.	    }  
322.	      
323.	    //copy the output data from output buffer to Mat variable.   
324.	    memcpy(imgGray.data, bufOutput, width * height * sizeof(unsigned char));  
325.	  
326.	    //save the source data for gray image rotated  
327.	    FILE *yuvFile = NULL;  
328.	    fopen_s(&yuvFile, "gray.yuv", "wb");  
329.	    fwrite(imgGray.data, width * height * sizeof(unsigned char), 1, yuvFile);  
330.	    fclose(yuvFile);  
331.	    yuvFile = NULL;  
332.	  
333.	    //save the gray image rotated.  
334.	    imwrite("test_gray.jpg", imgGray);  
335.	  
336.	    //show the gray image rotated.  
337.	    const char *winName = "gray_image_convolution";  
338.	    namedWindow(winName, CV_WINDOW_AUTOSIZE );  
339.	    imshow(winName, imgGray);     
340.	    waitKey(0);  
341.	    destroyAllWindows();  
342.	  
343.	    //release all resource  
344.	    if (bufInput != NULL)  
345.	        free(bufInput);  
346.	  
347.	    if (bufOutput != NULL)  
348.	        free(bufOutput);  
349.	  
350.	    if (bufferSourceImage != 0)  
351.	        clReleaseMemObject(bufferSourceImage);  
352.	  
353.	    if (bufferOutputImage != 0)  
354.	        clReleaseMemObject(bufferOutputImage);  
355.	  
356.	    if (bufferFilter != 0)  
357.	        clReleaseMemObject(bufferFilter);  
358.	  
359.	    if (myqueue != 0)  
360.	        clReleaseCommandQueue(myqueue);  
361.	  
362.	    if (mykernel != 0)  
363.	        clReleaseKernel(mykernel);  
364.	  
365.	    if (myprog != 0)  
366.	        clReleaseProgram(myprog);  
367.	  
368.	    if (ctx != 0)  
369.	        clReleaseContext(ctx);  
370.	  
371.	    return 0;  
372.	}

（未完待续）

Windows Opencl clSetKernelArg()函数万能的小裴同学 GPU opencl C++windows c++opencl
WindowsOpenclclSetKernelArg()函数详细解析SettingKernelArguments函数原型cl_intclSetKernelArg(cl_kernelkernel,cl_uintarg_index,size_targ_size,constvoid*arg_value)clSetKernelArg()用于为内核的特定参数设置参数值。kernel是一个有效的内核对象。a
Kotlin 2.1.0 入门教程（十五）继承、重写、派生类初始化顺序 xvch Kotlin kotlin android
继承所有类都有一个共同的超类Any，对于没有声明超类型的类来说，Any是其默认的超类：//隐式继承自Any。classExampleAny有三个方法：equals()、hashCode()和toString()。因此，所有类都定义了这些方法。默认情况下，类是final的，即它们不能被继承。若要使一个类可被继承，需使用open关键字标记它：//该类可被继承。openclassBase要声明一个显式的
Ranger Hive Service连接测试失败问题解决一张假钞 hive hadoop 数据仓库
个人博客地址：RangerHiveService连接测试失败问题解决|一张假钞的真实世界异常信息如下：org.apache.ranger.plugin.client.HadoopException:UnabletoconnecttoHiveThriftServerinstance..UnabletoconnecttoHiveThriftServerinstance..Couldnotopencli
分享一些免费可商用的SVG资源网站摸五休二前端 ui
这里是一些提供免费且可商用的SVG文件的资源网站，你可以自由下载并在项目中使用：1.Undraw特点：提供丰富的插图，简洁而现代，所有插图都可以自定义颜色，适合各种场景。许可：完全免费，无需署名，允许商用。2.Openclipart特点：拥有庞大的公共领域剪贴画库，适合各种用途。许可：所有图像都在公共领域，完全免费，无需署名。3.Flaticon特点：提供丰富的图标库，大多数图标可以免费下载为SV
RK3568 OpenHarmony4.0适配HDMI液晶屏敲嵌入式代码的 OpenHarmony harmonyos linux
适配效果先看下最终适配效果视频：OpenHarmony_V40_HDMI液晶屏开发环境本文基于如下开发环境进行开发调试：硬件：RK3568开发板处理器：RK3568CPU：四核64位Cortex-A55，主频最高达2.0GHzGPU：ARMG522EE，支持OpenGLES1.1/2.0/3.2，OpenCL2.0，Vulkan1.1，支持内嵌高性能2D加速硬件NPU：支持1T算力多媒体：支持4K
Metal：Metal与虚拟现实技术_2024-07-20_20-31-56.Tex chenjj4003 游戏开发2 vr cocoa macos objective-c 人工智能计算机视觉
Metal：Metal与虚拟现实技术Metal基础介绍Metal框架概述Metal是苹果公司开发的一个低级图形和计算编程接口，它被设计用于在iOS、macOS、tvOS和watchOS上实现高性能的图形渲染和计算任务。Metal框架提供了对GPU的直接访问，允许开发者以更高效的方式编写代码，从而在设备上实现更高质量的图形和更快的计算速度。与OpenGL和OpenCL相比，Metal减少了API的开
设计模式概述-24种设计模式和七大设计原则 SongYuxinZzz Java基础 java
六大设计原则1、开闭原则（OpenClosePrinciple）定义：一个软件实体如类、模块和函数应该对扩展开放，对修改关闭。问题由来：在软件的生命周期内，因为变化、升级和维护等原因需要对软件原有代码进行修改时，可能会给旧代码中引入错误，也可能会使我们不得不对整个功能进行重构，并且需要原有代码经过重新测试。解决方案：当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来
龙蜥社区落地开源生态发展合作倡议新进展，推出内核 kABI 和配置统一规范操作系统开源
为共同推动做强做优做大创新操作系统生态，积极响应由龙蜥（OpenAnolis）、开源欧拉（openEuler）、鸥栖（OpenCloudOS）、开放麒麟（openKylin）以及深度（deepin）五大操作系统开源社区联合发起的开源生态发展合作倡议，龙蜥社区在操作系统构建工程落地取得新进展，彰显了龙蜥社区致力于构建一个更加开放、繁荣、安全、高效的全球开源生态系统的坚定承诺。在广泛征求操作系统企业及
开源生态发展合作倡议操作系统
在信息技术发展的浪潮中，开源已成为全球创新的强劲引擎，深刻影响着各行各业的发展。今天，我们站在新的历史起点上，肩负着推动开源生态发展的重任。在此，开源欧拉（openEuler）、龙蜥（OpenAnolis）、鸥栖（OpenCloudOS）、开放麒麟（openKylin）、深度（deepin）五大操作系统开源社区携手并进，共同发起开源生态发展合作倡议，旨在书写开源生态繁荣的新篇章。在此，我们提出三点
FPGA器件在线配置方法概述 fpga和matlab FPGA 其他 fpga开发 FPGA 在线配置
目录1.配置电路结构和原理2.ICR控制电路软件3.几种常见的FPGA在线配置方法3.1动态部分重配置（PartialReconfiguration,PR）3.2在系统编程（In-SystemProgramming,ISP）3.3多比特流配置（Multi-BitstreamConfiguration）3.4远程更新与配置3.5使用OpenCL或HLS工具FPGA（Field-Programmabl
OPENCL之SIMT与SIMD在架构上的主要区别是什么？糯米宝宝 gpu opencv
SIMT（单指令多线程）与SIMD（单指令多数据）在架构上的主要区别体现在以下几个方面：执行单元的组织方式：SIMD：采用的是多数据流架构，即同一条指令同时作用于多个数据元素。这种架构特别适合于多媒体应用等数据密集型运算。SIMT：采用的是多线程架构，即同一条指令由多个线程并行执行。每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（
10 自研rgbd相机基于rk3566之OPENCL加速库测试与开发三十度角阳光的问候 opencl gpu加速 rk3566/rk3588 核函数异构加速
OPENCL加速库测试与开发opencl加速库介绍1OpenCL概念2OpenCL程序通常包含以下几个主要组件：3opencl移植与调用：opencl加速库核函数编写1开发流程：2核函数编写接口函数定义如下：示例代码如下：opencl加速库示例代码opencl加速库介绍1OpenCL概念opencl是可以直接调用gpu资源进行加速的库，除英伟达外的gpu调用方法。例如maligpu，适用于多种ar
《C++与新兴硬件技术的完美融合：开启未来科技新篇章》程序猿阿伟 c++科技开发语言
在科技飞速发展的今天，新兴硬件技术不断涌现，为软件开发带来了前所未有的机遇和挑战。C++作为一种强大而高效的编程语言，如何更好地与这些新兴硬件技术结合，成为了众多开发者关注的焦点。首先，在与GPU（图形处理单元）的结合方面，C++展现出了巨大的潜力。GPU拥有强大的并行计算能力，能够快速处理大量的数据和复杂的计算任务。通过CUDA和OpenCL等技术，C++开发者可以充分利用GPU的性能优势，实现
Java设计模式七大原则-开闭原则 zoeil Java设计模式
开闭原则基本介绍开闭原则（OpenClosedPrinciple）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。例子publicclassOcp{pu
设计模式-七大原则-开闭原则一个路过的小孩 java #设计模式设计模式开闭原则
开闭原则OpenClosedPrinciple目录开闭原则基本介绍案例1运行结果分析demo输出结果基本介绍1.开闭原则OpenClosedPrinciple是编程中最基础、最重要的设计原则（ocp原则）2.一个软件的实体（eg：类），模块和函数应该对扩展开放（对提供方），对修改关闭（对使用方）用抽象构建框架，用实现扩展细节。3.当软件需求发生变化的时候，尽量通过扩展软件实体的行为实现变化，而不是
OpenCL在移动端GPU计算中的应用与实践 m0_67544708 java GPU OpenCL
一、引言移动端芯片性能的不断提升为在手机上进行计算密集型任务，如计算机图形学和深度学习模型推理，提供了可能。在Android设备上，GPU，尤其是高通Adreno和华为Mali，因其卓越的浮点运算能力，成为了异构计算中的重要组成部分。百度APP已经利用GPU计算加速深度模型推理和计算密集型业务。本文将介绍OpenCL的基础概念和简单编程。二、基础概念2.1异构计算异构计算指的是使用不同类型指令集和
设计模式 -- 七大原则（五）-- 开闭原则认真的小羽❅ 设计模式开闭原则
1基本介绍开闭原则（OpenClosedPrinciple，简称OCP）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。2实例2.1问题程序public
tvm交叉编译android opencl 极乐净土0822 android tvm ndk 交叉编译 opencl
模型编译：#encoding:utf-8importonnximportnumpyasnpimporttvmimporttvm.relayasrelayimportosfromtvm.contribimportndkonnx_model=onnx.load('mobilenet_v3_small.onnx')x=np.ones([1,3,224,224])input_name='input1'sh
OpenCL 图像处理函数、图像放缩和插值陈塬升 OpenCL c++算法
1.OpenCL提供了大量可以在内核中运行的图像处理函数，它们大致可以分为以下三类：（1）Readfunctiongs--返回给定坐标上的颜色取值；（2）writefunctiongs--设定给定坐标上的颜色取值；（3）Informationfunctions--提供关于图像对象的信息，例如图像的维度以及像素属性；图像读取函数是从图像对象中读取向量，他们各自的参数基本一样。唯一的区别是函数返回的是
Stable Diffusion模型对比研三小学渣学习笔记人工智能计算机视觉深度学习
StableDiffusionV1系列是用基于GPT的CLIP模型，其模型参数量为123.65M；StableDiffusionV2系列则换成了更新更好的OpenCLIP模型，其参数量为354.03M，相比SDV1的TextEncoder模型大了3倍左右StableDiffusionv1：它使用了LAION-2B(en)数据集以及laion-high-resolution和laion-improv
嵌入式调试工具之GDB 稚肩嵌入式linux linux 嵌入式 GDB
在单片机开发中，我们可以通过集成式的IDE来进行调试，比如MDK、IAR等。GDB工具是GNU项目调试器，基于命令行使用。和其他的调试器一样，可使用GDB工具单步运行程序、单步执行、跳入/跳出函数、设置断点、查看变量等等，它是UNIX/LINUX操作系统下强大的程序调试工具。GDB支持多种语言，包括Ada、汇编、C/C++、D、Fortran、GO、Objective-C、OpenCL、Modul
前端常见的设计模式一只理智恩前端设计模式 javascript 前端开发语言
说到设计模式，大家想到的就是六大原则，23种模式。这么多模式，并非都要记住，但作为前端开发，对于前端出现率高的设计模式还是有必要了解并掌握的，浅浅掌握9种模式后，整理了这份文章。六大原则：依赖倒置原则(DependenceInversionPrinciple)：高层(业务层)不应该直接调用底层(基础层)模块开闭原则(OpenClosePrinciple)：单模块对拓展开放、对修改关闭单一原则(Si
GraphicsMagick 的 OpenCL 开发记录（三十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录`AccelerateScaleImage()`和`AccelerateResizeImage()`的性能测试AccelerateScaleImage()和AccelerateResizeImage()的性能测试迭代100次，缩小图片50%，如下：[ysouyno@archgm-ocl]$MAGICK_OCL_DEVICE=truegmbenchmark-iterations100conv
GraphicsMagick 的 OpenCL 开发记录（三十七）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十一）如何写ScaleImage()的硬件加速函数（十一）“如何写ScaleImage()的硬件加速函数（十）”这里的代码写得比较随意，其中stopi=0;赋值为0后，下面的循环根本没有执行，这才使得显示的图片变正确了；且async_work_group_copy()的参数传得可能也不对，等等等。我原来的想法是在外部计算好需要的行数传入ke
GraphicsMagick 的 OpenCL 开发记录（八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL c++
文章目录调用`clCreateBuffer()`产生异常问题（六）调用clCreateBuffer()产生异常问题（六）我可能解决了这个问题，原来是因为没有及时清理内存的缘故！将问题最终定位在了RunOpenCLBenchmark()的结尾DestroyImage(resizedImage);处，即在DestroyCacheInfo()中应该有清除OpenCL相关内存的代码。见commit：fix
GraphicsMagick 的 OpenCL 开发记录（九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录关于`ImageMagick`中的`number_channels`成员（一）关于ImageMagick中的number_channels成员（一）在ImageMagick中number_channels成员出现频率有点高，经调试发现ImageMagick中图片对象初始化时通过调用OpenPixelCache()然后在InitializePixelChannelMap()中设置number
GraphicsMagick 的 OpenCL 开发记录（三十六）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十）如何写ScaleImage()的硬件加速函数（十）难道就这么被我轻松实现了？“如何写ScaleImage()的硬件加速函数（九）”是在“如何写ScaleImage()的硬件加速函数（八）”的基础上处理了图片放大变亮的问题，但是他们都只是X方向的处理，没有实现原始函数ScaleImage()的Y方向缩放。目前先处理Y方向再处理X方向的代码
GraphicsMagick 的 OpenCL 开发记录（四）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL
文章目录调用`clCreateBuffer()`产生异常问题（二）调用clCreateBuffer()产生异常问题（二）使用MAGICK_OCL_DEVICE=GPU且在已经安装了opencl-compute-runtime的情况下会产生两个问题：gm运行卡死，无法操作，CPU使用率居高不下，或者gm运行崩溃，产生如下提示：$gmdisplay~/temp/bg1a.jpgAbortwascall
【Vitis】Vitis HLS2023不支持的功能特性神仙约架 xilinx vitis fpga开发 xilinx vitis hls
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开发组件的步骤【Vitis】Viti
【Vitis】Vitis HLS简介神仙约架 vitis xilinx fpga开发 vitis HSL xilinx
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】VitisHLS简介【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

使用OpenCL+OpenCV实现图像卷积（二）

3、kernel程序代码

4、host端程序代码

你可能感兴趣的:(Opencl)