iddialog

OpenCL使用GPU滤波

OpenCL使用GPU滤波

最近开始研究OpenCL，以便在需要大量计算时，用GPU来加速。

为了实用性，结合工作，编写第一个OpenCL的程序。

为了实用，我选择以前做的数字滤波来作为本次的设计目标。我们的数字滤波，主要是用FIR滤波，需要滤波的数据是多通道的电生理数据，滤波系数是使用Matlab仿真的，原始数据是通过多道生理记录仪采集的数据。以前的滤波程序是在CPU上完成的。现在把它移到GPU上完成，就当是一次实验和学习OpenCL的机会。

第一步，下载CUDA（因为我用的是NVidia的显卡，如果使用ATI的显卡，需要下载AMD APP（其前身是 ATI Stream），目前版本2.7，可到网上搜索下载）

CUDA 下载（版本4.2）

http://developer.nvidia.com/cuda/cuda-downloads

下载完后安装。安装就不介绍了。注意安装的路径，下面要用到。

第二步 VS2008设置

工具->选项

项目->属性

可能你的安装目录跟我的不一样，设置成你的安装目录就可以了。

其它设置可以在网上查。或者百度文库

http://wenku.baidu.com/view/cb77e4926bec0975f465e238.html

第三步，开始编程。

为了实用和可重用，做成一个C++类。这个类必须包含3个函数，InitCL初始化， Uninit释放， Filter_GPU滤波，Filter_GPU可能会反复调用。

首先是初始化CL

//初始化OpenCL

BOOL CFilter::InitCL()

{

if(m_bInitCL)

{

return FALSE;

}

cl_int iError = 0; // 错误代码

// Platform

iError = clGetPlatformIDs(1,&m_clPlatform_id,NULL);

if (iError != CL_SUCCESS)

{

TRACE("Error getting platform id \n");

exit(iError);

}

// Device

iError = clGetDeviceIDs(m_clPlatform_id, CL_DEVICE_TYPE_GPU, 1, &m_clDevice_id, NULL);

if (iError != CL_SUCCESS)

{

TRACE("Error getting device ids \n");

exit(iError);

}

// Context

m_clContext = clCreateContext(0, 1, &m_clDevice_id, NULL, NULL, &iError);

if (iError != CL_SUCCESS)

{

TRACE("Error creating context \n");

exit(iError);

}

// Command-queue

m_clQueue = clCreateCommandQueue(m_clContext, m_clDevice_id, 0, &iError);

if (iError != CL_SUCCESS)

{

TRACE("Error creating command queue \n");

exit(iError);

}

上面的代码没什么特殊的，照着写就行了

CString strPath;

GetCurrentDirectory(MAX_PATH,strPath.GetBuffer(MAX_PATH));//获得当前路径

strPath.ReleaseBuffer();

CString strNewPath = strPath+ "\\testgpu.cl";//找cl文件

size_t src_size = 0;

CFileFind ff;

if(!ff.FindFile(strNewPath))

{

AfxMessageBox("在当前目录没有找到OpenCL的文件testgpu.cl");

return FALSE;

}

ff.Close();

//读取*.cl中的内容到内存

CFile *pFile =NULL;

try

{

pFile = new CFile(strNewPath,CFile::modeRead);

}

catch (CException* e)

{

e->Delete();

AfxMessageBox(" 打开文件testgpu.cl 出错");

return FALSE;

}

int iFileLen = pFile->GetLength();

const char* source = new char[iFileLen + 1];

ZeroMemory((void*)source,iFileLen + 1);

pFile->Read((void *)source,iFileLen);//读取文件

delete pFile;

pFile = NULL;

// Creates the program

m_clProgram = clCreateProgramWithSource(m_clContext, 1, &source, &src_size, &iError);//加载文件内容

ASSERT(iError == CL_SUCCESS);

delete source;

source = NULL;

// Builds the program

iError = clBuildProgram(m_clProgram, 1, &m_clDevice_id, NULL, NULL, NULL);//编译cl程序

ASSERT(iError == CL_SUCCESS);

// Shows the log

char* build_log;

size_t log_size;

// First call to know the proper size

clGetProgramBuildInfo(m_clProgram, m_clDevice_id, CL_PROGRAM_BUILD_LOG, 0, NULL, &log_size);

build_log = new char[log_size+1];//编译CL的出错记录

// Second call to get the log

clGetProgramBuildInfo(m_clProgram, m_clDevice_id, CL_PROGRAM_BUILD_LOG, log_size, build_log, NULL);

build_log[log_size] = '\0';

CString strLog(build_log);

TRACE(strLog + "\n");//因为cl程序是在运行时编译的，在运行过程中如果出错，显示编译CL文件的错误，以便查找问题

delete build_log;

build_log = NULL;

创建两个Kernel对应两个函数

// Extracting the kernel

m_clKernel = clCreateKernel(m_clProgram, "Filter_GPU_Single", &iError);//单通道滤波，这个引号中的字符串要对应cl文件中的kernel函数

ASSERT(iError == CL_SUCCESS);

m_clKernel1 = clCreateKernel(m_clProgram, "Filter_GPU_Multi", &iError);//多通道滤波，这个引号中的字符串要对应cl文件中的kernel函数

ASSERT(iError == CL_SUCCESS);

m_bInitCL = TRUE;//初始化成功

return TRUE;

}

释放就比较简单

BOOL CFilter::Uninit()

{//释放资源

if(!m_bInitCL)

{

return FALSE;

}

clReleaseKernel(m_clKernel);

clReleaseKernel(m_clKernel1);

clReleaseCommandQueue(m_clQueue);

clReleaseContext(m_clContext);

return TRUE;

}

下面开始写滤波函数

//用OpenCL（GPU）计算单通道滤波 iDataNum 数据总个数

BOOL CFilter::Filter_GPU(float *pBufferIn,float *pBuferOut,const int iDataNum)

{

if(!m_bInitCL || !m_bInitFilter)

{

return FALSE;

}

if(pBufferIn == NULL || pBuferOut == NULL || iDataNum <=0 )

{

return FALSE;

}

cl_int iError = 0; // Used to handle iError codes

const int iMem_size = sizeof(float)*m_iFilterLen;

int iSrcLen = m_iFilterLen + iDataNum -1;

if(m_pSrcBuffer == NULL || m_iSrcBufferLen < iSrcLen)

{//没有申请缓冲或者缓冲太小，需要申请缓冲

if(m_pSrcBuffer)

{//删除重新申请

delete m_pSrcBuffer;

m_pSrcBuffer = NULL;

}

m_iSrcBufferLen = iSrcLen;

m_pSrcBuffer = new float[m_iSrcBufferLen];

}

//准备数据

memcpy(m_pSrcBuffer,m_pDataSave + 1,(m_iFilterLen - 1) * sizeof(float));//把上一次的数据尾的数据拷到源数据缓冲头

memcpy(m_pSrcBuffer + m_iFilterLen -1,pBufferIn,iDataNum * sizeof(float));//拷贝源数据

memcpy(m_pDataSave,pBufferIn + iDataNum - m_iFilterLen,m_iFilterLen * sizeof(float));//把本次的数据尾的数据暂存，以便下次使用

//建立CL缓冲

cl_mem pSrcBuffer_CL = clCreateBuffer(m_clContext, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, iSrcLen * sizeof(float), m_pSrcBuffer, &iError); //源数据

cl_mem FilterBuffer_CL = clCreateBuffer(m_clContext, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, iMem_size, m_pFilterBuffer, &iError); //滤波系数

cl_mem pBufferOut_CL = clCreateBuffer(m_clContext, CL_MEM_WRITE_ONLY, iSrcLen * sizeof(float), NULL, &iError); //结果

const int iFilterLen = m_iFilterLen;

//设置Kernel函数参数

iError = clSetKernelArg(m_clKernel, 0, sizeof(cl_mem), &pSrcBuffer_CL);

iError |= clSetKernelArg(m_clKernel, 1, sizeof(cl_mem), &FilterBuffer_CL);

iError |= clSetKernelArg(m_clKernel, 2, sizeof(cl_mem), &pBufferOut_CL);

iError |= clSetKernelArg(m_clKernel, 3, sizeof(size_t), &iDataNum);

iError |= clSetKernelArg(m_clKernel, 4, sizeof(size_t), &iFilterLen);

// 执行kernel函数

const size_t global_ws = iDataNum; // Total number of work-items

iError = clEnqueueNDRangeKernel(m_clQueue, m_clKernel, 1, NULL, &global_ws, NULL, 0, NULL, NULL);

//读取结果数据

iError = clEnqueueReadBuffer(m_clQueue, pBufferOut_CL, CL_TRUE, 0, iDataNum * sizeof(float), pBuferOut, 0, NULL, NULL);

//释放CL缓冲

clReleaseMemObject(pSrcBuffer_CL);

clReleaseMemObject(FilterBuffer_CL);

clReleaseMemObject(pBufferOut_CL);

return TRUE;

}

//用OpenCL（GPU）多通道滤波，iDataNum 数据总个数，iFrameLen 帧长度bFrameOrder = TRUE 按帧排列，bFrameOrder = FALSE 按通道排列

BOOL CFilter::Filter_GPU(float *pBufferIn,float *pBuferOut,const int iDataNum,const int iFrameLen,BOOL bFrameOrder)

{

if(!m_bInitCL || !m_bInitFilter)

{

return FALSE;

}

if(pBufferIn == NULL || pBuferOut == NULL || iDataNum <=0 || iFrameLen <=0)

{

return FALSE;

}

cl_int iError = 0; // Used to handle iError codes

int i =0;

int iSrcLen = ((m_iFilterLen - 1 ) *iFrameLen + iDataNum );

if(m_pSrcBuffer == NULL || m_iSrcBufferLen < iSrcLen)

{//没有申请缓冲或者缓冲太小，需要申请缓冲

if(m_pSrcBuffer)

{//删除重新申请

delete m_pSrcBuffer;

m_pSrcBuffer = NULL;

}

m_iSrcBufferLen = iSrcLen;

m_pSrcBuffer = new float[m_iSrcBufferLen];

}

//准备数据

int iFrames = iDataNum / iFrameLen;

int iBlockLen = iFrames + m_iFilterLen - 1;

if(bFrameOrder)

{//按帧排列

for(i =0;i< iFrameLen;i++)

{//把上一次的数据尾的数据拷到源数据的每个段缓冲头

memcpy(m_pSrcBuffer + i * iBlockLen,m_pDataSave + i * m_iFilterLen + 1,(m_iFilterLen - 1) * sizeof(float));

}

for(i =0;i< iFrames;i++)

{

for(int j=0;j< iFrameLen;j++)

{

m_pSrcBuffer[j * iBlockLen + m_iFilterLen - 1 + i] = pBufferIn[i * iFrameLen + j];

}

for(i =0;i< iFrameLen;i++)

{//把本次的数据尾的数据暂存，以便下次使用

memcpy(m_pDataSave + i * m_iFilterLen ,m_pSrcBuffer + i * iBlockLen + iBlockLen - m_iFilterLen,(m_iFilterLen - 1) * sizeof(float));

}

else

{//按通道排列

for(i =0;i< iFrameLen;i++)

{

memcpy(m_pSrcBuffer + i * iBlockLen,m_pDataSave + i * m_iFilterLen + 1,(m_iFilterLen - 1) * sizeof(float));//把上一次的数据尾的数据拷到源数据的每个段的缓冲头

memcpy(m_pSrcBuffer+ i * iBlockLen + m_iFilterLen - 1,pBufferIn + i * iFrames,iFrames * sizeof(float));//拷贝原始数据

memcpy(m_pDataSave + i * m_iFilterLen,m_pSrcBuffer + i * iBlockLen + iBlockLen - m_iFilterLen ,m_iFilterLen * sizeof(float));//把本次的数据尾的数据暂存，以便下次使用

}

const int iFilter_size = sizeof(float) * m_iFilterBufferLen;

//创建CL缓冲

cl_mem pSrcBuffer_CL = clCreateBuffer(m_clContext, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, iSrcLen * sizeof(float), m_pSrcBuffer, &iError); //源数据

cl_mem FilterBuffer_CL = clCreateBuffer(m_clContext, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, iFilter_size, m_pFilterBuffer, &iError); //滤波系数

cl_mem pBufferOut_CL = clCreateBuffer(m_clContext, CL_MEM_WRITE_ONLY, iSrcLen * sizeof(float), NULL, &iError); //结果

const int iFilter = m_iFilterLen;

iError = clSetKernelArg(m_clKernel1, 0, sizeof(cl_mem), &pSrcBuffer_CL);

iError |= clSetKernelArg(m_clKernel1, 1, sizeof(cl_mem), &FilterBuffer_CL);

iError |= clSetKernelArg(m_clKernel1, 2, sizeof(cl_mem), &pBufferOut_CL);

iError |= clSetKernelArg(m_clKernel1, 3, sizeof(size_t), &iDataNum);

iError |= clSetKernelArg(m_clKernel1, 4, sizeof(size_t), &iFilter);

iError |= clSetKernelArg(m_clKernel1, 5, sizeof(size_t), &iFrameLen);

// 执行kernel

const size_t global_ws = iDataNum; // Total number of work-items

iError = clEnqueueNDRangeKernel(m_clQueue, m_clKernel1, 1, NULL, &global_ws, NULL, 0, NULL, NULL);

//读取结果

iError = clEnqueueReadBuffer(m_clQueue, pBufferOut_CL, CL_TRUE, 0, iDataNum * sizeof(float), pBuferOut, 0, NULL, NULL);

//结果是按通道存储的，因此，如果要按帧输出，需要转换

//释放CL缓冲

clReleaseMemObject(pSrcBuffer_CL);

clReleaseMemObject(FilterBuffer_CL);

clReleaseMemObject(pBufferOut_CL);

return TRUE;

}

Kernel 函数，写在testgpu.cl文件中

__kernel void Filter_GPU_Multi(__global const float* pSrcBuffer_CL,__global const float* pFilterBuffer_CL,__global float* pBufferOut_CL,const int iNum,const int iFilterNum,const int iFrameLen)

{//多通道滤波

const int idx = get_global_id(0);

if (idx < iNum)

{

int iBlockLen = iNum / iFrameLen;

int iFrames = idx / iBlockLen;

float fSum =0.0f;

for(int i = 0;i< iFilterNum;i++)

{

fSum += pSrcBuffer_CL[iFrames * (iFilterNum -1 + iBlockLen ) + idx % iBlockLen + i] * pFilterBuffer_CL[iFrames * iFilterNum + i];

}

pBufferOut_CL[idx] = fSum;

}

__kernel void Filter_GPU_Single(__global const float* pSrcBuffer_CL,__global const float* pFilterBuffer_CL,__global float* pBufferOut_CL,const int iNum,const int iFilterNum)

{//单通道滤波

const int idx = get_global_id(0);

if (idx < iNum)

{

float fSum =0.0f;

for(int i = 0;i< iFilterNum;i++)

{

fSum += pSrcBuffer_CL[idx + i] * pFilterBuffer_CL[i];

}

pBufferOut_CL[idx] = fSum;

}

为了验证用GPU计算的结果是否正确，还需要写CPU计算的程序，以便验证其正确性。CPU计算此处就不贴代码了，完整代码请到http://download.csdn.net/detail/iddialog/4640938 下载。

以上程序在win7 CUDA SDK 4.2 和 VC++ 2008 + SP1 编译通过。能够正常运行。运行结果GPU和CPU运算结果是一致的。由于每次计算后，m_pDataSave的内容发生变化，输出缓冲前面一段数据可能会不一样。如果要测试GPU和CPU两种方式的结果是否一样，需要每次在滤波前把m_pDataSave的内容设成一样。

如果VS2008没有SP1，需要修改stdafx.h文件

删除下面这行

#include // 功能区和控件条的MFC 支持

添加

#ifdef CWinAppEx

#undef CWinAppEx

#endif

#define CWinAppEx CWinApp

结尾：

由于第一次写OpenCL程序，错误在所难免。而且对于cl的滤波函数，也没有很好的算法，也没花时间去研究。只能算是实验OpenCL的一个测试程序。对于GPU加速的程序，需要好的算法。对于程序员来说，需要改变以前的思维习惯，以前都用单一的计算单元在做计算，即便用到多线程，也是基于任务的，也就是说A线程做一件事，B线程做另外一件事。对于运算，一般在循环中顺序执行。而GPU由于内核多，是并发执行的，因此需要考虑其并发性和乱序执行。如果数据量小的话，其数据IO所占的时间往往比执行所占的时间多，这时使用GPU还不如使用CPU快。因此，好的算法以及运算量大的程序，才能感觉到GPU加速的优势。要写好OpenCL程序，以后的路还很长。（什么时候我们的程序由CPU和GPU自动调节运行就好了，对用户和程序员均不透明，就像双核或者多核CPU一样，我们根本就不用关心程序或者说某个线程在哪个核上运行！呵呵）。

你可能感兴趣的:(OpenCL)

FPGA器件在线配置方法概述 fpga和matlab FPGA 其他 fpga开发 FPGA 在线配置
目录1.配置电路结构和原理2.ICR控制电路软件3.几种常见的FPGA在线配置方法3.1动态部分重配置（PartialReconfiguration,PR）3.2在系统编程（In-SystemProgramming,ISP）3.3多比特流配置（Multi-BitstreamConfiguration）3.4远程更新与配置3.5使用OpenCL或HLS工具FPGA（Field-Programmabl
OPENCL之SIMT与SIMD在架构上的主要区别是什么？糯米宝宝 gpu opencv
SIMT（单指令多线程）与SIMD（单指令多数据）在架构上的主要区别体现在以下几个方面：执行单元的组织方式：SIMD：采用的是多数据流架构，即同一条指令同时作用于多个数据元素。这种架构特别适合于多媒体应用等数据密集型运算。SIMT：采用的是多线程架构，即同一条指令由多个线程并行执行。每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（
10 自研rgbd相机基于rk3566之OPENCL加速库测试与开发三十度角阳光的问候 opencl gpu加速 rk3566/rk3588 核函数异构加速
OPENCL加速库测试与开发opencl加速库介绍1OpenCL概念2OpenCL程序通常包含以下几个主要组件：3opencl移植与调用：opencl加速库核函数编写1开发流程：2核函数编写接口函数定义如下：示例代码如下：opencl加速库示例代码opencl加速库介绍1OpenCL概念opencl是可以直接调用gpu资源进行加速的库，除英伟达外的gpu调用方法。例如maligpu，适用于多种ar
《C++与新兴硬件技术的完美融合：开启未来科技新篇章》程序猿阿伟 c++科技开发语言
在科技飞速发展的今天，新兴硬件技术不断涌现，为软件开发带来了前所未有的机遇和挑战。C++作为一种强大而高效的编程语言，如何更好地与这些新兴硬件技术结合，成为了众多开发者关注的焦点。首先，在与GPU（图形处理单元）的结合方面，C++展现出了巨大的潜力。GPU拥有强大的并行计算能力，能够快速处理大量的数据和复杂的计算任务。通过CUDA和OpenCL等技术，C++开发者可以充分利用GPU的性能优势，实现
Java设计模式七大原则-开闭原则 zoeil Java设计模式
开闭原则基本介绍开闭原则（OpenClosedPrinciple）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。例子publicclassOcp{pu
设计模式-七大原则-开闭原则一个路过的小孩 java #设计模式设计模式开闭原则
开闭原则OpenClosedPrinciple目录开闭原则基本介绍案例1运行结果分析demo输出结果基本介绍1.开闭原则OpenClosedPrinciple是编程中最基础、最重要的设计原则（ocp原则）2.一个软件的实体（eg：类），模块和函数应该对扩展开放（对提供方），对修改关闭（对使用方）用抽象构建框架，用实现扩展细节。3.当软件需求发生变化的时候，尽量通过扩展软件实体的行为实现变化，而不是
OpenCL在移动端GPU计算中的应用与实践 m0_67544708 java GPU OpenCL
一、引言移动端芯片性能的不断提升为在手机上进行计算密集型任务，如计算机图形学和深度学习模型推理，提供了可能。在Android设备上，GPU，尤其是高通Adreno和华为Mali，因其卓越的浮点运算能力，成为了异构计算中的重要组成部分。百度APP已经利用GPU计算加速深度模型推理和计算密集型业务。本文将介绍OpenCL的基础概念和简单编程。二、基础概念2.1异构计算异构计算指的是使用不同类型指令集和
设计模式 -- 七大原则（五）-- 开闭原则认真的小羽❅ 设计模式开闭原则
1基本介绍开闭原则（OpenClosedPrinciple，简称OCP）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。2实例2.1问题程序public
tvm交叉编译android opencl 极乐净土0822 android tvm ndk 交叉编译 opencl
模型编译：#encoding:utf-8importonnximportnumpyasnpimporttvmimporttvm.relayasrelayimportosfromtvm.contribimportndkonnx_model=onnx.load('mobilenet_v3_small.onnx')x=np.ones([1,3,224,224])input_name='input1'sh
OpenCL 图像处理函数、图像放缩和插值陈塬升 OpenCL c++算法
1.OpenCL提供了大量可以在内核中运行的图像处理函数，它们大致可以分为以下三类：（1）Readfunctiongs--返回给定坐标上的颜色取值；（2）writefunctiongs--设定给定坐标上的颜色取值；（3）Informationfunctions--提供关于图像对象的信息，例如图像的维度以及像素属性；图像读取函数是从图像对象中读取向量，他们各自的参数基本一样。唯一的区别是函数返回的是
Stable Diffusion模型对比研三小学渣学习笔记人工智能计算机视觉深度学习
StableDiffusionV1系列是用基于GPT的CLIP模型，其模型参数量为123.65M；StableDiffusionV2系列则换成了更新更好的OpenCLIP模型，其参数量为354.03M，相比SDV1的TextEncoder模型大了3倍左右StableDiffusionv1：它使用了LAION-2B(en)数据集以及laion-high-resolution和laion-improv
嵌入式调试工具之GDB 稚肩嵌入式linux linux 嵌入式 GDB
在单片机开发中，我们可以通过集成式的IDE来进行调试，比如MDK、IAR等。GDB工具是GNU项目调试器，基于命令行使用。和其他的调试器一样，可使用GDB工具单步运行程序、单步执行、跳入/跳出函数、设置断点、查看变量等等，它是UNIX/LINUX操作系统下强大的程序调试工具。GDB支持多种语言，包括Ada、汇编、C/C++、D、Fortran、GO、Objective-C、OpenCL、Modul
前端常见的设计模式一只理智恩前端设计模式 javascript 前端开发语言
说到设计模式，大家想到的就是六大原则，23种模式。这么多模式，并非都要记住，但作为前端开发，对于前端出现率高的设计模式还是有必要了解并掌握的，浅浅掌握9种模式后，整理了这份文章。六大原则：依赖倒置原则(DependenceInversionPrinciple)：高层(业务层)不应该直接调用底层(基础层)模块开闭原则(OpenClosePrinciple)：单模块对拓展开放、对修改关闭单一原则(Si
GraphicsMagick 的 OpenCL 开发记录（三十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录`AccelerateScaleImage()`和`AccelerateResizeImage()`的性能测试AccelerateScaleImage()和AccelerateResizeImage()的性能测试迭代100次，缩小图片50%，如下：[ysouyno@archgm-ocl]$MAGICK_OCL_DEVICE=truegmbenchmark-iterations100conv
GraphicsMagick 的 OpenCL 开发记录（三十七）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十一）如何写ScaleImage()的硬件加速函数（十一）“如何写ScaleImage()的硬件加速函数（十）”这里的代码写得比较随意，其中stopi=0;赋值为0后，下面的循环根本没有执行，这才使得显示的图片变正确了；且async_work_group_copy()的参数传得可能也不对，等等等。我原来的想法是在外部计算好需要的行数传入ke
GraphicsMagick 的 OpenCL 开发记录（八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL c++
文章目录调用`clCreateBuffer()`产生异常问题（六）调用clCreateBuffer()产生异常问题（六）我可能解决了这个问题，原来是因为没有及时清理内存的缘故！将问题最终定位在了RunOpenCLBenchmark()的结尾DestroyImage(resizedImage);处，即在DestroyCacheInfo()中应该有清除OpenCL相关内存的代码。见commit：fix
GraphicsMagick 的 OpenCL 开发记录（九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录关于`ImageMagick`中的`number_channels`成员（一）关于ImageMagick中的number_channels成员（一）在ImageMagick中number_channels成员出现频率有点高，经调试发现ImageMagick中图片对象初始化时通过调用OpenPixelCache()然后在InitializePixelChannelMap()中设置number
GraphicsMagick 的 OpenCL 开发记录（三十六）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十）如何写ScaleImage()的硬件加速函数（十）难道就这么被我轻松实现了？“如何写ScaleImage()的硬件加速函数（九）”是在“如何写ScaleImage()的硬件加速函数（八）”的基础上处理了图片放大变亮的问题，但是他们都只是X方向的处理，没有实现原始函数ScaleImage()的Y方向缩放。目前先处理Y方向再处理X方向的代码
GraphicsMagick 的 OpenCL 开发记录（四）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL
文章目录调用`clCreateBuffer()`产生异常问题（二）调用clCreateBuffer()产生异常问题（二）使用MAGICK_OCL_DEVICE=GPU且在已经安装了opencl-compute-runtime的情况下会产生两个问题：gm运行卡死，无法操作，CPU使用率居高不下，或者gm运行崩溃，产生如下提示：$gmdisplay~/temp/bg1a.jpgAbortwascall
【Vitis】Vitis HLS2023不支持的功能特性神仙约架 xilinx vitis fpga开发 xilinx vitis hls
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开发组件的步骤【Vitis】Viti
【Vitis】Vitis HLS简介神仙约架 vitis xilinx fpga开发 vitis HSL xilinx
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】VitisHLS简介【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开
设计模式概述大海_9052
设计模式主要是基于以下的面向对象设计原则。对接口编程而不是对实现编程。优先使用对象组合而不是继承。设计模式分类：设计模式的六大原则1、开闭原则（OpenClosePrinciple）开闭原则的意思是：对扩展开放，对修改关闭。在程序需要进行拓展的时候，不能去修改原有的代码，实现一个热插拔的效果。简言之，是为了使程序的扩展性好，易于维护和升级。想要达到这样的效果，我们需要使用接口和抽象类，后面的具体设
GraphicsMagick 的 OpenCL 开发记录（三十四）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（八）如何写ScaleImage()的硬件加速函数（八）我觉得Y方向的缩放以下面这种ScaleFilter()的方法是实现不了的，我只能添加进X方向的处理，缩小正常，放大的话图片变亮。STRINGIFY(__kernel__attribute__((reqd_work_group_size(256,1,1)))voidScaleFilter(
GraphicsMagick 的 OpenCL 开发记录（三十二）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（六）如何写ScaleImage()的硬件加速函数（六）不管什么事儿看来都怕琢磨，如果连做梦都能梦到你正在琢磨的事儿，估计离成功也就不远了。似乎目前已经达到了最好的效果，离目标越来越近了。要理解clEnqueueNDRangeKernel()函数的第五第六个参数意义，但目前为止只能说暂时理解了。cl_intclEnqueueNDRangeKe
GraphicsMagick 的 OpenCL 开发记录（三十三）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（七）如何写ScaleImage()的硬件加速函数（七）其实“如何写ScaleImage()的硬件加速函数（六）”的实现就是一个ResizeHorizontalFilter()将y改成y/xFactor的精简版，并不是ScaleImage()的硬件加速函数。虽然它不是，但至少省掉了ResizeVerticalFilter()的调用，速度上更快
linux运维:ywtools工具安装/卸载介绍 Z顺其自然 ywtools工具 linux 服务器 centos 运维工具安装/卸载
一.工具功能功能介绍ywtools工具是全部shell脚本编写,用于日常工作的linux运维二.已测试系统:centos7centos8centossteam8centossteam9rocky8rocky9AlmaLinux8.2/8.4AlmaLinux9.0/9.3opencloudos8.8(腾讯,类似centos8,软件包是oc8)三.安装/移除工具3.1安装工具工具包是bin文件,加执
2018-04-15 FPGA Kernel Log 七点水Plus
AMDprintf我们在kernel中增加了#pragmaOPENCLEXTENSIONcl_amd_printf:enable，以便在kernel中通过printf函数进行debug，这是AMD的一个扩展。printf还可以直接打印出float4这样的向量，比如printf(“%v4f”,vec)。#pragmaOPENCLEXTENSIONcl_amd_printf:enable__kerne
GraphicsMagick 的 OpenCL 开发记录（三十）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（四）如何写ScaleImage()的硬件加速函数（四）经过这两天的尝试，越来越对ScaleImage()用硬件加速实现这件事感到怀疑，因为似乎没有发现这个函数的硬件加速版本能带来很好的性能，当然我这个OpenCL新手写的代码连我自己也不敢恭维，这也是一方面的原因，甚至可能占比很高。正如前面日志所说的能参考的代码只有ResizeHorizon
GraphicsMagick 的 OpenCL 开发记录（二十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（二）如何写ScaleImage()的硬件加速函数（二）搞了一天也没有搞出来kernel函数怎么写，还得仔细分析一下ScaleImage()函数流程：从GraphicsMagick的ScaleImage()入手，它比ImageMagick好懂。大循环的第一个if-else分支处理Y方向，即垂直方向，它用到两个动态数组x_vector和y_ve
GraphicsMagick 的 OpenCL 开发记录（二十九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（三）如何写ScaleImage()的硬件加速函数（三）在“如何写ScaleImage()的硬件加速函数（二）”中介绍的kernel函数的写法可能会产生如下现象：ScaleFilter()不是总能被成功调用。每次修改过ScaleFilter()后，有时在~.cache/GraphicsMagick目录中不会生成新的.bin文件。这种情况下，调
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟