Augusdi

OpenCL: 一种异构计算架构

OpenCL:一种异构计算架构

1 摘要
2 为什么需要OpenCL？
3 OpenCL架构
- 3.1 介绍
- 3.2 平台模型
- 3.3 执行模型
  - 3.3.1 内核
  - 3.3.2 上下文
  - 3.3.3 命令队列
- 3.4 内存模型
- 3.5 编程模型
4 基于OpenCL的编程示例
- 4.1 流程
- 4.2 图像旋转
  - 4.2.1 图像旋转原理
- 4.3 实现流程
- 4.4 图像旋转
5 总结
6 参考文献

1 摘要

由于晶体管功耗、物理性能的限制，CPU的发展受到了很大约束。人们转而寻找其它方式来提高系统性能，如多核处理器，异构平台等。开放式计算语言（OpenCL）的出现为当前大量存在的异构系统的并行计算提供了一个标准。OpenCL通过一系列API的定义，提供硬件独立的编程语言，为程序员提供了灵活而又高效的编程环境。本文通过对OpenCL计算架构的深入讨论，指出了OpenCL编程的优势及不足。并进行了相关编程实践，通过对不同设备的并行编程测试，表明如果采用OpenCL并行编程架构，能显著提高程序的运行效率。

目前的情况来看，异构系统有很高的性价比。相信在不久的将来，OpenCL将会成为计算机并行、异构计算的重要组成部分。

关键字：OpenCL，异构计算，CPU/GPU计算，并行计算

2 为什么需要OpenCL？

在过去的几十年里，计算机产业发生了巨大的变化。计算机性能的不断提高为当前各种应用提供了有力的保障。对于计算机的速度而言，正如摩尔定律描述的那样，是通过晶体管数目增加来提高频率的方式实现的。但是到了二十一世纪初期以后，这种增长方式受到了一些限制，晶体管尺寸变得已经很小，其物理特性决定了很难再通过大规模地增加晶体管的数目来提升频率，且由于功耗也以非线性的速度增加，因此这种方式受到很大的限制。在未来，这一趋势会继续成为影响计算机系统最为重要的因素之一。

为了解决这一问题通常有两种方式，第一种是通过增加处理器的核心数目来为多任务，多线程等提供支持，从整体上提升系统的性能。第二种方式是通过异构的方式，例如可利用CPU（Central Processing Unit）、GPU（Graphic Processing Unit）、甚至APU(Accelerated Processing Units， CPU与GPU的融合)等计算设备的计算能力从而来既提高系统的速度。

异构系统越来越普遍，对于支持这种环境的计算而言，也正受到越来越多的关注。当前，不同厂商通常仅仅提供对于自己设备编程的实现。对于异构系统一般很难用同种风格的编程语言来实现机构编程，而且将不同的设备作为统一的计算单元来处理的难度也是非常大的。

开放式计算语言（Open Computing Language: OpenCL），旨在满足这一重要需求。通过定义一套机制，来实现硬件独立的软件开发环境。利用OpenCL可以充分利用设备的并行特性，支持不同级别的并行，并且能有效映射到由CPU，GPU， FPGA（Field－Programmable Gate Array）和将来出现的设备所组成的同构或异构，单设备或多设备的系统。OpenCL定义了运行时，允许用来管理资源，将不同类型的硬件结合在同种执行环境中，并且很有希望在不久的将来，以更加自然的方式支持动态地平衡计算，功耗和其他资源。

我相信在不久的将来，OpenCL将在异构并行编程中得到广泛的应用。

3 OpenCL架构

3.1 介绍

OpenCL为异构平台提供了一个编写程序，尤其是并行程序的开放的框架标准。 OpenCL所支持的异构平台可由多核CPU、GPU或其他类型的处理器组成。 OpenCL由两部分组成，一是用于编写内核程序(在OpenCL设备上运行的代码) 的语言，二是定义并控制平台的API。OpenCL提供了基于任务和基于数据两种并行计算机制，它极大地扩展了GPU 的应用范围，使之不再局限于图形领域。

OpenCL由Khronos Group维护。Khronos Group是一个非盈利性技术组织，维护着多个开放的工业标准，例如OpenGL和OpenAL, 这两个标准分别用于三维图形和计算机音频方面。

OpenCL源程序既可以在多核CPU上也可以在GPU上编译执行，这大大提高了代码的性能和可移植性。OpenCL标准由相应的标准委员会制订，委员会的成员来自业界各个重要厂商（主要有：AMD，Intel，IBM和NVIDIA）。作为用户和程序员期待已久的东西，OpenCL带来两个重要变化：一个跨厂商的非专有软件解决方案；一个跨平台的异构框架以同时发挥系统中所有计算单元的能力。

OpenCL支持广泛的应用，将开发应用的过程一般化比较困难，但是，通常来说，一个基于异构平台的应用主要包含下面的步骤[ 3 ]：

找出组成异构平台的所有组件。
考察组件的特征，这样就能使得软件根据不同的硬件特征来实现。
创建在平台上运行的一组内核。
设置与计算相关的存储对象。
在合适的组件上以正确的顺序执行内核。
收集结果。

这些步骤通过在OpenCL内部的一系列API和内核编程环境来实现。这一实现采用“分治”策略。可将问题分解为下面的模型[ 1 ] 平台模型执行模型存储模型编程模型

这些概念是OpenCL整体架构的核心。这四个模型将贯穿在整个OpenCL的编程过程中。

下面就简要介绍这四个模型的相关内容。

3.2 平台模型

平台模型（如图1）指定有一个处理器（主机Host）来协调程序的执行，一个或多个处理器（设备Devices）来执行OpenCL C代码。在这里其实仅仅是一种抽象的硬件模型，这样就能方便程序员编写OpenCL C函数（称之为内核）并在不同的设备上执行。

图中的设备可以被看成是CPU/GPU，而设备中的计算单元可以被看成是 CPU/GPU的核，计算单元的所有处理节点作为SIMD单元或SPMD单元（每个处理节点维护自己的程序计数器）执行单个指令流。抽象的平台模型更与当前的GPU的架构接近。

平台可被认为是不同厂商提供的OpenCL API的实现。如果一个平台选定之后一般只能运行该平台所支持的设备。就当前的情况来看，如果选择了Intel的OpenCL SDK 就只能使用Intel的CPU来进行计算了，如果选择AMD的APP SDK则能进行AMD的CPU和AMD的 GPU来进行计算。一般而言，A公司的平台选定之后不能与B公司的平台进行通信。

3.3 执行模型

在执行模型中最重要的是内核，上下文和命令队列的概念。上下文管理多个设备，每个设备有一个命令队列，主机程序将内核程序提交到不同的命令队列上执行。

3.3.1 内核

内核是执行模型的核心，能在设备上执行。当一个内核执行之前，需要指定一个 N-维的范围（NDRange）。一个NDRange是一个一维、二维或三维的索引空间。还需要指定全局工作节点的数目，工作组中节点的数目。如图NDRange所示，全局工作节点的范围为{12, 12}，工作组的节点范围为{4, 4}，总共有9个工作组。

例如一个向量相加的内核程序：

__kernel void VectorAdd(__global int *A, __global int *B, __global int *C)
{
 int id = get_global_id(0); C[id] = A[id] + B[id]; 
}

如果定义向量为1024维，特别地，我们可以定义全局工作节点为1024，工作组中节点为128，则总共有8个组。定义工作组主要是为有些仅需在组内交换数据的程序提供方便。当然工作节点数目的多少要受到设备的限制。如果一个设备有1024个处理节点，则1024维的向量，每个节点计算一次就能完成。而如果一个设备仅有128个处理节点，那么每个节点需要计算8次。合理设置节点数目，工作组数目能提高程序的并行度。

3.3.2 上下文

一个主机要使得内核运行在设备上，必须要有一个上下文来与设备进行交互。一个上下文就是一个抽象的容器，管理在设备上的内存对象，跟踪在设备上创建的程序和内核。

3.3.3 命令队列

主机程序使用命令队列向设备提交命令，一个设备有一个命令队列，且与上下文相关。命令队列对在设备上执行的命令进行调度。这些命令在主机程序和设备上异步执行。执行时，命令间的关系有两种模式：(1)顺序执行，(2)乱序执行。

内核的执行和提交给一个队列的内存命令会生成事件对象。这用来控制命令的执行、协调宿主机和设备的运行。

3.4 内存模型

一般而言，不同的平台之间有不同的存储系统。例如，CPU有高速缓存而GPU就没有。为了程序的可移植性，OpenCL定义了抽象的内存模型，程序实现的时候只需关注抽象的内存模型，具体向硬件上的映射由驱动来完成。内存空间的定义及与硬件的映射大致如图所示。

内存空间在程序内部可以用关键字的方式指定，不同的定义与数据存在的位置相关，主要有如下几个基本概念[ 2 ]：

全局内存：所有工作组中的所有工作项都可以对其进行读写。工作项可以读写此中内存对象的任意元素。对全局内存的读写可能会被缓存，这取决于设备的能力。
不变内存：全局内存中的一块区域，在内核的执行过程中保持不变。宿主机负责对此中内存对象的分配和初始化。
局部内存：隶属于一个工作组的内存区域。它可以用来分配一些变量，这些变量由此工作组中的所有工作项共享。在OpenCL设备上，可能会将其实现成一块专有的内存区域，也可能将其映射到全局内存中。
私有内存：隶属于一个工作项的内存区域。一个工作项的私有内存中所定义的变量对另外一个工作项来说是不可见的。

3.5 编程模型

OpenCL支持数据并行，任务并行编程，同时支持两种模式的混合。对于同步 OpenCL支持同一工作组内工作项的同步和命令队列中处于同一个上下文中的命令的同步。

4 基于OpenCL的编程示例

在本小节中以图像旋转的实例，具体介绍OpenCL编程的步骤。首先给出实现流程，然后给出实现图像旋转的C循环实现和OpenCL C kernel实现。

4.1 流程

4.2 图像旋转

4.2.1 图像旋转原理

图像旋转是指把定义的图像绕某一点以逆时针或顺时针方向旋转一定的角度，通常是指绕图像的中心以逆时针方向旋转。假设图像的左上角为(l, t), 右下角为(r, b)，则图像上任意点(x, y) 绕其中心(xcenter, ycenter)逆时针旋转θ角度后，新的坐标位置(x',y')的计算公式为：

x′ = (x - xcenter) cosθ - (y － ycenter) sinθ + xcenter,

y′ = (x - xcenter) sinθ + (y － ycenter) cosθ + ycenter.

C代码：

void rotate( unsigned char* inbuf, unsigned char* outbuf, int w, int h, float sinTheta, float cosTheta) 
{
	int i, j; int xc = w / 2;
	int yc = h / 2;
	for(i = 0; i < h; i++)
	{
		for(j = 0; j < w; j++)
		{
			int xpos = (j - xc) * cosTheta - (i - yc) * sinTheta + xc;
			int ypos = (j - xc) * sinTheta + (i - yc) * cosTheta + yc;
			if(xpos >= 0 && ypos >= 0 && xpos < w && ypos < h)
			{
				outbuf[ypos * w + xpos] = inbuf[i * w + j];
			}
		}
	}
}

OpenCL C kernel代码：

#pragma OPENCL EXTENSION cl_amd_printf : enable 
__kernel void image_rotate(__global uchar * src_data, __global uchar * dest_data, //Data in global memory 
			int W, int H, //Image Dimensions 
			float sinTheta, float cosTheta ) //Rotation Parameters 
{
	const int ix = get_global_id(0); 
	const int iy = get_global_id(1); 
	int xc = W / 2; 
	int yc = H / 2; 
	int xpos = (ix - xc) * cosTheta - (iy - yc) * sinTheta + xc; 
	int ypos = (ix - xc) * sinTheta + (iy - yc) * cosTheta + yc; 
	if ((xpos >= 0) && (xpos < W) && (ypos >= 0) && (ypos < H)) 
	{
		dest_data[ypos * W + xpos]= src_data[iy * W + ix]; 
	}
}

旋转45度

正如上面代码中所给出的那样，在C代码中需要两重循环来计算横纵坐标上新的坐标位置。其实，在图像旋转的算法中每个点的计算可以独立进行，与其它点的坐标位置没有关系，所以并行处理较为方便。OpenCL C kernel代码中用了并行处理。

上面的代码在Intel的OpenCL平台上进行了测试，处理器为双核处理器，图像大小为4288*3216，如果用循环的方式运行时间稳定在0.256s左右，而如果用OpenCL C kernel并行的方式，运行时间稳定在0.132秒左右。GPU的测试在NVIDIA的GeForce G105M显卡上进行，运行时间稳定在0.0810s左右。从循环的方式，双核CPU并行以及GPU并行计算已经可以看出，OpenCL编程的确能大大提高执行效率。

5 总结

通过对OpenCL编程的分析和实验可以得出，用OpenCL编写的应用具有很好的移植性，能在不同的设备上运行。OpenCL C kernel一般用并行的方式处理，所以能极大地提高程序的运行效率。

异构并行计算变得越来越普遍，然而对于现今存在的OpenCL版本来说，的确还存在很多不足，例如编写内核，需要对问题的并行情况做较为深入的分析，对于内存的管理还是需要程序员来显式地申明、显式地在主存和设备的存储器之间进行移动，还不能完全交给系统自动完成。从这些方面，OpenCL的确还需加强，要使得人们能高效而又灵活地开发应用，还有很多工作要完成。

6 参考文献

【1】 Aaftab Munshi. The OpenCL Specification Version1.1 Document Revision:44[M]. Khronos OpenCL Working Group. 2011.6.1.

【2】Aaftab Munshi. 倪庆亮译. OpenCL规范 Version1.0 Document Revision:48[M]. Khronos OpenCL Working Group. 2009.10.6.

【3】Aaftab Munshi, Benedict R. Gaster, Timothy G. Mattson, James Fung, Dan Ginsburg. OpenCL Programming Guide [M]. Addison-Wesley Professional. 2011.7.23.

【4】Benedict Gaster, Lee Howes, David R. Kaeli and Perhaad Mistry. Heterogeneous Computing with OpenCL[M]. Morgan Kaufmann, 1 edition. 2011.8.31.

【5】Slo-Li Chu, Chih-Chieh Hsiao. OpenCL: Make Ubiquitous Supercomputing Possible[J]. IEEE International Conference on High Performance Computing and Communications. 2010 12th 556-561.

【6】John E. Stone, David Gohara, Guochun Shi. OpenCL: A parallel programming standard for heterogeneous computing systems[J]. Copublished by the IEEE CS and the AIP. 2010.5/6 66-72.

【7】Kyle Spafford, Jeremy Meredith, Jeffrey Vetter. Maestro:Data Orchestration and Tuning for OpenCL Devices[J]. P. D'Ambra,M.Guarracino, and D.Talia (Eds.):Euro-Par 2010,Part II,LNCS6272, pp. 275–286, 2010. \copyright Springer-Verlag Berlin Heidelberg 2010.

Author: Let it be!

Date: 2011-11-13 00:12:07

http://www.haogongju.net/art/1212769

FPGA器件在线配置方法概述 fpga和matlab FPGA 其他 fpga开发 FPGA 在线配置
目录1.配置电路结构和原理2.ICR控制电路软件3.几种常见的FPGA在线配置方法3.1动态部分重配置（PartialReconfiguration,PR）3.2在系统编程（In-SystemProgramming,ISP）3.3多比特流配置（Multi-BitstreamConfiguration）3.4远程更新与配置3.5使用OpenCL或HLS工具FPGA（Field-Programmabl
OPENCL之SIMT与SIMD在架构上的主要区别是什么？糯米宝宝 gpu opencv
SIMT（单指令多线程）与SIMD（单指令多数据）在架构上的主要区别体现在以下几个方面：执行单元的组织方式：SIMD：采用的是多数据流架构，即同一条指令同时作用于多个数据元素。这种架构特别适合于多媒体应用等数据密集型运算。SIMT：采用的是多线程架构，即同一条指令由多个线程并行执行。每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（
10 自研rgbd相机基于rk3566之OPENCL加速库测试与开发三十度角阳光的问候 opencl gpu加速 rk3566/rk3588 核函数异构加速
OPENCL加速库测试与开发opencl加速库介绍1OpenCL概念2OpenCL程序通常包含以下几个主要组件：3opencl移植与调用：opencl加速库核函数编写1开发流程：2核函数编写接口函数定义如下：示例代码如下：opencl加速库示例代码opencl加速库介绍1OpenCL概念opencl是可以直接调用gpu资源进行加速的库，除英伟达外的gpu调用方法。例如maligpu，适用于多种ar
《C++与新兴硬件技术的完美融合：开启未来科技新篇章》程序猿阿伟 c++科技开发语言
在科技飞速发展的今天，新兴硬件技术不断涌现，为软件开发带来了前所未有的机遇和挑战。C++作为一种强大而高效的编程语言，如何更好地与这些新兴硬件技术结合，成为了众多开发者关注的焦点。首先，在与GPU（图形处理单元）的结合方面，C++展现出了巨大的潜力。GPU拥有强大的并行计算能力，能够快速处理大量的数据和复杂的计算任务。通过CUDA和OpenCL等技术，C++开发者可以充分利用GPU的性能优势，实现
Java设计模式七大原则-开闭原则 zoeil Java设计模式
开闭原则基本介绍开闭原则（OpenClosedPrinciple）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。例子publicclassOcp{pu
设计模式-七大原则-开闭原则一个路过的小孩 java #设计模式设计模式开闭原则
开闭原则OpenClosedPrinciple目录开闭原则基本介绍案例1运行结果分析demo输出结果基本介绍1.开闭原则OpenClosedPrinciple是编程中最基础、最重要的设计原则（ocp原则）2.一个软件的实体（eg：类），模块和函数应该对扩展开放（对提供方），对修改关闭（对使用方）用抽象构建框架，用实现扩展细节。3.当软件需求发生变化的时候，尽量通过扩展软件实体的行为实现变化，而不是
OpenCL在移动端GPU计算中的应用与实践 m0_67544708 java GPU OpenCL
一、引言移动端芯片性能的不断提升为在手机上进行计算密集型任务，如计算机图形学和深度学习模型推理，提供了可能。在Android设备上，GPU，尤其是高通Adreno和华为Mali，因其卓越的浮点运算能力，成为了异构计算中的重要组成部分。百度APP已经利用GPU计算加速深度模型推理和计算密集型业务。本文将介绍OpenCL的基础概念和简单编程。二、基础概念2.1异构计算异构计算指的是使用不同类型指令集和
设计模式 -- 七大原则（五）-- 开闭原则认真的小羽❅ 设计模式开闭原则
1基本介绍开闭原则（OpenClosedPrinciple，简称OCP）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。2实例2.1问题程序public
tvm交叉编译android opencl 极乐净土0822 android tvm ndk 交叉编译 opencl
模型编译：#encoding:utf-8importonnximportnumpyasnpimporttvmimporttvm.relayasrelayimportosfromtvm.contribimportndkonnx_model=onnx.load('mobilenet_v3_small.onnx')x=np.ones([1,3,224,224])input_name='input1'sh
OpenCL 图像处理函数、图像放缩和插值陈塬升 OpenCL c++算法
1.OpenCL提供了大量可以在内核中运行的图像处理函数，它们大致可以分为以下三类：（1）Readfunctiongs--返回给定坐标上的颜色取值；（2）writefunctiongs--设定给定坐标上的颜色取值；（3）Informationfunctions--提供关于图像对象的信息，例如图像的维度以及像素属性；图像读取函数是从图像对象中读取向量，他们各自的参数基本一样。唯一的区别是函数返回的是
Stable Diffusion模型对比研三小学渣学习笔记人工智能计算机视觉深度学习
StableDiffusionV1系列是用基于GPT的CLIP模型，其模型参数量为123.65M；StableDiffusionV2系列则换成了更新更好的OpenCLIP模型，其参数量为354.03M，相比SDV1的TextEncoder模型大了3倍左右StableDiffusionv1：它使用了LAION-2B(en)数据集以及laion-high-resolution和laion-improv
嵌入式调试工具之GDB 稚肩嵌入式linux linux 嵌入式 GDB
在单片机开发中，我们可以通过集成式的IDE来进行调试，比如MDK、IAR等。GDB工具是GNU项目调试器，基于命令行使用。和其他的调试器一样，可使用GDB工具单步运行程序、单步执行、跳入/跳出函数、设置断点、查看变量等等，它是UNIX/LINUX操作系统下强大的程序调试工具。GDB支持多种语言，包括Ada、汇编、C/C++、D、Fortran、GO、Objective-C、OpenCL、Modul
前端常见的设计模式一只理智恩前端设计模式 javascript 前端开发语言
说到设计模式，大家想到的就是六大原则，23种模式。这么多模式，并非都要记住，但作为前端开发，对于前端出现率高的设计模式还是有必要了解并掌握的，浅浅掌握9种模式后，整理了这份文章。六大原则：依赖倒置原则(DependenceInversionPrinciple)：高层(业务层)不应该直接调用底层(基础层)模块开闭原则(OpenClosePrinciple)：单模块对拓展开放、对修改关闭单一原则(Si
GraphicsMagick 的 OpenCL 开发记录（三十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录`AccelerateScaleImage()`和`AccelerateResizeImage()`的性能测试AccelerateScaleImage()和AccelerateResizeImage()的性能测试迭代100次，缩小图片50%，如下：[ysouyno@archgm-ocl]$MAGICK_OCL_DEVICE=truegmbenchmark-iterations100conv
GraphicsMagick 的 OpenCL 开发记录（三十七）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十一）如何写ScaleImage()的硬件加速函数（十一）“如何写ScaleImage()的硬件加速函数（十）”这里的代码写得比较随意，其中stopi=0;赋值为0后，下面的循环根本没有执行，这才使得显示的图片变正确了；且async_work_group_copy()的参数传得可能也不对，等等等。我原来的想法是在外部计算好需要的行数传入ke
GraphicsMagick 的 OpenCL 开发记录（八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL c++
文章目录调用`clCreateBuffer()`产生异常问题（六）调用clCreateBuffer()产生异常问题（六）我可能解决了这个问题，原来是因为没有及时清理内存的缘故！将问题最终定位在了RunOpenCLBenchmark()的结尾DestroyImage(resizedImage);处，即在DestroyCacheInfo()中应该有清除OpenCL相关内存的代码。见commit：fix
GraphicsMagick 的 OpenCL 开发记录（九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录关于`ImageMagick`中的`number_channels`成员（一）关于ImageMagick中的number_channels成员（一）在ImageMagick中number_channels成员出现频率有点高，经调试发现ImageMagick中图片对象初始化时通过调用OpenPixelCache()然后在InitializePixelChannelMap()中设置number
GraphicsMagick 的 OpenCL 开发记录（三十六）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十）如何写ScaleImage()的硬件加速函数（十）难道就这么被我轻松实现了？“如何写ScaleImage()的硬件加速函数（九）”是在“如何写ScaleImage()的硬件加速函数（八）”的基础上处理了图片放大变亮的问题，但是他们都只是X方向的处理，没有实现原始函数ScaleImage()的Y方向缩放。目前先处理Y方向再处理X方向的代码
GraphicsMagick 的 OpenCL 开发记录（四）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL
文章目录调用`clCreateBuffer()`产生异常问题（二）调用clCreateBuffer()产生异常问题（二）使用MAGICK_OCL_DEVICE=GPU且在已经安装了opencl-compute-runtime的情况下会产生两个问题：gm运行卡死，无法操作，CPU使用率居高不下，或者gm运行崩溃，产生如下提示：$gmdisplay~/temp/bg1a.jpgAbortwascall
【Vitis】Vitis HLS2023不支持的功能特性神仙约架 xilinx vitis fpga开发 xilinx vitis hls
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开发组件的步骤【Vitis】Viti
【Vitis】Vitis HLS简介神仙约架 vitis xilinx fpga开发 vitis HSL xilinx
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】VitisHLS简介【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开
设计模式概述大海_9052
设计模式主要是基于以下的面向对象设计原则。对接口编程而不是对实现编程。优先使用对象组合而不是继承。设计模式分类：设计模式的六大原则1、开闭原则（OpenClosePrinciple）开闭原则的意思是：对扩展开放，对修改关闭。在程序需要进行拓展的时候，不能去修改原有的代码，实现一个热插拔的效果。简言之，是为了使程序的扩展性好，易于维护和升级。想要达到这样的效果，我们需要使用接口和抽象类，后面的具体设
GraphicsMagick 的 OpenCL 开发记录（三十四）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（八）如何写ScaleImage()的硬件加速函数（八）我觉得Y方向的缩放以下面这种ScaleFilter()的方法是实现不了的，我只能添加进X方向的处理，缩小正常，放大的话图片变亮。STRINGIFY(__kernel__attribute__((reqd_work_group_size(256,1,1)))voidScaleFilter(
GraphicsMagick 的 OpenCL 开发记录（三十二）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（六）如何写ScaleImage()的硬件加速函数（六）不管什么事儿看来都怕琢磨，如果连做梦都能梦到你正在琢磨的事儿，估计离成功也就不远了。似乎目前已经达到了最好的效果，离目标越来越近了。要理解clEnqueueNDRangeKernel()函数的第五第六个参数意义，但目前为止只能说暂时理解了。cl_intclEnqueueNDRangeKe
GraphicsMagick 的 OpenCL 开发记录（三十三）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（七）如何写ScaleImage()的硬件加速函数（七）其实“如何写ScaleImage()的硬件加速函数（六）”的实现就是一个ResizeHorizontalFilter()将y改成y/xFactor的精简版，并不是ScaleImage()的硬件加速函数。虽然它不是，但至少省掉了ResizeVerticalFilter()的调用，速度上更快
linux运维:ywtools工具安装/卸载介绍 Z顺其自然 ywtools工具 linux 服务器 centos 运维工具安装/卸载
一.工具功能功能介绍ywtools工具是全部shell脚本编写,用于日常工作的linux运维二.已测试系统:centos7centos8centossteam8centossteam9rocky8rocky9AlmaLinux8.2/8.4AlmaLinux9.0/9.3opencloudos8.8(腾讯,类似centos8,软件包是oc8)三.安装/移除工具3.1安装工具工具包是bin文件,加执
2018-04-15 FPGA Kernel Log 七点水Plus
AMDprintf我们在kernel中增加了#pragmaOPENCLEXTENSIONcl_amd_printf:enable，以便在kernel中通过printf函数进行debug，这是AMD的一个扩展。printf还可以直接打印出float4这样的向量，比如printf(“%v4f”,vec)。#pragmaOPENCLEXTENSIONcl_amd_printf:enable__kerne
GraphicsMagick 的 OpenCL 开发记录（三十）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（四）如何写ScaleImage()的硬件加速函数（四）经过这两天的尝试，越来越对ScaleImage()用硬件加速实现这件事感到怀疑，因为似乎没有发现这个函数的硬件加速版本能带来很好的性能，当然我这个OpenCL新手写的代码连我自己也不敢恭维，这也是一方面的原因，甚至可能占比很高。正如前面日志所说的能参考的代码只有ResizeHorizon
GraphicsMagick 的 OpenCL 开发记录（二十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（二）如何写ScaleImage()的硬件加速函数（二）搞了一天也没有搞出来kernel函数怎么写，还得仔细分析一下ScaleImage()函数流程：从GraphicsMagick的ScaleImage()入手，它比ImageMagick好懂。大循环的第一个if-else分支处理Y方向，即垂直方向，它用到两个动态数组x_vector和y_ve
GraphicsMagick 的 OpenCL 开发记录（二十九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（三）如何写ScaleImage()的硬件加速函数（三）在“如何写ScaleImage()的硬件加速函数（二）”中介绍的kernel函数的写法可能会产生如下现象：ScaleFilter()不是总能被成功调用。每次修改过ScaleFilter()后，有时在~.cache/GraphicsMagick目录中不会生成新的.bin文件。这种情况下，调
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen