chifredhong

OpenCL浅析（2）- 对象与API

OpenCL规范

OpenCL规范由四个模型组成，分别是平台模型、执行模型、存储模型和编程模型。

平台模型

OpenCL平台框架由两个部分组成：主机和从设备。主机在异构计算中扮演者管理者和命令传达者的角色，从设备扮演计算具体任务的角色。

每个设备由一个或多个CU（计算单元）组成
每个计CU被进一步划分为一个或多个PE（处理元素），PE是OpenCL设备进行计算的最小单元
OpenCL应用是通过主机代码和设备执行代码实现的，主机选择特定的从设备，并建立相应的执行环境，然后将从设备执行的代码和数据通过PCIe接口发送给设备，设备同时调用内部多个计算单元进行数据计算，等待计算完成后，主机读取结果，结束任务，释放对象。

GPU和FPGA设备对应的逻辑单元到物理单元的映射

	GPU	FPGA
PE	core或者SP（流处理单元）	单条流水线电路的某次迭代
CU	SM（流处理器簇）	单条流水线电路的整个NDRange的范围的迭代

执行模型

由于平台模型是主从架构，因此，执行模型中的真正执行代码的过程也分为主机程序和设备内核程序，设备内核程序也被称为kernel。
主机程序负责定义平台对象、设备对象、命令队列对象、程序对象、缓存对象等数据结构，这些对象构成了OpenCL环境，通常作为API调用指针传递的参数。

kernel是OpenCL的核心概念，它是一个用OpenCL C语言编写的函数。用__kernel限定符修饰，通常没有返回值，即__kernel void MyKernel()形式，它是并发执行的最小单元。而执行一个kernel的逻辑节点称为work item，运行时，这些work item映射到底层的硬件结构上，比如一个CPU core或一个GPU core。

为了有效区分和管理work item，OpenCL将这些work item与一个带有索引号的工作空间映射起来，这个工作空间称为NDRange。NDRange的最大维度为3，通常，work-item每个维度的索引号都是从0开始。为了提高灵活性，OpenCL规范允许开发者对NDRange提供不同粒度的划分，它允许将几个work-item集合成一个工作小组，称为work-group，每个工作组有自己的索引号，称为work group ID。这样，每个work-item有了两个索引号，一个是global ID，另一个是work group ID，这两个索引号有着严格的数学关系。从一个ID可以推出另一个ID。一个work group可并发运行在一个CU上。

cuda中的名词与OpenCL对应关系：
Block: 相当于opencl 中的work-group
Thread：相当于opencl 中的work-item

存储模型

OpenCL将设备中的存储分为四级，分别是全局内存、常量内存、局部内存、私有内存四层存储模型，对FPGA来说，全局内存放DRAM中，常量内存如果在kernel函数中定义，则存放在ROM中，如果是主机中定义的内存常量并传输到设备中，FPGA会在DRAM中开辟一块内存专门存放这些变量，局部内存和私有内存放在BRAM块和寄存器中。

1、全局内存：
一旦将数据从主机传输到设备，就会将其存储于全局设备内存中。如果是从设备传输到主机中，就会存储在主机内存中。它能被NDRange中所有的work-item读写，在四层存储模型中容量最大，但是读写速度最慢。
全局内存用 __global限定符修饰，通常OpenCL编译器建议全局变量使用restrict关键字修饰，该关键字用于告知编译器，所有修改该指针所指向内容的操作全部都是基于该指针的，即不存在其它进行修改操作的途径。

2、常量内存
常量内存是用__const限定符修饰的变量存储的位置，这类变量在定义时就初始化。他能被NDRange中所有work-item读，不能进行写操作。可以在主机代码中定义传输，也可以在kernel中定义，在整个kernel执行过程中保持不变。

3、局部内存
局部内存用__local限定符修饰的变量存储的位置。同一个work group中的所有work item都可以进行读写操作。但是对其他work group中的work item是不可见的，既可以在kernel内部定义也可以作为参数传输给kernel。

4、私有内存
kernel中默认的变量都是存储在私有内存中。它是单个work item的专属内存，其他的work item（不论是否在同一个work group中），不可以在主机中初始化或作为参数传输给kernel。

主机与OpenCL设备之间进行数据传输的方式有两种：拷贝和内存映射。
OpenCL规范规定了一个宽松的内存一致性，换句话说，就是它不保证所有work item访问的内存状态是一致的。

work-item内部内存操作是必须是有序的：即按照代码顺序进行，硬件和编译器不会对同一个地址的读写操作重新排序。
同一个work group内的work item，只有在barrier操作（OpenCL的数据同步命令）处保证内存一致性。
在work group之间的work item，在kernel执行完成之前，不保证内存一致性。

编程模型

OpenCL编程模型是指对一个具体的任务，为了最大化并行执行效率而提出的实现模型。编程模型分为数据并行和任务并行两种，数据并行是指当大量的数据执行相同的操作，并且这些数据关联度很低，可以通过取不同的数据，在多个work item上执行相同的指令，完成指定的计算。任务并行是指NDRange内的每个work item执行kernel程序时，与其他的节点是相互独立的，可以执行不同的指令。因此，可以定义多个kernel程序来实现任务并行。

单个work group内的数据同步是通过local fence来实现的，工作组之间的数据是无法动态同步的。
在同一个上下文中的不同命令队列之间，OpenCL提供了事件对象进行同步。
不同上下文或者说不同设备之间的命令队列，则不能使用事件同步，OpenCL提供了clFlush和clFinish函数来保证之前的命令执行完毕。

由于不同work item的执行顺序不确定时，客户为不同的work item定义同步点，主要用于保证数据的一致性。同步问题分为设备端同步和主机端同步。

设备端同步
设备端同步又分为组内同步和全局同步。

1、组内同步
OpenCL的执行模型规定，每个work-item的执行是相互独立的。因此不同work-item对局部内存和全局内存的读写操作的顺序没有保证。组内同步的方法是调用barrier函数，保证所有的work-item都到达barrier后才继续执行。

2、全局同步
全局同步只定义在kernel执行的边界。也就意味着，所有work-group在kernel函数的右括号处不再继续执行，而不同work-group内的两个work-item的执行顺序无法保证。但OpenCL通过global fence保证对全局内存的访问控制。

主机端同步

调用clFinish函数，clFinish函数将阻塞程序的执行直到命令队列中的所有命令都执行完成。
等待一个特定的事件完成，函数原型clWaitForEvents(cl_uint num_events_in_wait_list , cl_event* event_wait_list)
执行阻塞访存工作，clEnqueueReadBuffer()函数中的CL_TRUE参数。在数据拷贝完成之前，该函数将一直阻塞。

1、初始化OpenCL环境相关的对象

1、平台对象和设备

OpenCL平台对象的类型是cl_platform_id，使用clGetPlatformIDs函数获取。设备对象的类型是cl_device_id，使用clGetDeviceIDs函数获取。设备对象依赖于平台对象，而后续的上下文对象又依赖于设备对象。

2、上下文

上下文是OpenCL的一个数据对象，OpenCL数据类型是cl_context。它是一个设备和命令队列的容器，初始化OpenCL的执行环境就是通过API调用将设备对象、程序对象、内核对象和命令队列对象都关联到这个上下文对象中。新建上下文对象的API函数是clCreateContext。

3、命令队列

命令队列为主机向从设备消息发送请求的一个行为机制。命令队列的类型是cl_command_queue，使用clCreateCommandQueue函数创建。一旦主机搜索到并定义设备对象，就可以将设备对象作为这个函数参数，建立了上下文对象。命令队列对象分为几个类型，分别是内存读写命令、内核执行命令、同步命令等三个类型。

内存读写命令：主机和OpenCL设备之间传输数据，在主机地址空间和OpenCL内存对象之间进行映射与解映射。
内核执行命令：在OpenCL设备上开始执行内核。
同步命令：控制命令执行的顺序。

注意，每个命令队列只关联一个设备。

4、程序对象

程序对象实际上是设备执行代码文件编译后的二进制文件，它是kernel函数的集合，程序对象的类型是cl_program，使用clCreateProgramWithSource 或clCreateProgramWithBinary创建，并且使用clBuildProgram在线编译。

5、内核对象

内核对象是kernel函数体抽象出来的类型，类型标识符是cl_kernel。使用clCreateKernel函数创建

6、buffer对象

从传统CPU的意义上看，buffer对象很像使用malloc函数或者new函数创建的一维数组，它在内存中是连续存储的。buffer对象的类型是cl_mem，使用clCreateBuffer函数创建，可以使用sizeof操作符获取buffer的大小。任何时候，只要是新建的buffer对象，它都只在一个上下文中有效。

7、事件对象

任何被作为一个命令入队到一个命令队列中的操作——即任何以clEnqueue字符开头的API函数，都会产生一个事件，事件类型标识符是cl_event。事件对象通常作为参数传递给clEnqueue字符开头的API函数，表明事件对象与clEnqueue类型的函数关联，如果函数同时将事件等待列表作为参数，那么等待事件列表里的关联的所有事件关联的函数执行完毕后，当前函数才执行。

OpenCL API函数

可以分为三种类型的API，分别是初始化OpenCL环境相关的API，执行内核代码相关的API以及释放OpenCL对象相关的API。

一、初始化OpenCL环境

1、获得可用平台列表的API函数。返回值是一个cl_int类型

cl_int clGetPlatformIDs(    cl_uint num_entries,
    cl_platform_id *platforms,
    cl_uint *num_platforms)

num_entries :可以添加到平台的cl_platform_id条目的数量。如果平台不为空，则num_entries必须大于零。
platforms 返回一个找到的opencl平台列表。平台中返回的cl_platform_id值可用于标识特定的opencl平台。如果platforms参数为NULL，则此参数将被忽略。返回的opencl平台的数量是由num_entries指定的值或可用的opencl平台数量的最小值。
num_platforms 返回可用的opencl平台数。如果num_platforms为null，则此参数将被忽略。
2、获取平台上可用的设备列表。返回值是一个cl_int类型

cl_int clGetDeviceIDs(  cl_platform_id platform,
    cl_device_type device_type,
    cl_uint num_entries,
    cl_device_id *devices,
    cl_uint *num_devices)

platform：指的是由clGetPlatformIDs返回的cl_plaform_id类型的变量，或者可以为null。如果platform为null，那么行为是实现定义的。
device_type: 一个标识opencl设备类型的字段。 device_type可用于查询特定的opencl设备或所有可用的opencl设备。可以是CL_DEVICE_TYPE_CPU、CL_DEVICE_TYPE_CPU或CL_DEVICE_TYPE_ACCELERATOR等等。
-devices : 一个opencl设备列表。设备中返回的cl_device_id值可用于标识特定的opencl设备。如果devices参数为空，则忽略此参数。返回的opencl设备的数量是由num_entries指定的值的最小值或类型与device_type匹配的opencl设备的数量。
num_devices 与device_type匹配的可用的opencl设备的数量。如果num_devices为空，则忽略此参数。

3、创建一个上下文，返回值是上下文类型。典型的调用是指定num_devices和devices指针，其他值可以设置为NULL。

    cl_context clCreateContext( cl_context_properties *properties,
                            cl_uint num_devices,
                            const cl_device_id *devices,
                            void *pfn_notify (
                                const char *errinfo, 
                                const void *private_info, 
                                size_t cb, 
                                void *user_data
                            ),
                            void *user_data,
                            cl_int *errcode_ret)

pfn_notify :可以由应用程序注册的回调函数。这个回调函数将被opencl实现用于报告在这个上下文中发生的错误的信息。这个回调函数可能被opencl实现异步调用。应用程序的责任是确保回调函数是线程安全的。如果pfn_notify为空，则不会注册回调函数。
这个回调函数的参数是： errinfo是一个指向错误字符串的指针。 private_info和cb表示由opencl实现返回的二进制数据的指针，可用于记录有助于调试错误的其他信息。
user_data:是指向用户提供的数据的指针。用户数据 pfn_notify被调用时作为user_data参数传递。 user_data可以为null。
errcode_ret :返回相应的错误代码。如果errcode_ret为null，则不会返回错误代码。

4、创建一个命令队列，返回值是cl_command_queue。典型调用是传递一个上下文参数和设备。

cl_command_queue clCreateCommandQueue(  cl_context context,
    cl_device_id device,
    cl_command_queue_properties properties,
    cl_int *errcode_ret)

properties: 指定命令队列的属性列表。这是一个字段。常用的字段是CL_QUEUE_PROFILING_ENABLE，它表示启用或禁用命令队列中的命令概要分析。如果设置，则启用命令概要分析。否则禁用命令的分析。
创建一个程序对象，返回值是cl_program。

5、为上下文创建程序对象，返回值是cl_program。OpenCL的可移植性就体现在它在移植到不同的平台上时，所有的API调用都连接到ICD这个中间层，然后ICD层将具体的实现转发给特定的厂商运行时。OpenCL源代码以字符串文本的形式存储，后缀为.cl，并读到内存的字符串数组中。主机通过调用clCreateProgramWithSource（）函数将字符串数组中的文本字符串指定的源代码加载到程序对象中，最后，使用clBuildProgram（）函数编译程序对象，如果有语法错误，则会报错。


cl_program clCreateProgramWithSource (  cl_context context,
    cl_uint count,
    const char **strings,
    const size_t *lengths,
    cl_int *errcode_ret)

strings: 一个数组指针，用于构成源代码的可选的以null结尾的字符串。
lengths: 一个数组，内容是每个字符串中的字符数（字符串长度）。如果长度为零的元素，则其伴随的字符串为null终止。如果length为null，则字符串参数中的所有字符串都将被认为是null终止的。其中传递的任何长度值大于零，排除其计数中的null终止符。

cl_int clBuildProgram ( cl_program program,
    cl_uint num_devices,
    const cl_device_id *device_list,
    const char *options,
    void (*pfn_notify)(cl_program, void *user_data),
    void *user_data)

options: 一个指向用于构建程序可执行文件的构建选项的字符串的指针。

6、创建一个内核对象，返回值是cl_kernel。

cl_kernel clCreateKernel (  cl_program  program,
    const char *kernel_name,
    cl_int *errcode_ret)

7、创建一个新buffer时，需要提供主机指针以及buffer的大小以及与它关联的上下文，同时需要指定一个标志，表明数据是只读、只写还是可读写的。返回值是cl_mem。

cl_mem clCreateBuffer ( cl_context context,
    cl_mem_flags flags,
    size_t size,
    void *host_ptr,
    cl_int *errcode_ret)

flags：分配的内存状态标志

cl_mem_flags	Description
CL_MEM_READ_WRITE	对kernel来说，内存对象既可读又可写，默认方式
CL_MEM_WRITE_ONLY	对kernel来说，内存对象只可写，通常用来保存内核的输出数据
CL_MEM_READ_ONLY	对kernel来说，内存对象只可读，通常用于保存内核的输入数据，修改该对象会造成未定义结果
CL_MEM_USE_HOST_PTR	在设备上分配内存，并且绑定(pin)到一个host_ptr(不为NULL)
CL_MEM_ALLOC_HOST_PTR	在设备上分配内存，分配的内存空间主机可访问。通常用在设备的固定内存（pinned memory)上，
CL_MEM_COPY_HOST_PTR	在设备上分配内存，用host_ptr(不为NULL)指向的内存空间初始化缓存对象（分配空间和复制数据一步完成）

size 要分配的buffer对象的大小（以字节为单位）。
host_ptr 指向应用程序可能已分配内存上的指针。 host_ptr指向的缓冲区的大小必须大于或等于size字节。

2、执行内核代码相关的API

1、读写buffer
数据从主机端到设备buffer调用clEnqueueWriteBuffer，而从设备buffer到主机端调用clEnqueueReadBuffer。第二个参数blocking_write布尔量设置为CL_TRUE，表示数据传输完成后函数才返回。而设置为CL_FALSE表明，函数可以先于读写操作前返回值。

cl_int clEnqueueWriteBuffer (   cl_command_queue command_queue,
    cl_mem buffer,
    cl_bool blocking_write,
    size_t offset,
    size_t cb,
    const void *ptr,
    cl_uint num_events_in_wait_list,
    const cl_event *event_wait_list,
    cl_event *event)

cl_int clEnqueueReadBuffer (    cl_command_queue command_queue,
    cl_mem buffer,
    cl_bool blocking_read,
    size_t offset,
    size_t cb,
    void *ptr,
    cl_uint num_events_in_wait_list,
    const cl_event *event_wait_list,
    cl_event *event)

2、clEnqueueNDRangeKernel 函数是异步的：当命令进入队列后立即返回，甚至可能在kernel执行之前就返回了，所以确保kernel执行的方法是：使用clWaitEvent()或clFinish（）函数阻塞直到kernel执行完成。
设定内核参数，返回值是cl_int。

cl_int clSetKernelArg ( cl_kernel kernel,
    cl_uint arg_index,
    size_t arg_size,
    const void *arg_value)

arg_index: 参数索引。内核的参数是从最左侧的参数0到n-1的索引引用的，其中n是内核声明的参数总数。
arg_value:一个指向数据的指针，该数据应该用作由arg_index指定的参数的参数值。复制arg_value指向的参数数据，因此，在clsetkernelarg返回后，应用程序可以重用arg_value指针。指定的参数值是通过调用内核的所有api调用（如clenqueuendrangekernel和clenqueuetask）使用该值，直到再次通过调用clsetkernelarg为内核来更改参数值。
如果参数是内存对象（buffer或image），则arg_value将是指向适当buffer或image对象的指针。必须使用与内核对象关联的上下文来创建内存对象。
如果参数是buffer对象，那么也可以指定一个空值，在这种情况下，将使用空值作为声明为内核中__global或__constant内存的指针的参数的值。
如果使用__local限定词声明参数，则arg_value条目必须为null。

3、执行内核，典型的调用需要指定命令队列，内核，工作空间的维度，各个维度的大小。

cl_int clEnqueueNDRangeKernel ( cl_command_queue command_queue,
    cl_kernel kernel,
    cl_uint work_dim,
    const size_t *global_work_offset,
    const size_t *global_work_size,
    const size_t *local_work_size,
    cl_uint num_events_in_wait_list,
    const cl_event *event_wait_list,
    cl_event *event)

4、clFinish和clFlush函数区别
clFinish函数将让调用者等待队列里的任务完成。它只保证程序运行到这个函数时，所有的任务完成，不知道任务开始执行的时间。函数原型是cl_int clFinish ( cl_command_queue command_queue)

clFlush函数将让调用者立刻将没有提交给设备的任务提交给设备，它将命令队列中的所有命令都移出队列。它只保证程序运行到这个函数时，任务开始执行，不知道任务结束的时间。函数原型是cl_int clFlush ( cl_command_queue command_queue)

5、clWaitForEvents函数是保证等待与事件列表中关联的函数执行完成，它是程序执行流中的一个同步点。

cl_int clWaitForEvents ( cl_uint num_events,
    const cl_event *event_list)

3、释放资源API

//注意以下五种对象的释放顺序
cl_int clReleaseKernel (cl_kernel kernel)

cl_int clReleaseProgram(cl_program program)

cl_int clReleaseCommandQueue(cl_command_queue command_queue)

cl_int clReleaseMemObject (cl_mem memobj)

cl_int clReleaseContext(cl_context context)

FPGA器件在线配置方法概述 fpga和matlab FPGA 其他 fpga开发 FPGA 在线配置
目录1.配置电路结构和原理2.ICR控制电路软件3.几种常见的FPGA在线配置方法3.1动态部分重配置（PartialReconfiguration,PR）3.2在系统编程（In-SystemProgramming,ISP）3.3多比特流配置（Multi-BitstreamConfiguration）3.4远程更新与配置3.5使用OpenCL或HLS工具FPGA（Field-Programmabl
OPENCL之SIMT与SIMD在架构上的主要区别是什么？糯米宝宝 gpu opencv
SIMT（单指令多线程）与SIMD（单指令多数据）在架构上的主要区别体现在以下几个方面：执行单元的组织方式：SIMD：采用的是多数据流架构，即同一条指令同时作用于多个数据元素。这种架构特别适合于多媒体应用等数据密集型运算。SIMT：采用的是多线程架构，即同一条指令由多个线程并行执行。每个线程可以有不同的分支行为和执行路径，从而实现线程级的并行计算。软件暴露的信息：SIMD：向软件公开SIMD宽度（
10 自研rgbd相机基于rk3566之OPENCL加速库测试与开发三十度角阳光的问候 opencl gpu加速 rk3566/rk3588 核函数异构加速
OPENCL加速库测试与开发opencl加速库介绍1OpenCL概念2OpenCL程序通常包含以下几个主要组件：3opencl移植与调用：opencl加速库核函数编写1开发流程：2核函数编写接口函数定义如下：示例代码如下：opencl加速库示例代码opencl加速库介绍1OpenCL概念opencl是可以直接调用gpu资源进行加速的库，除英伟达外的gpu调用方法。例如maligpu，适用于多种ar
《C++与新兴硬件技术的完美融合：开启未来科技新篇章》程序猿阿伟 c++科技开发语言
在科技飞速发展的今天，新兴硬件技术不断涌现，为软件开发带来了前所未有的机遇和挑战。C++作为一种强大而高效的编程语言，如何更好地与这些新兴硬件技术结合，成为了众多开发者关注的焦点。首先，在与GPU（图形处理单元）的结合方面，C++展现出了巨大的潜力。GPU拥有强大的并行计算能力，能够快速处理大量的数据和复杂的计算任务。通过CUDA和OpenCL等技术，C++开发者可以充分利用GPU的性能优势，实现
Java设计模式七大原则-开闭原则 zoeil Java设计模式
开闭原则基本介绍开闭原则（OpenClosedPrinciple）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。例子publicclassOcp{pu
设计模式-七大原则-开闭原则一个路过的小孩 java #设计模式设计模式开闭原则
开闭原则OpenClosedPrinciple目录开闭原则基本介绍案例1运行结果分析demo输出结果基本介绍1.开闭原则OpenClosedPrinciple是编程中最基础、最重要的设计原则（ocp原则）2.一个软件的实体（eg：类），模块和函数应该对扩展开放（对提供方），对修改关闭（对使用方）用抽象构建框架，用实现扩展细节。3.当软件需求发生变化的时候，尽量通过扩展软件实体的行为实现变化，而不是
OpenCL在移动端GPU计算中的应用与实践 m0_67544708 java GPU OpenCL
一、引言移动端芯片性能的不断提升为在手机上进行计算密集型任务，如计算机图形学和深度学习模型推理，提供了可能。在Android设备上，GPU，尤其是高通Adreno和华为Mali，因其卓越的浮点运算能力，成为了异构计算中的重要组成部分。百度APP已经利用GPU计算加速深度模型推理和计算密集型业务。本文将介绍OpenCL的基础概念和简单编程。二、基础概念2.1异构计算异构计算指的是使用不同类型指令集和
设计模式 -- 七大原则（五）-- 开闭原则认真的小羽❅ 设计模式开闭原则
1基本介绍开闭原则（OpenClosedPrinciple，简称OCP）是编程中最基础、最重要的设计原则一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实现扩展细节。当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来实现变化。编程中遵循其它原则，以及使用设计模式的目的就是遵循开闭原则。2实例2.1问题程序public
tvm交叉编译android opencl 极乐净土0822 android tvm ndk 交叉编译 opencl
模型编译：#encoding:utf-8importonnximportnumpyasnpimporttvmimporttvm.relayasrelayimportosfromtvm.contribimportndkonnx_model=onnx.load('mobilenet_v3_small.onnx')x=np.ones([1,3,224,224])input_name='input1'sh
OpenCL 图像处理函数、图像放缩和插值陈塬升 OpenCL c++算法
1.OpenCL提供了大量可以在内核中运行的图像处理函数，它们大致可以分为以下三类：（1）Readfunctiongs--返回给定坐标上的颜色取值；（2）writefunctiongs--设定给定坐标上的颜色取值；（3）Informationfunctions--提供关于图像对象的信息，例如图像的维度以及像素属性；图像读取函数是从图像对象中读取向量，他们各自的参数基本一样。唯一的区别是函数返回的是
Stable Diffusion模型对比研三小学渣学习笔记人工智能计算机视觉深度学习
StableDiffusionV1系列是用基于GPT的CLIP模型，其模型参数量为123.65M；StableDiffusionV2系列则换成了更新更好的OpenCLIP模型，其参数量为354.03M，相比SDV1的TextEncoder模型大了3倍左右StableDiffusionv1：它使用了LAION-2B(en)数据集以及laion-high-resolution和laion-improv
嵌入式调试工具之GDB 稚肩嵌入式linux linux 嵌入式 GDB
在单片机开发中，我们可以通过集成式的IDE来进行调试，比如MDK、IAR等。GDB工具是GNU项目调试器，基于命令行使用。和其他的调试器一样，可使用GDB工具单步运行程序、单步执行、跳入/跳出函数、设置断点、查看变量等等，它是UNIX/LINUX操作系统下强大的程序调试工具。GDB支持多种语言，包括Ada、汇编、C/C++、D、Fortran、GO、Objective-C、OpenCL、Modul
前端常见的设计模式一只理智恩前端设计模式 javascript 前端开发语言
说到设计模式，大家想到的就是六大原则，23种模式。这么多模式，并非都要记住，但作为前端开发，对于前端出现率高的设计模式还是有必要了解并掌握的，浅浅掌握9种模式后，整理了这份文章。六大原则：依赖倒置原则(DependenceInversionPrinciple)：高层(业务层)不应该直接调用底层(基础层)模块开闭原则(OpenClosePrinciple)：单模块对拓展开放、对修改关闭单一原则(Si
GraphicsMagick 的 OpenCL 开发记录（三十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录`AccelerateScaleImage()`和`AccelerateResizeImage()`的性能测试AccelerateScaleImage()和AccelerateResizeImage()的性能测试迭代100次，缩小图片50%，如下：[ysouyno@archgm-ocl]$MAGICK_OCL_DEVICE=truegmbenchmark-iterations100conv
GraphicsMagick 的 OpenCL 开发记录（三十七）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十一）如何写ScaleImage()的硬件加速函数（十一）“如何写ScaleImage()的硬件加速函数（十）”这里的代码写得比较随意，其中stopi=0;赋值为0后，下面的循环根本没有执行，这才使得显示的图片变正确了；且async_work_group_copy()的参数传得可能也不对，等等等。我原来的想法是在外部计算好需要的行数传入ke
GraphicsMagick 的 OpenCL 开发记录（八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL c++
文章目录调用`clCreateBuffer()`产生异常问题（六）调用clCreateBuffer()产生异常问题（六）我可能解决了这个问题，原来是因为没有及时清理内存的缘故！将问题最终定位在了RunOpenCLBenchmark()的结尾DestroyImage(resizedImage);处，即在DestroyCacheInfo()中应该有清除OpenCL相关内存的代码。见commit：fix
GraphicsMagick 的 OpenCL 开发记录（九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录关于`ImageMagick`中的`number_channels`成员（一）关于ImageMagick中的number_channels成员（一）在ImageMagick中number_channels成员出现频率有点高，经调试发现ImageMagick中图片对象初始化时通过调用OpenPixelCache()然后在InitializePixelChannelMap()中设置number
GraphicsMagick 的 OpenCL 开发记录（三十六）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（十）如何写ScaleImage()的硬件加速函数（十）难道就这么被我轻松实现了？“如何写ScaleImage()的硬件加速函数（九）”是在“如何写ScaleImage()的硬件加速函数（八）”的基础上处理了图片放大变亮的问题，但是他们都只是X方向的处理，没有实现原始函数ScaleImage()的Y方向缩放。目前先处理Y方向再处理X方向的代码
GraphicsMagick 的 OpenCL 开发记录（四）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick OpenCL
文章目录调用`clCreateBuffer()`产生异常问题（二）调用clCreateBuffer()产生异常问题（二）使用MAGICK_OCL_DEVICE=GPU且在已经安装了opencl-compute-runtime的情况下会产生两个问题：gm运行卡死，无法操作，CPU使用率居高不下，或者gm运行崩溃，产生如下提示：$gmdisplay~/temp/bg1a.jpgAbortwascall
【Vitis】Vitis HLS2023不支持的功能特性神仙约架 xilinx vitis fpga开发 xilinx vitis hls
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开发组件的步骤【Vitis】Viti
【Vitis】Vitis HLS简介神仙约架 vitis xilinx fpga开发 vitis HSL xilinx
VitisHLS简介Vitis™HLS是一种高层次综合工具，支持将C、C++和OpenCL™函数硬连线到器件逻辑互连结构和RAM/DSP块上。VitisHLS可在Vitis应用加速开发流程中实现硬件内核，并使用C/C++语言代码在Vivado®DesignSuite中为赛灵思器件设计开发RTLIP。【Vitis】VitisHLS简介【Vitis】HLS高层次综合的优势【Vitis】基于C++函数开
设计模式概述大海_9052
设计模式主要是基于以下的面向对象设计原则。对接口编程而不是对实现编程。优先使用对象组合而不是继承。设计模式分类：设计模式的六大原则1、开闭原则（OpenClosePrinciple）开闭原则的意思是：对扩展开放，对修改关闭。在程序需要进行拓展的时候，不能去修改原有的代码，实现一个热插拔的效果。简言之，是为了使程序的扩展性好，易于维护和升级。想要达到这样的效果，我们需要使用接口和抽象类，后面的具体设
GraphicsMagick 的 OpenCL 开发记录（三十四）遍地是牛 GraphicsMagick 的 OpenCL 开发 ImageMagick OpenCL c++GraphicsMagick
文章目录如何写`ScaleImage()`的硬件加速函数（八）如何写ScaleImage()的硬件加速函数（八）我觉得Y方向的缩放以下面这种ScaleFilter()的方法是实现不了的，我只能添加进X方向的处理，缩小正常，放大的话图片变亮。STRINGIFY(__kernel__attribute__((reqd_work_group_size(256,1,1)))voidScaleFilter(
GraphicsMagick 的 OpenCL 开发记录（三十二）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（六）如何写ScaleImage()的硬件加速函数（六）不管什么事儿看来都怕琢磨，如果连做梦都能梦到你正在琢磨的事儿，估计离成功也就不远了。似乎目前已经达到了最好的效果，离目标越来越近了。要理解clEnqueueNDRangeKernel()函数的第五第六个参数意义，但目前为止只能说暂时理解了。cl_intclEnqueueNDRangeKe
GraphicsMagick 的 OpenCL 开发记录（三十三）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（七）如何写ScaleImage()的硬件加速函数（七）其实“如何写ScaleImage()的硬件加速函数（六）”的实现就是一个ResizeHorizontalFilter()将y改成y/xFactor的精简版，并不是ScaleImage()的硬件加速函数。虽然它不是，但至少省掉了ResizeVerticalFilter()的调用，速度上更快
linux运维:ywtools工具安装/卸载介绍 Z顺其自然 ywtools工具 linux 服务器 centos 运维工具安装/卸载
一.工具功能功能介绍ywtools工具是全部shell脚本编写,用于日常工作的linux运维二.已测试系统:centos7centos8centossteam8centossteam9rocky8rocky9AlmaLinux8.2/8.4AlmaLinux9.0/9.3opencloudos8.8(腾讯,类似centos8,软件包是oc8)三.安装/移除工具3.1安装工具工具包是bin文件,加执
2018-04-15 FPGA Kernel Log 七点水Plus
AMDprintf我们在kernel中增加了#pragmaOPENCLEXTENSIONcl_amd_printf:enable，以便在kernel中通过printf函数进行debug，这是AMD的一个扩展。printf还可以直接打印出float4这样的向量，比如printf(“%v4f”,vec)。#pragmaOPENCLEXTENSIONcl_amd_printf:enable__kerne
GraphicsMagick 的 OpenCL 开发记录（三十）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（四）如何写ScaleImage()的硬件加速函数（四）经过这两天的尝试，越来越对ScaleImage()用硬件加速实现这件事感到怀疑，因为似乎没有发现这个函数的硬件加速版本能带来很好的性能，当然我这个OpenCL新手写的代码连我自己也不敢恭维，这也是一方面的原因，甚至可能占比很高。正如前面日志所说的能参考的代码只有ResizeHorizon
GraphicsMagick 的 OpenCL 开发记录（二十八）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（二）如何写ScaleImage()的硬件加速函数（二）搞了一天也没有搞出来kernel函数怎么写，还得仔细分析一下ScaleImage()函数流程：从GraphicsMagick的ScaleImage()入手，它比ImageMagick好懂。大循环的第一个if-else分支处理Y方向，即垂直方向，它用到两个动态数组x_vector和y_ve
GraphicsMagick 的 OpenCL 开发记录（二十九）遍地是牛 GraphicsMagick 的 OpenCL 开发 GraphicsMagick ImageMagick OpenCL c++
文章目录如何写`ScaleImage()`的硬件加速函数（三）如何写ScaleImage()的硬件加速函数（三）在“如何写ScaleImage()的硬件加速函数（二）”中介绍的kernel函数的写法可能会产生如下现象：ScaleFilter()不是总能被成功调用。每次修改过ScaleFilter()后，有时在~.cache/GraphicsMagick目录中不会生成新的.bin文件。这种情况下，调
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts