10km

基于OpenCL的图像积分图算法改进

复杂的算法却未必低效，简单的算法往往要付出代价，这个代价可能很大。在opencl环境下编程，与我们在CPU上的传统编程思想有一些差异，这些差异看似微不足道，但往往是细节决定成功，就是这些看似微不足道的差异，在多核的GPU上被无限放大，导致同一种算法在GPU和CPU运行效果有着巨大的差别。
之前写过一篇文章《基于OpenCL的图像积分图算法实现》介绍了opencl中积分图算法的基本原理(不了解积分图概念的朋友可以先参考这篇文章)，并基于这个基本原理提供了kernel实现代码.但经过这两个月的实践检验，原先这个基于前缀和计算加矩阵转置的算法被证明在GPU上是非常低效的。
为什么呢？从根本上来说，之前的算法不符合并行计算所要求的分治原则，每个kernel一次循环处理一整行数据，相着挺简单，真正执行的时候，并不快。
下图是原来的算法在CodeXL GPU performance counters的记录结果。一次积分图计算的总执行时间在1.6ms左右

注：为了提高效率这里的kernel代码基于前一篇文章的算法上有改进，将前经和计算和矩阵转置合并为一个名为prefix_sum_col_and_transpose的kernel，没有改进前的算法更慢数倍。

于是我参考了OpenCLIPP的积分图算法思路，重写了自己的代码，新的算法思路是这样的：
整个算法分为5个步骤(kernel)来完成。
第一步(integral_block)将整个图像分为4x4的小块，分别计算局部积分图。

第二步(intergral_scan_v)，纵向扫描计算前一步每个4x4块最后一组数据的前缀和矩阵vert。

第三步(intergral_combine_v)，结合前面两步的结果将纵向互不关联的4x4块在纵向上连接起来。

第四步(intergral_scan_h)，横向扫描计算前一步每个4x4块最后一组数据的前缀和矩阵horiz。

第五步(intergral_combine_h)，结合前面两步的结果将横向互不关联的4x4块在横向上连接起来，就形成了一幅完整的积分图。

这个算法思路与之前的算法相比，没有了耗时的矩阵转置过程，但分为5步，更复杂了，实际的执行效果呢？出乎我的意料：5个kernel加起来的总时间是0.63ms左右,相比原来的算法提高了近3倍。

下面是完整的kernel代码

 ///////////////////////////////////////////////////////////////////////////////
//! @file : integral_gpu.cl
//! @date : 2016/05/08
//! @author: guyadong
//! @brief : Calculates the integral sum scan of an image
////////////////////////////////////////////////////////////////////////////////
#include "common_types.h"
#ifndef CL_DEVICE_LOCAL_MEM_SIZE
#error not defined CL_DEVICE_LOCAL_MEM_SIZE by complier with options -D
#endif
#ifndef SRC_TYPE 
#error not defined SRC_TYPE by complier with options -D
#endif
#ifndef DST_TYPE 
#error not defined DST_TYPE by complier with options -D
#endif
#ifndef INTEG_TYPE 
#error not defined INTEG_TYPE by complier with options -D
#endif
#define V_TYPE 4
#define SHIFT_NUM 2
#define LOCAL_BUFFER_SIZE (CL_DEVICE_LOCAL_MEM_SIZE/sizeof(DST_TYPE))

#define _KERNEL_NAME(s,d,t) prefix_sum_col_and_transpose_##s##_##d##_##t
#define KERNEL_NAME(s,d,t) _KERNEL_NAME(s,d,t)

#define _KERNEL_NAME_INTEGRAL_BLOCK(s,d,t) integral_block_##s##_##d##_##t
#define KERNEL_NAME_INTEGRAL_BLOCK(s,d,t) _KERNEL_NAME_INTEGRAL_BLOCK(s,d,t)

#define _KERNEL_NAME_SCAN_V(s) integral_scan_v_##s
#define KERNEL_NAME_SCAN_V(s) _KERNEL_NAME_SCAN_V(s)
#define _KERNEL_NAME_COMBINE_V(s) integral_combine_v_##s
#define KERNEL_NAME_COMBINE_V(s) _KERNEL_NAME_COMBINE_V(s)
#define _KERNEL_NAME_SCAN_H(s) integral_scan_h_##s
#define KERNEL_NAME_SCAN_H(s) _KERNEL_NAME_SCAN_H(s)
#define _KERNEL_NAME_COMBINE_H(s) integral_combine_h_##s
#define KERNEL_NAME_COMBINE_H(s) _KERNEL_NAME_COMBINE_H(s)
#define _kernel_name_scan_v KERNEL_NAME_SCAN_V(DST_TYPE)
#define _kernel_name_scan_h KERNEL_NAME_SCAN_H(DST_TYPE)
#define _kernel_name_combine_v KERNEL_NAME_COMBINE_V(DST_TYPE)
#define _kernel_name_combine_h KERNEL_NAME_COMBINE_H(DST_TYPE)


#define VECTOR_SRC VECTOR(SRC_TYPE,V_TYPE)
#define VECTOR_DST VECTOR(DST_TYPE,V_TYPE)

#define VLOAD FUN_NAME(vload,V_TYPE)

#if INTEG_TYPE == INTEG_SQUARE
#define compute_src(src) src*src
#define _kernel_name_ KERNEL_NAME(SRC_TYPE,DST_TYPE,integ_square)
#define _kernel_name_integral_block KERNEL_NAME_INTEGRAL_BLOCK(SRC_TYPE,DST_TYPE,integ_square)
#elif INTEG_TYPE == INTEG_COUNT
#define compute_src(src) ((DST_TYPE)0!=src?(DST_TYPE)(1):(DST_TYPE)(0))
#define _kernel_name_ KERNEL_NAME(SRC_TYPE,DST_TYPE,integ_count)
#define _kernel_name_integral_block KERNEL_NAME_INTEGRAL_BLOCK(SRC_TYPE,DST_TYPE,integ_count)
#elif INTEG_TYPE == INTEG_DEFAULT
#define compute_src(src) src
#define _kernel_name_ KERNEL_NAME(SRC_TYPE,DST_TYPE,integ_default)
#define _kernel_name_integral_block KERNEL_NAME_INTEGRAL_BLOCK(SRC_TYPE,DST_TYPE,integ_default)
#else
#error unknow INTEG_TYPE by complier with options -D
#endif

///////////////////////////////////////////////////////////////////////////////
//! @brief : Calculates the integral of an image
////////////////////////////////////////////////////////////////////////////////
#define __SWAP(a,b) swap=a,a=b,b=swap;
// 4x4矩阵转置
inline void transpose( VECTOR_DST m[V_TYPE] ){
    DST_TYPE swap;
    __SWAP(m[0].s1,m[1].s0);
    __SWAP(m[0].s2,m[2].s0);
    __SWAP(m[0].s3,m[3].s0);
    __SWAP(m[1].s2,m[2].s1);
    __SWAP(m[1].s3,m[3].s1);
    __SWAP(m[2].s3,m[3].s2);
}
// 计算4x4的局部积分图
__kernel void _kernel_name_integral_block( __global SRC_TYPE *sourceImage, __global VECTOR_DST * dest, __constant integ_param* param){ 
    int pos_x=get_global_id(0)*V_TYPE,pos_y=get_global_id(1)*V_TYPE;
    if(pos_x>=param->width||pos_y>=param->height)return;
    int count_x=min(V_TYPE,param->width -pos_x);
    int count_y=min(V_TYPE,param->height-pos_y);
    VECTOR_DST sum;
    VECTOR_DST matrix[V_TYPE];
    // 从原矩阵加载数据，并转为目标矩阵的数据向量类型(VECTOR_DST),
    //比如原矩阵是uchar，目标矩阵是float
    matrix[0]= 00,sourceImage+(pos_y+0)*param->src_width_step+pos_x))
            :(count_x==1?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+0)*param->src_width_step+param->width-V_TYPE)).w,0,0,0)
            :(count_x==2?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+0)*param->src_width_step+param->width-V_TYPE)).zw,0,0)
                        :(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+0)*param->src_width_step+param->width-V_TYPE)).yzw,0)
            )                       
            ):0;
    matrix[1]= 10,sourceImage+(pos_y+1)*param->src_width_step+pos_x))
            :(count_x==1?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+1)*param->src_width_step+param->width-V_TYPE)).w,0,0,0)
            :(count_x==2?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+1)*param->src_width_step+param->width-V_TYPE)).zw,0,0)
                        :(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+1)*param->src_width_step+param->width-V_TYPE)).yzw,0)
            )                       
            ):0;
    matrix[2]= 20,sourceImage+(pos_y+2)*param->src_width_step+pos_x))
            :(count_x==1?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+2)*param->src_width_step+param->width-V_TYPE)).w,0,0,0)
            :(count_x==2?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+2)*param->src_width_step+param->width-V_TYPE)).zw,0,0)
                        :(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+2)*param->src_width_step+param->width-V_TYPE)).yzw,0)
            )                       
            ):0;
    matrix[3]= 30,sourceImage+(pos_y+3)*param->src_width_step+pos_x))
            :(count_x==1?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+3)*param->src_width_step+param->width-V_TYPE)).w,0,0,0)
            :(count_x==2?(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+3)*param->src_width_step+param->width-V_TYPE)).zw,0,0)
                        :(VECTOR_DST)(VCONVERT(VECTOR_DST,)(VLOAD(0,sourceImage+(pos_y+3)*param->src_width_step+param->width-V_TYPE)).yzw,0)
            )                       
            ):0;
    sum=0;
    //4x4矩阵纵向前缀和计算
    sum+=compute_src(matrix[0]),matrix[0]=sum;
    sum+=compute_src(matrix[1]),matrix[1]=sum;
    sum+=compute_src(matrix[2]),matrix[2]=sum;
    sum+=compute_src(matrix[3]),matrix[3]=sum;
    // 转置矩阵
    transpose(matrix);
    sum=0;
    //4x4矩阵横向前缀和计算 
    sum+=matrix[0],matrix[0]=sum;
    sum+=matrix[1],matrix[1]=sum;
    sum+=matrix[2],matrix[2]=sum;
    sum+=matrix[3],matrix[3]=sum;
    // 第二次转置矩阵，将矩阵方向恢复正常
    transpose(matrix);  
    // 计算结果将数据写到目标矩阵
    if(00)*param->dst_width_step+pos_x)/V_TYPE]=matrix[0];
    if(11)*param->dst_width_step+pos_x)/V_TYPE]=matrix[1];
    if(22)*param->dst_width_step+pos_x)/V_TYPE]=matrix[2];
    if(33)*param->dst_width_step+pos_x)/V_TYPE]=matrix[3];
}
#undef __SWAP
// 将第一个kernel计算的结果(4x4分块的局部积分图)作为输入输入矩阵(dest)
// 计算每个4x4块纵向结尾数据的前缀和，存入vert
__kernel void _kernel_name_scan_v( __global DST_TYPE * dest, __constant integ_param* param,__global DST_TYPE *vert,int vert_step){ 
    int gid_y=get_global_id(0);
    if(gid_y>=param->height)return;
    DST_TYPE sum=0;
    int dst_width_step=param->dst_width_step;
    for(int x=V_TYPE-1,end_x=param->width;x// 将上第一个kernel计算的结果(4x4分块的局部积分图)作为输入输入矩阵(dest)
// 将上第二个kernel计算的分组前缀和作为输入输入矩阵(vert)
// 对dest每个4x4块数据加上vert对应的上一组增量，结果输出到dest_out
__kernel void _kernel_name_combine_v( __global VECTOR_DST * dest, __constant integ_param* param,__global DST_TYPE *vert,int vert_step,__global VECTOR_DST * dest_out){ 
    int gid_x=get_global_id(0),gid_y=get_global_id(1);
    if(gid_x*V_TYPE>=param->width||gid_y>=param->height)return;
    int dest_index=(gid_y*param->dst_width_step)/V_TYPE+gid_x;
    VECTOR_DST m  = dest[dest_index];   
    m += (VECTOR_DST)(gid_x>=1 ? vert[ gid_y*vert_step + gid_x-1]:0);
    dest_out [dest_index]=m;
}
// 将上一个kernel计算的结果(4x4分块的局部积分图)作为输入输入矩阵(dest)
// 计算每个4x4块横向结尾数据的前缀和，存入horiz
__kernel void _kernel_name_scan_h( __global VECTOR_DST * dest, __constant integ_param* param,__global VECTOR_DST *horiz,int horiz_step){ 
    int gid_x=get_global_id(0);
    if(gid_x*V_TYPE>=param->width)return;
    VECTOR_DST sum=0;
    int dst_width_step=param->dst_width_step;
    for(int y=V_TYPE-1,end_y=param->height;y// 将第三个kernel计算的结果作为输入输入矩阵(dest)
// 将第四个kernel计算的分组前缀和作为输入输入矩阵(vert)
// 对dest每个4x4块数据加上horiz对应的上一组增量，结果输出到dest_out
// dest_out就是最终的积分图
__kernel void _kernel_name_combine_h( __global VECTOR_DST * dest, __constant integ_param* param,__global VECTOR_DST *horiz,int horiz_step,__global VECTOR_DST * dest_out){ 
    int gid_x=get_global_id(0),gid_y=get_global_id(1);
    if(gid_x*V_TYPE>=param->width||gid_y>=param->height)return;
    VECTOR_DST m;
    int dest_index=(gid_y*param->dst_width_step)/V_TYPE+gid_x;
    m  = dest[dest_index];  
    m += gid_y>=V_TYPE?horiz[((gid_y/V_TYPE)-1)*horiz_step/V_TYPE + gid_x  ]:(DST_TYPE)0;
    dest_out[dest_index]=m; 
}

common_types.h

/* * common_types.h * * Created on: 2016年4月14日 * Author: guyadong */

#ifndef FACEDETECT_CL_FILES_COMMON_TYPES_H_
#define FACEDETECT_CL_FILES_COMMON_TYPES_H_
#ifdef __OPENCL_VERSION__
typedef char    cl_char;
typedef uchar   cl_uchar;
typedef short   cl_short;
typedef ushort  cl_ushort;
typedef int     cl_int;
typedef uint    cl_uint;

typedef long    cl_long;
typedef ulong   cl_ulong;

typedef double  cl_double;
typedef float   cl_float;

typedef char2       cl_char2;
typedef char4       cl_char4;
typedef char8       cl_char8;
typedef char16      cl_char16;

typedef uchar2      cl_uchar2;
typedef uchar4      cl_uchar4;
typedef uchar8      cl_uchar8;
typedef uchar16     cl_uchar16;

typedef short2      cl_short2;
typedef short4      cl_short4;
typedef short8      cl_short8;
typedef short16     cl_short16;

typedef ushort2     cl_ushort2;
typedef ushort4     cl_ushort4;
typedef ushort8     cl_ushort8;
typedef ushort16    cl_ushort16;

typedef int2        cl_int2;
typedef int4        cl_int4;
typedef int8        cl_int8;
typedef int16       cl_int16;

typedef uint2       cl_uint2;
typedef uint4       cl_uint4;
typedef uint8       cl_uint8;
typedef uint16      cl_uint16;

typedef long2       cl_long2;
typedef long4       cl_long4;
typedef long8       cl_long8;
typedef long16      cl_long16;

typedef ulong2      cl_ulong2;
typedef ulong4      cl_ulong4;
typedef ulong8      cl_ulong8;
typedef ulong16     cl_ulong16;

typedef float2      cl_float2;
typedef float4      cl_float4;
typedef float8      cl_float8;
typedef float16     cl_float16;

typedef double2     cl_double2;
typedef double4     cl_double4;
typedef double8     cl_double8;
typedef double16    cl_double16;
#ifdef NDEBUG
#define DEBUG_LOG(format, ...) 
#else
#define DEBUG_LOG(format, ...) printf((__constant char*)format, __VA_ARGS__)
#endif
#define LOG(format, ...) printf((__constant char*)format, __VA_ARGS__)
#ifndef NULL
#define NULL 0
#endif

#define _VECTOR(t,n) t##n
#define VECTOR(t,n) _VECTOR(t,n)

#define _FUN_NAME(f,n) f##n
#define FUN_NAME(f,n) _FUN_NAME(f,n)
#define _FUN_NAME2(f,n,s) f##_##n##s
#define FUN_NAME2(f,n,s) _FUN_NAME2(f,n,s)

#define VCONVERT(vtype,suffix) FUN_NAME2(convert,vtype,suffix)
#define VCONVERT_SAT(vtype) VCONVERT(vtype,_sat)
#define VAS(vtype) FUN_NAME2(as,vtype,)
#define ALIGN_UP(v,a) ((v+(1<>a<
//denominator/numerator
#define CEIL_DIV(d,n) (((d)+(n)-1)/(n))

#endif

// define alignment macro for data struct crossed between host & device
#ifdef _MSC_VER
#define _CL_CROSS_ALIGN_(n) __declspec( align(n) )
#elif __GNUC__
#define _CL_CROSS_ALIGN_(n) __attribute__((aligned(n)))
#elif __cplusplus>=201103L
#define _CL_CROSS_ALIGN_(n) alignas(n)
#elif __OPENCL_VERSION__
#define _CL_CROSS_ALIGN_(n) __attribute__((aligned(n)))
#else
#warning Need to implement some method to align data here
#define _CL_CROSS_ALIGN_(n)
#endif /*_MSC_VER*/

// define column num of each work-item working for integral kernel,
// is also equivalent to the number of local work-items so sad get_local_size(0)
#define INTEGRAL_COLUMN_STEP 16
#define IMGSCALE_LOCAL_SIZE 64
/* get divisor for len/num */
inline size_t gf_get_divisor(size_t len,size_t num){
    return (size_t)(len/num+(int)(len%num>0));
}
typedef struct _integ_param {
    cl_int width,height,src_width_step,dst_width_step;
}integ_param;
typedef struct _matrix_info_cl {
    cl_uint     width   ;
    cl_uint     height  ;
    cl_uint     row_stride;
/* #ifdef __cplusplus _matrix_info_cl(size_t width,size_t height,size_t row_stride=0):width(cl_uint(width)), height(cl_uint(width)),row_stride( cl_uint(row_stride? row_stride:width)) {} _matrix_info_cl() = default; _matrix_info_cl(const _matrix_info_cl&) = default; _matrix_info_cl(_matrix_info_cl&&) = default; _matrix_info_cl& operator=(const _matrix_info_cl&) = default; _matrix_info_cl& operator=(_matrix_info_cl&&) = default; #endif */
}matrix_info_cl;
// define integral matrix type
// default intergal matrix
#define INTEG_DEFAULT 0
// intergal matrix for suquare
#define INTEG_SQUARE 1
// integral matrix for count of no zero
#define INTEG_COUNT 2
typedef enum _integral_type{
    integ_default=INTEG_DEFAULT
    ,integ_square=INTEG_SQUARE
    ,integ_count=INTEG_COUNT
}integral_type;

#endif /* FACEDETECT_CL_FILES_COMMON_TYPES_H_ */

Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析观熵国产 NPU ×Android 推理优化 android 人工智能
Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排、SoC协同处理、AI芯片编程摘要随着国产SoC平台持续迭代，Android系统中异构计算模式已从传统CPU+GPU并行计算，扩展到集成NPU、DSP、ISP等多核单元的复杂协同体系。在AI推理
华为云对象存储OBS 支持安卓/iOS/鸿蒙UTS组件敲代码的鱼哇框架整理华为云 android ios 对象存储 harmony NEXT
华为云对象存储OBS支持安卓/iOS/鸿蒙UTS组件介绍使用前须知vue代码调用示例权限说明API调用说明初始化配置（openClient）创建桶（createBucket）列举桶（listBuckets）删除桶（deleteBucket）桶是否存在（headBucket）列举桶内对象（listObjects）删除桶内对象（deleteObject）文件上传-可获取上传进度（uploadFile）
【GitHub开源项目实战】DINOv2 自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析观熵 GitHub开源项目实战 github 开源架构人工智能
DINOv2自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析关键词DINOv2、自监督视觉模型、ViT、多分辨率表示、语义分割、深度估计、Zero-shot、图像表示学习、OpenCLIP替代、MetaAI摘要DINOv2是由MetaAIResearch推出的下一代自监督视觉基础模型，在保持不依赖人工标签的前提下，显著提升了多任务性能，尤其在语义分割、图像分类、深度估计等下游任务中超
Kotlin 中的继承/实现橙子19911016 kotlin 开发语言 android
1继承1.1基本规则默认不可继承（抽象类除外）：Kotlin中的类和方法默认是final的，必须显式声明为open才能被继承；单继承：一个类只能继承自一个父类；//父类必须用open修饰openclassUser{openfuneat(){}//允许重新的方法用open}//子类，继承语法：子类:父类()classStudent:User(){overridefuneat(){}//重写父类方法}
Kotlin基础语法五纳于大麓 Android-Kotlin kotlin 开发语言 android
继承与重载的open关键字KT所有的类，默认是final修饰的，不能被继承，和Java相反open：移除final修饰类型转换openclassPerson2(privatevalname:String){funshowName()="父类的姓名是【$name】"//KT所有的函数，默认是final修饰的，不能被重写，和Java相反openfunmyPrintln()=println(showNa
OC 城市行・广州站报名火热开启！云原生与 AI 驱动的技术盛宴等你解锁 CSDN资讯资讯业界资讯人工智能云原生大数据
在数字化转型浪潮中，云原生与AI技术正加速融合并重塑产业格局，成为驱动各行业变革的核心引擎。这一融合不仅重塑了企业的技术架构，也为操作系统领域带来全新的机遇与挑战。如何在这场技术浪潮中把握先机，实现操作系统的创新与突破，成为行业上下共同关注的焦点。由OpenCloudOS、腾讯云主办的“OC城市行・广州站”重磅来袭！本次活动聚焦“云原生与AI驱动的操作系统创新实践”，力邀云原生、AI领域的权威专家
为什么 SDXL 用两个文本编码器？不当菜鸡的程序媛学习记录人工智能
为什么SDXL用两个文本编码器？更强的语义理解OpenCLIPViT-bigG在LAION-2B上训练，擅长复杂语义。CLIPViT-L保持与SD1.x的兼容性。平衡性能与泛化双编码器能覆盖更多语言分布，减少prompt歧义。技术兼容性部分SDXL的微调模型（如DreamBooth）可能仅使用其中一个编码器。注意事项如果你在提取中间层特征（例如text_encoder.text_model.enc
【ubuntu 20.04 apt更新或者安装出现代理导致的连接失败问题】 tangyubbb? 安装的日常 ubuntu linux 服务器
ubuntu20.04apt更新或者安装出现代理导致的连接失败问题一、问题描述sudoapt-getupdate或者install会报错，主要信息如下错误:53http://mirrors.aliyun.com/ubuntufocal/mainamd64opencl-c-headersall2.2~2019.08.06-g0d5f18c-1不能连接到127.0.0.1：1080：E:无法下载htt
ImageMagick 是默认使用 CPU 来处理图像,也具备利用 GPU 加速的潜力专注VB编程开发20年人工智能算法深度学习图像处理
ImageMagick是默认使用CPU来处理图像的。不过，它也具备利用GPU加速的潜力，下面为你详细介绍相关情况：1.默认运行模式（CPU）ImageMagick在默认状态下，会调用CPU进行图像处理操作。这意味着在处理图像时，主要依靠计算机的中央处理器来完成各项任务。2.GPU加速的实现方式若想让ImageMagick使用GPU加速，需要满足特定条件：OpenCL支持：要确保ImageMagic
OpenCloudOS 8.10 发布：全面兼容企业级 Linux 生态，引入更多新 module OpenCloudOS linux 运维服务器
2024年8月，OpenCloudOS社区年度新版本OpenCloudOS8.10正式发布。全面兼容RHEL8.10用户态包，引入Python3.12软件包，更新GCCToolset13、LLVMToolset17，RustToolset1.75.0，GoToolset1.21.0等编译器和开发工具。OpenCloudOS8.10采用Kernel5.4LTS版本（内核小版本0009.32），版本新
Kotlin自定义View实现一个通用的控件程序员老林 kotlin
效果图如下：核心代码如下：openclassCommonItemView@JvmOverloadsconstructor(context:Context,attrs:AttributeSet?=null,defStyleAttr:Int=0,mode:Int=MODE_TEXT):RelativeLayout(context,attrs,defStyleAttr){companionobject{
RK3588 MNN CPU/Vulkan/OpenCL ResNet50推理测试 Hi20240217 学习 mnn 人工智能深度学习 RK3588
RK3588MNNCPU/Vulkan/OpenCLResNet50推理测试一、背景介绍1.1RK3588芯片特性1.2为什么选择MNN？1.3测试目标解析二、参考链接三、操作步骤3.1Vulkan环境搭建3.2安装OpenCL环境3.3Vulkan运行`relu`算子3.3.1安装`glslang-tools`3.3.2编写计算着色器（`relu.comp`）3.3.3生成C++代码（`main
手写 CPU 卷积核加速神经网络计算(2)——OpenCL 简单实现卷积、池化、激活、全连接、批归一化（python 实现）哦豁灬深度学习 ai compiler 学习笔记神经网络 python 深度学习
这里使用pyopencl这个支持在python环境下跑opencl的库，用opencl简单实现了卷积、池化、激活、全连接、批归一化这五个算子，没有做其他的算法和内存上的优化。1Conv2d%%cl_kernel-o"-cl-fast-relaxed-math"__kernelvoidConv2D(__globalconstfloat*ift,__globalfloat*weight,__globa
小米集团在GitHub上有哪些开源项目程序员差不多先生 github
小米集团在GitHub上开源了多个项目，涵盖人工智能、物联网、大数据、系统工具等领域。以下是部分代表性项目及其简介和链接：1.MACE(MobileAIComputeEngine)简介：专为移动端优化的深度学习推理框架，支持TensorFlow、Caffe等模型，提供高性能、低功耗的AI计算。技术栈：C++、OpenCL、NEON。GitHub：https://github.com/XiaoMi/
PoCL环境搭建 Hi20240217 学习 OpenCL
PoCL环境搭建**一.关键功能与优势****二.设计目的****三.测试步骤**1.创建容器2.安装依赖3.编译安装pocl4.运行OpenCL测试程序PortableComputingLanguage(PoCL)简介PortableComputingLanguage(PoCL)是一个开源的、符合标准的异构计算框架，旨在为OpenCL应用程序提供高效且可移植的并行计算支持。PoCL的核心设计目标
Kotlin基础（①）奶龙牛牛 kotlin 开发语言 android
open关键字：打破Kotlin的“默认封闭”规则//基类必须加open才能被继承openclassAnimal{//方法也要加open才能被子类重写openfunmakeSound(){println("Somesound")}}classDog:Animal(){overridefunmakeSound(){println("Woof!")}}//使用valdog=Dog()dog.makeS
linux运行程序开启了opencl,Linux上使用AMD的OpenCL开发运行环境某友善的微笑
关于在Linux上使用AMD的OpenCL开发运行环境,我有如下重要更新：1.Linux上OpenCL的开发运行环境包括两个部分,一是AMD的AMDSDKAPP开发包，另一部分是AMD的Catalyst驱动软件包.AMDSDKAPP开发包主要包括开发OpenCL应用所需要的头文件，文档和例子程序.Catalyst驱动包括OpenCL运行库，AMDGPU的私有驱动,一些工具软件2.AMDSDKAPP
【KWDB 创作者计划】_深度学习篇---松科AI加速棒 Ronin-Lotus 深度学习篇图像处理篇嵌入式硬件篇嵌入式硬件人工智能 AI加速棒 TPU 松科
文章目录前言一、简介二、安装与配置硬件连接驱动安装软件环境配置三、使用步骤初始化设备调用SDK接口检测设备状态：集成到AI项目四、注意事项兼容性散热固件更新安全移除五、硬件架构与技术规格核心芯片专用AI处理器内存配置接口类型物理接口虚拟接口能效比散热设计六、软件生态与兼容性深度学习框架支持自定义算子（通过松科OpenCL扩展库）推理引擎开发工具跨平台支持操作系统嵌入式系统虚拟化与云七、性能基准测试
ubuntu配置openvino yolov5 yuyuyue249 ubuntu openvino YOLO
第一步：neo（intel牌加速显卡驱动）下载--UBUNTU20.04本人踩坑点，不下neo只能cpu运行。1.sudoaptinstallocl-icd-libopencl12.mkdirneo&&cdneo3.（改成国内源会快一点）wgethttps://mirror.ghproxy.com/https://github.com/intel/intel-graphics-compiler/r
Android kotlin 扩展方法和扩展属性的用法安卓兼职framework应用工程师 Android高级进阶 kotlin android 扩展方法扩展属性扩展方法和扩展属性用法
Kotlin支持扩展方法和扩展属性。语法：被扩展的类/接口名.方法名()扩展方法openclassExtensionFunction{funfunction()=println("--扩展函数--")}classSubExtensionFun:ExtensionFunction(){funsubFunction(
编程自学指南：java程序设计开发，设计思想开源框架-六大原则，高内聚、低耦合、可维护、可扩展 zl515035644 java自学指南 #设计思想开源框架 java 开发语言 Java开发 Java编程 Java设计思想 Java六大原则
编程自学指南：java程序设计开发，设计思想开源框架-六大原则设计思想开源框架-六大原则概述编程自学指南：java程序设计开发，设计思想开源框架-六大原则设计思想开源框架-六大原则概述1.单一职责原则（SingleResponsibilityPrinciple，SRP）2.开闭原则（OpenClosedPrinciple，OCP）3.里氏替换原则（LiskovSubstitutionPrincip
诚邀报名 | OpenCloudOS城市行上海站：OS为基，AI为翼，驱动产业革新 CSDN资讯资讯业界资讯人工智能大数据
近年来，AI技术一路高歌猛进，大模型、智能算力及AI原生应用蓬勃发展，深度重塑各行业格局，为产业升级持续注入澎湃动力。但在AI规模化落地的征程中，底层操作系统的稳定性、安全性与效率，成为横亘在企业面前的关键挑战。算力资源管理低效、模型部署周期漫长、安全漏洞防不胜防、运维难度飙升，这些难题制约着AI技术的深度应用与价值释放。企业究竟该如何打造适配AI场景的数字基座？又如何通过操作系统与AI的深度融合
Kotlin 类扩展实现原理 MarkRZJ java class proxy 类 jvm
在Kotlin中当项目集成第三方SDK的时候，如果需要为其中某个类新增方法来可以通过className.methodName(){},即类名.方法名的形式来扩展函数，那么同样和Java一样是JVM语言的Kt为什么就可以实现这种功能呢，以下为一个例子，借助它来详细探讨一下实现原理及细节。openclassFather{//定义成员函数openfunshout()=println("Fathercal
centos7 安装hashcat x10n9 linux 运维服务器
下载hashcat:--》6.2.6https://hashcat.net/files/hashcat-6.2.6.7z安装intel_sdk_for_opencl_applications：wgethttp://registrationcenter-download.intel.com/akdlm/irc_nas/vcp/16284/intel_sdk_for_opencl_applicatio
设计模式——策略模式骊恨设计模式策略模式
1.策略模式简介1.1定义：原文：Defineafamilyofalgorithms,encapsulateeachone,andmaketheminterchangeable.翻译：定义一系列算法，将它们一个个封装起来，并且使它们之间可以相互替换。策略模式也称为政策模式（Policy），让算法独立于使用它的客户而变化，且算法的变化不会影响到使用算法的客户。1.2开闭原则（OCP，OpenClos
RK3568 OpenHarmony4.0 USB摄像头敲嵌入式代码的 OpenHarmony harmonyos
演示效果先看下最终效果视频OpenHarmony_V40_USB_camera开发环境本文基于如下开发环境进行开发调试：硬件：摄像头海康USB摄像头（HIKVISIONDS-E14）硬件：RK3568开发板处理器：RK3568CPU：四核64位Cortex-A55，主频最高达2.0GHzGPU：ARMG522EE，支持OpenGLES1.1/2.0/3.2，OpenCL2.0，Vulkan1.1，
重庆上百位老师和学生，正在使用这个国产操作系统 linux操作系统
你是否还记得，当年进学校机房前穿鞋套的经验？那时的电脑稀有昂贵，普通家庭需要几个月的工资才能买上一台，于是信息课上短暂的45分钟，成为了每个孩子走进数字世界的钥匙。随着技术的发展，电脑已经成为日常生活中不可或缺的一部分，也推动着教育领域的数字化转型，使其更好地适应社会的需要。学校信息系统的国产化改造，数字教育质量和效率的提升，成为了国产操作系统的重要目标。由新支点操作系统与OpenCloudOS社
我是学生，想要参与 OpenCloudOS，该怎么做？ linux
为帮助高校同学在OpenCloudOS操作系统开源社区中，掌握Linux知识，积累开源项目经历，成长为优秀的软件工程师。近日，小云为大家汇总了一份在OpenCloudOS社区的成长攻略，并正式上线2023年OpenCloudOS校园大使招募计划。在这里，你可以深入学习Linux知识，获得导师专业指导！在这里，你可以积累开源项目经历，成为闪耀的开源Star！在这里，你可以结识1000+操作系统大牛！
深入理解Mesa：Linux图形渲染背后的开源力量嵌入式Jerry Linux linux 图形渲染开源
一、Mesa是什么？Mesa是Linux及其他类Unix系统上广泛使用的开源图形库，提供对OpenGL、OpenGLES、Vulkan、EGL、OpenCL等多种图形API的实现。简单来说，它是图形应用程序和GPU之间沟通的重要桥梁，让开发者可以借助标准的图形接口轻松进行图形渲染和3D处理。Mesa最初由BrianPaul于1993年发起，经过多年发展，如今已经成为Linux系统中不可或缺的重要组
创建模式-工厂方法模式（Factory Method Pattern） qxsorz #创建模式抽象工厂模式
江城子·乙卯正月二十日夜记梦目的动机简单工厂示例代码目的定义一个创建对象的接口，该接口的子类具体负责创建具体的对象。工厂方法模式将对象的实例化延迟到子类。简单工厂是直接在创建方法中负责所有的产品的生成，造成该方法臃肿，并且当新增产品类时会修改该方法，违背了开闭原则OpenClosePrinciple。动机创建模式其实都是对new关键字的封装和抽象，工厂方法也不例外，所以工厂方法首先解决的就是创建问
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

基于OpenCL的图像积分图算法改进

你可能感兴趣的:(opencl)