慷仔

你或许也想拥有专属于自己的AI模型文件格式(推理部署篇)-(8)

OCL-ENGINE推理框架完善

- - 1、前言
  - 2、有向图重排网络层
  - - 2.1、重排的原因和目的
    - 2.2、重排的核心思想
    - 2.3、具体的代码如下所示
  - 3、算子适配过程（以Conv2d算子作为具体说明）
  - - 3.1、跟整体推理框架的接入
    - 3.2、CL算子介绍
    - 3.3、推理性能测试
  - 4、后续计划与安排

《你或许也想拥有专属于自己的AI模型文件格式》这个系列，上一次的文章更新是2022-03-05，距今已经4个月之久了。

主要是这段时间有其他的事情在忙，期间也在断断续续地在完善该推理框架的。而让我思绪卡死的地方就是整网的推理时事件依赖问题，这个问题主要是因为OpenCL的clEnqueueNDRangeKernel这个核函数推理函数的局限性问题（正文仔细说明）。

1、前言

本次的进展内容：

完成了整网的推理时框架构建
根据有向图重排了网络的网络层推理顺序
根据重排后的网络层的有向图形成了事件依赖
适配了卷积(Conv2d)算子和池化(Pool2d)算子（编写.cl核函数以及相关适配代码）

本次文章的主要内容：

有向图重排网络层的核心算法
算子适配的过程以及核函数的具体实现(以Conv2d为例)
初次测试推理框架的推理速度性能

目前的工程整体结构：

.
|-- 3rdparty
|   `-- flatbuffers
|       |-- bin
|       |   `-- flatc.exe
|       |-- include
|       |   `-- flatbuffers
|       `-- lib
|           |-- debug
|           `-- release
|-- CMakeLists.txt
|-- README.md
|-- build
|-- clkernel
|   |-- conv2d.cl
|   |-- img2col.cl
|   `-- pool2d.cl
|-- example
|   |-- create_model_sample.cpp
|   `-- main.cpp
|-- include
|   |-- CL
|   |-- model
|   |   |-- json11.hpp
|   |   |-- pzk-schema_generated.h
|   |   `-- pzk.hpp
|   `-- runtime
|       |-- builder.hpp
|       |-- engine.hpp
|       |-- img2col.hpp
|       `-- op
|           |-- allops.hpp
|           |-- conv2d.hpp
|           |-- img2col.hpp
|           `-- pool2d.hpp
|-- model-flatbuffer
|   |-- pzk-metadata.json
|   `-- pzk-schema.fbs
|-- run.sh
|-- src
|   |-- model
|   |   `-- json11.cpp
|   `-- runtime
`-- test-model
    `-- first.pzkm

2、有向图重排网络层

2.1、重排的原因和目的

模型的网络层顺序是乱序的：我们自定义的模型中，对应网络层的顺序没有任何要求。因此根据原始的网络层顺序去构建整网的推理时，那么必然会导致推理顺序出现问题，这很可能会导致卡死、结果出错的问题。
重排网络层有利于形成核函数执行时的事件依赖：也就是如果不进行网络层重排，对于clEnqueueNDRangeKernel的事件依赖参数就无法正确给出，这样我们就无法对推理框架形成异步推理接口。注重事件依赖的原因是：事件依赖保证了网络层的执行顺序，而保证了最终结果的正确性。

2.2、重排的核心思想

如标题所示，重排网络层用到的主要思想就是有向图。而具体的方法是：

1、用有向图抽象出了网络层之间的连接关系，尤其是数据流的流向关系，也就是剥离了网络层的输入输出依赖关系；
2、找出现在有向图中的所有的根节点RootNodeSet（也就是只有输出没有输入的节点）
3、这些RootNodeSet作为一个整体部分，作为事件依赖的一个整体节点
4、去掉现有有向图中的这部分RootNodeSet
5、更新有向图
6、如果有向图还有节点，则重复2-5步骤；否则，结束。

对应的流程图如下所示：

模型文件

有向图

存在

不存在

RootNodeSet

开始

获取有向图

存在节点

结束

找出根节点

保存根节点

移除根节点

更新有向图

2.3、具体的代码如下所示

    /* 返回重排结果的标号信息 */
    std::vector ReSortByDirectedGraph(std::vector> DirectedGraph){
        /* 运用的主要原理是根节点只有输出没有输入的特性;
            通过不断去除掉根节点，更新有向图，然后进行操作的时候
        */
        std::vector ReSortIndex;
        std::vector RemainIndex;
        std::vector RegIndex;
        std::vector Reg2Index;
        std::vector> BakDirectedGraph = DirectedGraph;
        for(size_t i = 0; i < DirectedGraph.size(); i++){
            RemainIndex.push_back(i);
        }
        /* 1.开始进行根节点获取操作 */
        ReSortIndex = JudgeRootNode(DirectedGraph);
        /* 2. 移除RemainIndex中的重复点 */
        RemainIndex = MinusSet(RemainIndex, ReSortIndex);
        BakDirectedGraph = RemoveDirectedGraph(BakDirectedGraph, ReSortIndex);
        /* 3. 重复上述两个步骤,直到BakDirectedGraph中不存在节点或者是RemainIndex中没有值 */
        while(RemainIndex.size() > 0 && BakDirectedGraph.size() > 0 && ReSortIndex.size() < DirectedGraph.size()){
            Reg2Index.clear();
            RegIndex = JudgeRootNode(BakDirectedGraph);
            /* 加入到ReSortIndex中 */
            for(auto i:RegIndex){
                ReSortIndex.push_back(RemainIndex[i]);
                Reg2Index.push_back(RemainIndex[i]);
            }
            RemainIndex = MinusSet(RemainIndex, Reg2Index);
            BakDirectedGraph = RemoveDirectedGraph(BakDirectedGraph, RegIndex);
        }
        return ReSortIndex;
    }

3、算子适配过程（以Conv2d算子作为具体说明）

3.1、跟整体推理框架的接入

1、cl算子编写在clkernel文件夹内（比如clkernel/conv2d.cl）
2、在include/runtime/op中增加算子头文件（比如conv2d.hpp）

#include "runtime/engine.hpp"

namespace OCLEngine{
    struct Conv2dCfg{
        cl_mem* input = NULL;
        cl_mem* weights = NULL;
        cl_mem* biases = NULL;
        cl_mem* output = NULL;
        NodeEvent event;
        uint batchSize = 1;
        uint inputChannels;
        uint inputWidth;
        uint inputHeight;
        uint kernelWidth;
        uint kernelHeight;
        uint padTop = 0;
        uint padRight = 0;
        uint padBottom = 0;
        uint padLeft = 0;
        uint strideX;
        uint strideY;
        size_t outputChannels;
        size_t outputHeight;
        size_t outputWeight;
    };

    class Conv2dLayer : public CLFunction{
    private:
        Conv2dCfg cfg;
        cl_kernel kernel = NULL;
        size_t* globalWorkSize = NULL;
        size_t* localWorkSize = NULL;
        cl_uint work_dim = 0;
        bool useful = false;
        cl_int Conv2derrNum = CL_SUCCESS;
    public:
        Conv2dLayer() = default;
        ~Conv2dLayer(){
            if (this->globalWorkSize != NULL){
                free(this->globalWorkSize);
            }
            if (this->localWorkSize != NULL){
                free(this->localWorkSize);
            }
            if (this->kernel != NULL){
                clReleaseKernel(kernel);
            }
        };
        // 配置函数
        bool configure(Conv2dCfg conf){
            this->cfg  = conf;
            std::vector buildOptions;
            if (this->cfg.biases != NULL){
                /* 如果有bias，则进行如下所示的编译命令 */
                buildOptions.push_back(std::string("-D HASBIAS"));
            }
            /* 1、获取对应的核心 */
            this->kernel = ProgramManager.GetKernel(std::string("conv2d.cl"), buildOptions, std::string("convolutionNaive"));
            if (this->kernel == NULL){
                printf("Get convolutionNaive kernel of conv2d.cl Failed\n");
                return false;
            }
            /* 2、对核心进行相应的参数设置 */
            cl_uint arg_idx = 0;
            Conv2derrNum = clSetKernelArg(kernel,arg_idx,sizeof (cl_mem),
                                    this->cfg.input);
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint), this->cfg.weights);
            if (this->cfg.biases != NULL)
                Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (cl_mem),this->cfg.biases);
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.batchSize));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.inputChannels));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.inputWidth));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.inputHeight));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.kernelWidth));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.kernelHeight));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.padTop));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.padRight));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.padBottom));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.padLeft));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.strideX));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (uint),&(this->cfg.strideY));
            Conv2derrNum |= clSetKernelArg(kernel,++arg_idx,sizeof (cl_mem),this->cfg.output);
            if (Conv2derrNum != CL_SUCCESS){
                printf("Set kernel Arguments Failed On Conv2d Layers\n");
                return false;
            }
            /* 3、 设置全局尺寸和局部尺寸大小，以便于后续的加入命令队列操作 */
            this->work_dim = 3;
            this->globalWorkSize = (size_t*)malloc(sizeof(size_t) * this->work_dim);
            this->globalWorkSize[0] = this->cfg.batchSize * this->cfg.outputChannels;
            this->globalWorkSize[1] = this->cfg.outputHeight;
            this->globalWorkSize[2] = this->cfg.outputWeight;
            this->localWorkSize = (size_t*)malloc(sizeof(size_t) * this->work_dim);
            this->localWorkSize[0] = 1;
            this->localWorkSize[1] = 1;
            this->localWorkSize[2] = 1;
            useful = true;
            return true;
        };
        // 重载函数，主要的run函数
        void run() override{
            if (this->useful){
                this->Conv2derrNum = clEnqueueNDRangeKernel(commandQueue,
                                                            this->kernel,
                                                            this->work_dim,
                                                            NULL,
                                                            this->globalWorkSize,
                                                            this->localWorkSize,
                                                            this->cfg.event.wait_event.num,
                                                            this->cfg.event.wait_event.event,
                                                            this->cfg.event.this_event.event);
                if (this->Conv2derrNum != CL_SUCCESS){
                    printf("Inference Conv2d Layers Failed\n");
                    return;
                }
            }else{
                printf("This Conv2d Layers is useless\n");
                return;
            }
        };
        /* cpu推理函数，主要用于测试 
            此时，因为其父类拥有这个
        */
        void cpu_run() override{

        };
    };
}

3、在include/runtime/op/allops.hpp中新增对接代码

/* 2.1、增加对应算子头 */
#include "runtime/op/conv2d.hpp"
#include 
namespace OCLEngine{
    /* ... */
    /* 2.2、conv2d网络层的构建 */
    bool add_conv2d_layer(layer_maker l, NodeEvent node_event, std::vector input, std::vector output){
        Conv2dCfg cfg;
        cfg.input = l.get_input_id("input") != -1 ? &(clmem[l.get_input_id("input")]):NULL;
        cfg.weights = l.get_input_id("weights") != -1 ? &(clmem[l.get_input_id("weights")]):NULL;
        cfg.biases = l.get_input_id("biases") != -1 ? &(clmem[l.get_input_id("biases")]):NULL;
        cfg.output = l.get_output_id("conv2d-output") != -1 ? &(clmem[l.get_output_id("conv2d-output")]):NULL;
        if (cfg.input == NULL || cfg.weights == NULL || cfg.output == NULL){
            return false;
        }
        cfg.event = node_event;
        TensorsS input_tensor = input[find_tensor_by_id(input, l.get_input_id("input"))];
        cfg.batchSize = input_tensor.shape.dims[0];
        cfg.inputChannels = input_tensor.shape.dims[1];
        cfg.inputHeight = input_tensor.shape.dims[2];
        cfg.inputWidth = input_tensor.shape.dims[3];
        TensorsS weight_tensor = input[find_tensor_by_id(input, l.get_input_id("weights"))];
        cfg.kernelHeight = weight_tensor.shape.dims[2];
        cfg.kernelWidth = weight_tensor.shape.dims[3];
        cfg.padTop = l.get_attr(std::string("padTop")).size() == 0 ? 0:l.get_attr(std::string("padTop"))[0];
        cfg.padRight = l.get_attr(std::string("padRight")).size() == 0 ? 0:l.get_attr(std::string("padRight"))[0];
        cfg.padBottom = l.get_attr(std::string("padBottom")).size() == 0 ? 0:l.get_attr(std::string("padBottom"))[0];
        cfg.padLeft = l.get_attr(std::string("padLeft")).size() == 0 ? 0:l.get_attr(std::string("padLeft"))[0];
        cfg.strideX = l.get_attr(std::string("strideX")).size() == 0 ? cfg.kernelWidth:l.get_attr(std::string("strideX"))[0];
        cfg.strideY = l.get_attr(std::string("strideY")).size() == 0 ? cfg.kernelHeight:l.get_attr(std::string("strideY"))[0];
        TensorsS output_tensor = output[find_tensor_by_id(output, l.get_output_id("conv2d-output"))];
        cfg.outputChannels = output_tensor.shape.dims[1];
        cfg.outputHeight = output_tensor.shape.dims[2];
        cfg.outputWeight = output_tensor.shape.dims[3];
        /* 正式构建卷积层 */
        std::shared_ptr conv2d = std::make_shared();
        if (conv2d->configure(cfg) == false){
            printf("conv2d make failed\n");
            return false;
        }else{
            AllLayers.push_back(conv2d);
            return true;
        }
    }

    /* 构建运行时的网络层 */
    bool BuildLayers(PzkM model){
        bool ret = true;
        for (size_t i = 0; i < model.rLayers.size(); i++){
            /* 进行各种不同类型的选择 */
            if (onelayer.type == "img2col"){
            }else if (onelayer.type == "Convolution2dLayer"){
                /* 2.2、增加上述函数的调用 */
                ret = add_conv2d_layer(onelayer, node_event, input_tensor, output_tensor);
            }else if (onelayer.type == "Pooling2dLayer"){
            }
            else{
                printf("unknown type = %s layer, cant't finish it\n", onelayer.type.c_str());
                return false;
            }
            /* 查看是否正确与否 */
            if (!ret){
                printf("failed to build type=%s, name=%s Layers\n", onelayer.type.c_str(), onelayer.name.c_str());
                return false;
            }
        }
        return true;
    }
}

3.2、CL算子介绍

实际cl核函数如下所示：

__kernel
void convolutionNaive(__global const float* input,
            __global const float* weights,
#ifdef HASBIAS
            __global const float* biases,
#endif
            const uint batchSize,
            const uint inputChannels,
            const uint inputWidth,
            const uint inputHeight,
            const uint kernelWidth,
            const uint kernelHeight,
            const uint padTop,
            const uint padRight,
            const uint padBottom,
            const uint padLeft,
            const uint strideX,
            const uint strideY,
            __global float* output
            ){
  int outputChannels = get_global_size(0) / batchSize;
  int outputHeight = get_global_size(1);
  int outputWeight = get_global_size(2);
  /* NC融合进行之后，如何拆分出相应维度
    错误示例如下：
    解释：会导致实际分配不正确，当batchSize=1，OutputChannels=10的时候，发现oc===0，明显出错。
    int b = get_global_id(0) / batchSize;
    int oc = get_global_id(0) % batchSize;
   */
  int b = get_global_id(0) / outputChannels;/* batchSize被融入到第一个并行度中，N*C */
  int oc = get_global_id(0) % outputChannels;
  int ohx = get_global_id(1); // [0, col_chw)
  int owy = get_global_id(2);
  uint output_offset = b * outputChannels * outputHeight * outputWeight + oc * outputHeight * outputWeight + ohx * outputWeight + owy;
  uint input_feature_map_size = inputHeight * inputWidth;
  uint input_one_size = inputChannels * input_feature_map_size;
  uint weight_feature_map_size = kernelWidth * kernelHeight;
  uint weight_one_size = inputChannels * weight_feature_map_size;
// /* 定义一次卷积的长度=kernelWidth乘kernelHeight */
// #define CalSize 10
//   local float input_reg[CalSize];
//   local float weights_reg[CalSize];
  /*
  [ohx, owy]表示输出特征图的x,y点坐标
  我们需要从输出映射到输入的坐标值，需要考虑到Pad的偏移等因素。
  */
  float result = 0.0;
  int padinputWidthMax = padLeft + inputWidth;
  int padinputHeightMax = padBottom + inputHeight;
  int ihx = ohx * strideX;
  int iwy = owy * strideY;
  /* 首先只进行卷积的weight乘加 */
  for (uint i = 0; i < kernelHeight; i++){
    if (ihx + i < padTop || ihx + i >= padinputHeightMax){
        continue;
    }else{
        for (uint j = 0; j < kernelWidth; j++){
            if (iwy + j < padRight || iwy + j >= padinputWidthMax){
                continue;
            }else{
                /* 此时表示没有超出卷积的尺寸范围之外，所以需要进行卷积操作 */
                uint one_featuremap_offset = (ihx + i - padTop) * inputWidth + (iwy + j - padRight);
                uint one_weight_offset = i * kernelWidth + j;
                for (uint ic = 0; ic < inputChannels; ic++){
                    uint input_ptr = b * input_one_size + ic * input_feature_map_size + one_featuremap_offset;
                    uint weight_ptr = oc * weight_one_size + ic * weight_one_size + one_weight_offset;
                    result += (input[input_ptr] * weights[weight_ptr]);
                }
            }
        }
    }
  }
  /* 然后进行bias的相加 */
#ifdef HASBIAS
  result += biases[oc];
#endif
  output[output_offset] = result;
}

解释说明：

假设卷积层的输出尺寸为[N,C,H,W],并行工作维度设置为3,其工作项数目分别是[N*C,H,W]
使用opencl的预编译指令优化和函数：当存在bias权重时，设置HASBIAS开始bias计算
一个工作项只处理一个输出数据，实现最大并行度。

3.3、推理性能测试

测试条件如下所示：

硬件环境：处理器Intel® Xeon® Silver 4110 CPU @ 2.10GH，32核心
软件环境：Intel-CPU-OpenCL-SDK-64bit，GCC编译，Linux-Ubuntu18.64
测试环境：10000次，异步推理，float推理
测试模型：如下所示

[1,3,416,416]

[1,10,104,104]

[1,10,52,52]

输入

卷积核[10,3,4,4]

池化核[2,2]

输出

测试结果如下所示：

There is no GPU,trying CPU……
Result: open ../model-flatbuffer/pzk-metadata.json success
<-------------------------------------->
DirectedGraph Mat:
False, True , False, False, 
False, False, True , False, 
False, False, False, True , 
False, False, False, False, 
<-------------------------------------->
<-------------------------------------->
DirectedGraph Mat:
False, True , 
False, False, 
<-------------------------------------->
depend of event is 
node=0--->[dpnum=0,dphead=-1,thisid=0]
node=1--->[dpnum=1,dphead=0,thisid=1]
node=2--->[dpnum=1,dphead=1,thisid=2]
node=3--->[dpnum=1,dphead=2,thisid=-1]
inference time is 480.458 fps

结果显示：

该模型在该cpu上能够实现480fps的帧率，成绩还算不错。
使用htop工具可观察出在推理的时候CPU占用率高，所有核心都被利用起来了，适合多核CPU推理。

4、后续计划与安排

其实到这一部分，该推理框架已经成形，可以应对众多的算子适配和相应模型推理。但是还有待相应的完善，如下所示：

适配更多常用算子：常见激活算子relu、sigmoid等
验证算子计算正确性：验证cl核函数是否编写正确
模型转换工具：需要编写一个模型转换工具去转换比如pytorch或者是caffe，甚至是darknet的训练前端模型到自定义的模型上。
其他：异构推理（调度多计算设备去同时进行一次推理）、量化支持等

基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
力扣 hot100 Day45 qq_51397044 Hot100 leetcode 算法
230.二叉搜索树中第K小的元素给定一个二叉搜索树的根节点root，和一个整数k，请你设计一个算法查找其中第k小的元素（从1开始计数）。//抄的classSolution{public:voidhelper(TreeNode*root,intk,int&count,int&result){if(!root)return;helper(root->left,k,count,result);count
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
在ComfyUI中CLIP Text Encode (Prompt)和CLIPTextEncodeFlux的区别虎冯河 AIGC ComfyUI
CLIPTextEncode(Prompt)CLIPTextEncodeFlux在ComfyUI中对token支持长度是否相同的详细技术对比：1、CLIPTextEncode(Prompt)通常来自：ComfyUI官方自带CLIPTextEncode节点。特点：✅使用OpenAICLIP模型（ViT-L/14等）✅默认最大支持77tokens(固定超参数)✅超过77tokens时：部分实现直接截断
国产开源！TinyPiXOS国产自主轻量级移动嵌入式设备桌面操作系统！运用纯C/C++从底层重构出超轻量级的整体图形技术栈，打造一款独立可控、轻量且高度定制化的嵌入式桌面操作系统方案。 TinyPiXOS开发者联盟 TinyPiXOS 开源 c语言 c++系统架构 linux 嵌入式硬件 arm开发
目录TinyPiXOS——国产自主轻量级移动嵌入式设备桌面操作系统开源工程系统优势系统特点为什么要造“轮子”？我们做了什么？核心模块自主研发GUI桌面系统交互设计和开发适用场景关于自有内核的开发规划关于多窗口操作的说明如何参与项目如何学习TinyPiXOS关注我们TinyPiXOS——国产自主轻量级移动嵌入式设备桌面操作系统TinyPiXOS以开源Linux为基础，通过创新的内核级轻量化改造与精简
解锁Prompt+DevOps新姿势：终端系统重塑的三大核心策略
文章目录引言：Prompt驱动的DevOps范式迁移核心策略一：智能决策流水线构建横向架构对比纵向实现流程Python实现示例核心策略二：自适应终端部署体系TypeScript客户端实现YAML部署配置模板核心策略三：智能运维闭环构建安全审计实现方案性能对比分析技术前瞻性分析附录：完整技术图谱技术架构部署验证引言：Prompt驱动的DevOps范式迁移在云原生与AI工程化交汇的今天，Prompt技
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
全栈开发的现状与未来——机遇与挑战并存 Willin 老王躺平不摆烂 chatgpt AIGC 程序员创富 ecmascript javascript
目录全栈开发的现状与未来：机遇与挑战并存1.全栈开发的就业市场现状与趋势1.1当前市场需求与薪资水平1.2行业竞争与公司偏好1.3未来几年发展预测2.全栈开发的技能要求与职业发展2.1核心技能栈：从前端到后端2.2新兴技术：AI与低代码/无代码2.3职业发展路径与晋升空间2.4多元化发展机会3.全栈开发的行业挑战与应对策略3.1主要行业挑战3.2应对策略与建议全栈开发依然充满机遇，市场需求旺盛，薪
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
【AI大模型应用开发】Prompt提示词工程 bay_Tong桐小白 AI大模型人工智能 prompt ai 大模型应用开发 LLM 聊天机器人
halo~我是bay_Tong桐小白本文内容是桐小白个人对所学知识进行的总结和分享，知识点会不定期进行编辑更新和完善，了解最近更新内容可参看更新日志，欢迎各位大神留言、指点感谢新老朋友给予过的关心，过去经历了很多，身心状态慢慢调整，因此更新文章较慢，给关注我的新老朋友道声抱歉，也再次给对桐小白给予关心的新老朋友表示感谢~Prompt提示词工程（初步）【更新日志】大模型分类prompt基本概念pro
后端开发：Spring Boot 的分布式缓存方案大厂资深架构师 Spring Boot 开发实战 spring boot 分布式缓存 ai
后端开发：SpringBoot的分布式缓存方案关键词：SpringBoot、分布式缓存、Redis、Caffeine、缓存策略、缓存失效摘要：本文深入探讨了在SpringBoot后端开发中分布式缓存方案的相关技术。首先介绍了分布式缓存在现代应用中的重要性及本文的研究范围，接着阐述了核心概念如分布式缓存的原理与架构，详细讲解了常用的核心算法原理及具体操作步骤，包括使用Python代码示例说明。通过数
米信使股票群诈骗真相！郑洪盛国浩盟国一带一路项目就是资金盘不要被骗了！不成功不收费
讲述:郑洪盛国浩盟国慈善投票被骗无法出金真相！套路太深教你该如何避！！骗子引诱人上当方式很简单：先给你一点甜头尝尝，一开始入金能正常提现，也能赚一点，但当投入更多钱时，你发现你的运气开始变差了。所以，荐股类骗局最大的迷惑性是：给受害人一种假象，你是投资亏损的，而不是被骗的！广大市民对此要提高警惕，如果是还没有投资，千万不要抱有侥幸心理，一定要及时远离！一定不要打草惊蛇低碳项目数字体育，人工智能ai
后端校招 | 高分简历 + 高频 C++ 面试题整理（附GitHub题库推荐）壹張先森 c++java 开发语言
一、为什么专门做一期C++面试题分享？我发现很多后端同学在面试准备时：Java岗位题资源非常多但C++后端面试内容分散、缺少整合所以我整理了GitHub上高频C++后端面试题+答案解析，今天精选5道送给你：二、精选高频C++面试题（附答题技巧）1.new和malloc的区别？特性newmalloc返回类型指定类型指针void*构造函数会调用构造函数不会调用释放方式deletefree重载支持支持重
中国电子学会(CIE)2021.6 c++一级考级真题
#数的输入和输出(a/b)*c的值大写字母的判断特殊求和硬币翻转一、数的输入和输出题目描述输入一个整数和双精度浮点数，先将浮点数保留2位小数输出，然后输出整数。输入格式一行两个数，分别为整数N（不超过整型范围），双精度浮点数F，以一个空格分开。输出格式一行两个数，分别为保留2位小数输出的F,以及整数N，以一个空格分开。输入输出样例输入#1100123.456789输出#1123.46100代码样例
数据结构排序算法总结（C语言实现） xienda 排序算法数据结构算法
以下是常见排序算法的总结及C语言实现，包含时间复杂度、空间复杂度和稳定性分析：1.冒泡排序(BubbleSort)思想：重复比较相邻元素，将较大元素向后移动。时间复杂度：O(n²)（最好O(n)，最坏O(n²))空间复杂度：O(1)稳定性：稳定voidbubbleSort(intarr[],intn){for(inti=0;iarr[j+1]){//交换相邻元素inttemp=arr[j];arr
短剧系统全栈开发指南：从0到1构建高并发微服务架构 wx_ywyy6798 短剧系统短剧系统开发海外短剧系统海外短剧系统开发短剧分销短剧分销系统短剧分销系统开发
一、短剧系统概述短剧作为一种新兴的数字内容形式，近年来在移动互联网领域迅速崛起。短剧系统开发不仅涉及传统视频平台的技术栈，还需要针对短内容、高互动、快速消费等特点进行专门设计。1.1短剧行业现状与发展趋势2023年短剧市场规模已突破300亿元，用户日均使用时长达到58分钟。短剧以其"短平快"的特点，填补了用户碎片化时间的娱乐需求。未来发展趋势包括：垂直领域精细化运营AI辅助内容生产互动式剧情发展跨
分治算法---归并
1、排序数组classSolution{vectortmp;public:vectorsortArray(vector&nums){tmp.resize(nums.size());mergeSort(nums,0,nums.size()-1);returnnums;}voidmergeSort(vector&nums,intleft,intright){if(left>=right)return;
linux proc/pid/信息说明 shenhuxi_yu LINUX
版权声明：本文为EnweiTech原创文章，未经博主允许不得转载。https://blog.csdn.net/English0523/article/details/53391567Proc是一个虚拟文件系统，在Linux系统中它被挂载于/proc目录之上。Proc有多个功能，这其中包括用户可以通过它访问内核信息或用于排错，这其中一个非常有用的功能，也是Linux变得更加特别的功能就是以文本流的形
读《认知天性》（1）云城梦天
认知是对天性是挑战认知可以用数学统计与实践客观来评价，而我感觉是一种自我感知。当未知时，感知痛苦然而这是个时习之中乐的过程。也可以通过rain和轻疗的方法安抚情绪编码，可以以好奇心与视觉画面联动来做记忆编码的过程，因人是视觉性爬行动物，且好奇心也是人的天性好奇时会主动探索算是翻转式学习的一种，编码是记忆过程。另外你可能对记忆中某一刻的感觉记得很清楚，然而忘记了内容，人或许也是感觉爬行动物。巩固，可
415.字符串相加粉蒸妹 LeedCode每日一题
给定两个字符串形式的非负整数num1和num2，计算它们的和。注意：num1和num2的长度都小于5100.num1和num2都只包含数字0-9.num1和num2都不包含任何前导零。你不能使用任何內建BigInteger库，也不能直接将输入的字符串转换为整数形式。publicclassQuestion1{publicstaticvoidmain(String[]args){Scannerin=n
排序算法—交换排序（冒泡、快速）（动图演示）每天都要进步1 排序算法排序算法算法
目录十大排序算法分类编辑冒泡排序算法步骤：动图演示：性能分析：代码实现（Java）：快速排序（挖坑法）算法步骤：动图演示：性能分析：代码实现（Java）：十大排序算法分类本篇分享十大排序算法中的需要进行交换操作的冒泡排序与快速排序,其余算法也有介绍噢（努力赶进度中，后续会添加上）冒泡排序冒泡排序是一种非常直观的排序算法，遍历数组，每次比较两个元素，如果后者比前者小则交换位置，重复的进行直至没有再需
全球50+亿下载、狂揽200+亿美元的《糖果传奇》被曝荒诞一幕：超200人被自己造的AI逼到失业！ CSDN资讯人工智能
整理|郑丽媛出品|CSDN（ID：CSDNnews）投稿或寻求报道：[email protected]还记得那个让全球数亿人上瘾的三消游戏吗？2012年诞生的《糖果传奇》（CandyCrush），曾是移动游戏界当之无愧的王者——全球下载量突破50亿，累计总营收突破200亿美元，多次占据AppStore和GooglePlay下载榜和收入榜前列。而它的开发商King，也因此一跃成为全球最赚钱的手游公司之
实现大语言模型与应用的无缝对接 meslog 技术分享语言模型 microsoft 人工智能
在当今人工智能快速发展的时代，大语言模型（LLMs）已经成为众多应用的核心驱动力。然而，如何让这些强大的模型与各种数据源和工具进行有效集成，仍然是一个挑战。ModelContextProtocol（MCP）正是为解决这一问题而设计的开放协议，它标准化了应用程序如何向大语言模型提供上下文信息。本文将介绍MCP的基本概念，并通过C#SDK展示如何实现客户端和服务器端的交互。什么是MCP？ModelCo
ubuntu 22.04 pam 模块设置用户登录失败锁定
1、ubuntu22.04配置方法/etc/pam.d/common-auth加到如下行后#auth[success=1default=ignore]pam_unix.sonullok#添加如下内容auth[default=die]pam_faillock.soauthfailauthsufficientpam_faillock.soauthsucc/etc/pam.d/common-accoun
2018.09.22 Mr_Oldman
It'sSaturday.SixSaiFongMariotooktheIRTlocalsubwaydowntown.Heheldthematchboxupatthelevelofhischestsohecricketcouldseeout.ThiswasthefirsttimeChesterhadbeenabletowatchwherehewasgoingonthesubway.Thelastti
【开源项目】实测 Google 开源的 AI MCP 数据库网关：10行代码隔离风险，连接池自动复用
1.引言这两天试了谷歌新开的MCPToolboxforDatabases，它用不到10行代码就能让AI助手（比如LangChain智能体）安全地操作数据库。作为一个常年和数据库连接池、凭证泄露搏斗的开发者，这东西确实解决了我的痛点——把数据库访问抽象成“工具”，通过集中管控的MCPServer隔离风险，还自带性能优化。下面分享实测体验和避坑指南。2.正文2.1核心逻辑：为什么需要MCP？传统AI代
RocketMQ 高可用集群架构与一致性机制解析乘风破浪~~ rocketmq 架构
分布式场景中一致性问题：1.服务器不稳定：随时泵机的可能2.网络问题：导致请求丢失3.网速问题：难以保证请求顺序性，最终结果数据一致性需要操作顺序性保证4.快速响应：不能因为一致性，导致响应以集群中最慢的为准。常见的算法弱一致性算法：DNS系统，Gossip协议（RedisCluster）强一致性算法：Basic-Paxos、Multi-Paxos包括Raft系列(Nacos的JRaft，Kafk
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
【二分答案】P3743 小鸟的设备
前言九月应该是人生中最后一次CSP了，已经7个多月没碰编程的我显然已经有些力不从心，达到一年前的水平更是不可能。只能写点简单的题目来提升一下。祝我CSPRP++。题意小鸟有nnn个可同时使用的设备。第iii个设备每秒消耗aia_iai个单位能量。能量的使用是连续的，也就是说能量不是某时刻突然消耗的，而是匀速消耗。也就是说，对于任意实数，在kkk秒内消耗的能量均为k×aik\timesa_ik×ai
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {