继明照于四方

TensorFlow的自定义算子实现

在学习中涉及到了TensorFlow的自定义算子实现，现将整个工程中的一些思考写下来，有问题的部分也请大家指正！！！

OP和Kernel是TensorFlow框架最重要的两个概念，OP类似于函数声明，Kernel类似于实现。要注意以下四个方面：一是所有Op包含注册和实现两部分；二是OpKernel类（./core/framework/op_kernel.h）是所有Op类的基类；三是所有Op类的实现需要overide抽象基函数void Compute(OpKernelContext* context)，实现自身Op功能；四是所有Op操作的属性定义和描述符合protobuf协议。

一、自定义算子实现基本流程

1. OP注册

在一个C++文件中注册新Op，其注册与实现相互独立，该文件指定自定义算子的输入输出、参数，命名采用驼峰命名法。

/**
* ./tensorflow/core/framework/op.h
* #define REGISTER_OP(name) REGISTER_OP_UNIQ_HELPER(__COUNTER__, name)
* #define REGISTER_OP_UNIQ_HELPER(ctr, name) REGISTER_OP_UNIQ(ctr, name)
* #define REGISTER_OP_UNIQ(ctr, name)                                          \
*   static ::tensorflow::register_op::OpDefBuilderReceiver register_op##ctr    \
*       TF_ATTRIBUTE_UNUSED =                                                  \
*           ::tensorflow::register_op::OpDefBuilderWrapper(name)
* REGISTER_OP本质是创建了一个OpDefBuilderReceiver对象，
* 并将Attr，Input，Output等保存在OpDefBuilder对象中。
*/
REGISTER_OP("myFunc") //: ，通过context参数访问这个属性
    .Input("in1: int32")
    .Input("in2: int32")
    .Output("out: int32")
    .Attr("Para1: int")
    .Attr("Para2: int")
    .SetShapeFn([](InferenceContext *c){return Status::OK();})

上述表示：注册名为myFunc的算子，输入in1和in2，类型为int32；输出为out，类型为int32；参数为Para1和Para2，类型为int，ShapeFn用于shape推断。

也可以在注册时赋予默认值，默认值支持的语法将在最终GraphDef定义的pb表示中被使用。

2. Kernel实现

/**
* tensorflow/core/framework/op_kernel.h
* class OpKernel {
*   public:
*    explicit OpKernel(OpKernelConstruction* context);
*   
*    OpKernel(OpKernelConstruction* context, bool is_deferred);
*   
*    OpKernel(OpKernelConstruction* context, NodeDef&& custom_def,
*             bool is_deferred);
*    ...
*      TF_DISALLOW_COPY_AND_ASSIGN(OpKernel);
* };
*/
class myFuncOp: public OpKernel{ //创建一个类，继承OpKernel类
    public:
        //创建构造函数并显示调用OpKernel(context)
        explicit myFuncOp(OpKernelConstruction* context):OpKernel(context)
        {
            //参数获取
            OP_REQUIRES_OK(context,context->GetAttr("attr_name",&attr_name));
        }
        void Compute(OpKernelContext* context) override //重写OpKernel类的Compute方法
        {
            //输入tensor
            Tensor* in1 = const_cast(&context->input(0));  
            Tensor* in2 = const_cast(&context->input(1));
            //创建一个输出, 使用context->allocate_ouput()分配空间
            Tensor* out = NULL;
            TensorShape out_shape(...);
            OP_REQUIRES_OK(context, context->allocate_output(0, out_shape, &out));
            ...
            //算子行为的具体实现
            ...
        }
}

3. 算子的Kernel注册

/**
* #define REGISTER_KERNEL_BUILDER(kernel_builder, ...) \
*   REGISTER_KERNEL_BUILDER_UNIQ_HELPER(__COUNTER__, kernel_builder, __VA_ARGS__)
* #define REGISTER_KERNEL_BUILDER_UNIQ_HELPER(ctr, kernel_builder, ...) \
*   REGISTER_KERNEL_BUILDER_UNIQ(ctr, kernel_builder, __VA_ARGS__)
* #define REGISTER_KERNEL_BUILDER_UNIQ(ctr, kernel_builder, ...)        \
*   constexpr bool should_register_##ctr##__flag =                      \
*       SHOULD_REGISTER_OP_KERNEL(#__VA_ARGS__);                        \
*   static ::tensorflow::kernel_factory::OpKernelRegistrar              \
*       registrar__body__##ctr##__object(                               \
*           should_register_##ctr##__flag                               \
*               ? ::tensorflow::register_kernel::kernel_builder.Build() \
*               : nullptr,                                              \
*           #__VA_ARGS__,                                               \
*           [](::tensorflow::OpKernelConstruction* context)             \
*               -> ::tensorflow::OpKernel* {                            \
*             return new __VA_ARGS__(context);                          \
*           });
* REGISTER_KERNEL_BUILDER实质是创建一个名称唯一的类型为OpKernelRegistrar的全局静态变量
* class OpKernelRegistrar {
*     public:
*     OpKernelRegistrar(const KernelDef* kernel_def, StringPiece kernel_class_name,
*                       std::unique_ptr factory) {
*       if (kernel_def != nullptr) {
*         InitInternal(kernel_def, kernel_class_name, std::move(factory));
*       }
*     }
*     OpKernelRegistrar(const KernelDef* kernel_def, StringPiece kernel_class_name,
*                       OpKernel* (*create_fn)(OpKernelConstruction*)) {
*       if (kernel_def != nullptr) {
*         InitInternal(kernel_def, kernel_class_name,
*                      absl::make_unique(create_fn));
*       }
*     }
* }
* OpKernelRegistrar的构造需要三个被包装到KernelRegistration这个结构体里的参数，并作为Kernel注册表的值：
* 第一个是KernelDef，第二个是定义Kernel的类名，第三个是创建kernel对象的函数；
* 首先调用KernelDefBuilder的Build函数获得对应的KernelDef；
* 然后获取用于创建这个Kernel的C++类名称；
* 最后包装一个factory函数用来接收传进来的OpKernelConstruction*，创建对应的Kernel类对象，并返回其指针。
*/
REGISTER_KERNEL_BUILDER(Name("myFunc").Device(DEVICE_CPU), myFuncOp);

二、示例（基于《智能计算系统》实验7-1）

在NMS实现之后，需要将其集成到TF框架中重编译，整个过程涉及接口封装与算子集成。

1. PluginOP封装

利用CNML PluginOP封装出便于用户使用的CNPlugin接口（该过程已实现）。

//plugin_yolov3_detection_output_op.cc
cnmlStatus_t cnmlCreatePluginYolov3DetectionOutputOp(//算子创建、参数声明及初始化...
    cnmlBaseOp_t *op,
    cnmlPluginYolov3DetectionOutputOpParam_t param,
    cnmlTensor_t *yolov3_input_tensors,
    cnmlTensor_t *yolov3_output_tensors){...}

cnmlStatus_t cnmlComputePluginYolov3DetectionOutputOpForward(...)//调用cnmlComputePluginOpForward完成计算
{
    ...
    cnmlComputePluginOpForward_V3(...);//cnmlComputePluginOpForward_V4(...)
    ...
}

2. Lib层封装

直接封装CNML和CNPlugin算子，结果供算子的DLP实现函数调用，该封装目的是将高层调用与底层实现有效隔离。

//mlu_lib_ops.cc & mlu_lib_ops.h
tensorflow::Status CreateYolov3DetectionOutputOp(...)
{
    CNML_RETURN_STATUS(cnmlCreatePluginYolov3DetectionOutputOp(op, param, input_tensors, output_tensors));
}

tensorflow::Status ComputeYolov3DetectionOutputOp(...)//
{ 
    ...
    cnmlComputePluginYolov3DetectionOutputOpForward(op, inputs, input_num, outputs, output_num, &compute_forw_param, queue);
}

3. 算子的DLP实现

//mlu_ops.h 算子类声明
struct MLUYolov3DetectionOutputOpParam{//数据成员声明
    ...
    MLUYolov3DetectionOutputOpParam(...): ...{}
}

/**
* 类声明，继承自MLUBaseOpWrapper
* CreateMLUOp(inputs, outputs, param)
* Compute(const std::vector &inputs, const std::vector &outputs, cnrtQueue_t queue) override
*/
DECLARE_OP_CLASS(MLUYolov3DetectionOutput);

//yolov3detectionoutput.cc 实现
Status MLUYolov3DetectionOutput::CreateMLUOp(std::vector &inputs, std::vector &outputs, void *param){
    //定义输入输出tensor
    ...
    //参量初始化
    ...
    //调用cnmlCreatePluginYolov3DetectionOutputOpParam
    //调用CreateYolov3DetectionOutputOp
    ...
}

Status MLUYolov3DetectionOutput::Compute(const std::vector &inputs, const std::vector &outputs, cnrtQueue_t queue)
{
    //变量获取
    ...
    //调用ComputeYolov3DetectionOutputOp
    ...
}

4. MLU算子实例化

运行时会MLU自动将算子与运行时队列绑定并下发执行。

//mlu_stream.h
Status Yolov3DetectionOutput(OpKernelContext* ctx,
                    Tensor* tensor_input0,
                    Tensor* tensor_input1,
                    Tensor* tensor_input2,
                    ...
                    Tensor* output1,
                    Tensor* output2){
    //实例化MLUYolov3DetectionOutputOpParam
    ops::MLUYolov3DetectionOutputOpParam op_param(...);
    //调用MLUYolov3Detectionutput，CommonOpImpl接口用于处理输入输出并创建OP
    return CommonOpImpl(
        ctx,
        {tensor_input0, tensor_input1, tensor_input2},
        {output1, output2},
        static_cast(&op_param));
}

5. Kernel实现

//yolov3_detection_output_op_mlu.h
class MLUYolov3DetectionOutputOp: public MLUOpKernel{//创建继承自MLUOpKernel的类
    public:
        //创建构造函数并显示调用MLUOpKernel(context)
        explicit MLUYolov3DetectionOutputOp(OpKernelConstruction* context):MLUOpKernel(context){
            //参数获取
            OP_REQUIRES_OK(context,context->GetAttr("Attr",&Attr_));
            ...
        }
        void ComputeOnMLU(OpKernelContext* context) override {
            ...

            //将输入tensor从context中取出
            Tensor* input0 = const_cast(&context->input(0));  
            Tensor* input1 = const_cast(&context->input(1));
            Tensor* input2 = const_cast(&context->input(2));
            ...
            
            //创建输出, 使用context->allocate_ouput()给它分配空间，并进行形状推断
            Tensor* output; 
            Tensor* buffer;
            TensorShape tf_output_shape {...};
            TensorShape tf_buffer_shape {...};
            OP_REQUIRES_OK(context, context->allocate_output(0, tf_output_shape, &output));
            OP_REQUIRES_OK(context, context->allocate_output(0, tf_buffer_shape, &buffer));

            //调用自定义算子
            OP_REQUIRES_OK(context,stream->Yolov3DetectionOutput(...));
    }
    //参数声明
    private:
    int batchNum_;
    int inputNum_;
    int classNum_;
    int maskGroupNum_;
    int maxBoxNum_;
    int netw_;
    int neth_;
    float confidence_thresh_;
    float nms_thresh_;
    std::vector inputWs_;
    std::vector inputHs_;
    std::vector biases_;
};

在进行形状推断时，需要注意以下：

//cnplugin.h
/*!
 *  @brief A function.
 *
 *  This function creates PluginYolov3DetectionOutputOp with proper param,
 *  input, and output tensors.
 *
 *  PluginYolov3DetectionOutputOp takes in feature maps and network
 *  parameters and computes valid bounding boxes based on two thresholds
 *  you have chosen.
 *
 *  **Reference:**
 *    This implementation is based on the project on ``github/pjreddie/darknet`` .
 *
 *  **Formula:** This op contains two steps:
 *
 *    1. DecodeAllBBoxes.
 *
 *       Convert input feature maps into real ojectness score and coordinates.
 *    for inputIdx in (0, inputNum - 1)
 *
 *       obj = sigmoid(obj_feature);
 *       x   = (x_offset + sigmoid(x_feature)) / inputWs[inputIdx]
 *       y   = (y_offset + sigmoid(y_feature)) / inputHs[inputIdx]
 *       w   = (w_biases * exp(w_feature)) / netw
 *       h   = (h_biases * exp(h_feature)) / neth
 *       Obj, x_feature, y_feature, w_feature, h_feature are data from input feature maps.
 *       x_offset, y_offset are the coordinates of the grid cell in the feature map.
 *       w_offset, h_biases are the shape of the anchor box.
 *
 *    2. Non-maximum Suppression
 *       For each class of data, compute IOU score for every pair of bounding boxes.
 *       If IOU score exceeds the IOU threshold, keep the box with larger score.
 *       x1 = x - w / 2
 *       y1 = y - y / 2
 *       x2 = x + w / 2
 *       y2 = y + y / 2
 *       for classIdx in (0, classNum - 1)
 *        conf = obj * probability[classIdx]
 *        max, maxIdx = findMaxValueAndIndex(conf)
 *        if (max >= confidence_thresh)
 *          for boxIdx in (0, boxNum - 1)
 *            iou = computeIOU(coord_maxIdx, coord_boxIdx)  // where "coords" means x1,y1,x2,y2
 *            if (iou < nms_thresh)
 *              keep coords and conf for boxIdx
 *
 *  **DataType:**
 *    Support only half(float16) type for both input and output tensors.
 *
 *  **Performance Optimization:**
 *    The performance of detection layer depends on both the data size and the value.
 *    However, this op achieves relatively better performance when
 *    all of the following conditions are met:
 *    - inputH/Ws are 64-aligned(unit in number of data).
 *    - (5 + classNum) is 64-aligned(unit in number of data).
 *    The bigger the remainder of the value of param divided by 64, the better performance the op will achieve.
 *  Supports both MLU220 and MLU270.
 *
 *  @param[out]  op
 *    Output. A pointer to the base operator address.
 *  @param[in]  param
 *    Input. A PluginYolov3DetectionOutput parameter struct pointer.
 *  @param[in]  yolov3_input_tensors
 *    Input. An array of four-demensional cnmlTensors with a shape of
 *           [batchNum, (5 + classNum) * numMaskGroup, inputH, inputW](NCHW).
 *           Support only FLOAT16 dataType currently.
 *  @param[in]  outputs
 *    Input. An array of four-demensional cnmlTensors with a shape of
 *           [batchNum, 64 + 7 * numMaxBox, 1, 1](NCHW).
 *           Support only FLOAT16 dataType currently.
 *           The first two numbers of each batch store the number of
 *           detected boxes. The data for each box starts from the 65th number,
 *           with an order of [batchId, classId, score, x1, y1, x2, y2], where
 *           (x1, y1) and (x2, y2) are the coordinates of top-left and bottom-
 *           -right points accordingly.
 *  @retval CNML_STATUS_SUCCESS
 *    The function ends normally
 *  @retval CNML_STATUS_INVALIDPARAM
 *    At least one of the following conditions is not met:
 *    - Base op pointer is nullptr
 *    - Param is nullptr or not initialized
 *    - Input / output tensor desps is nullptr or inconsistent with param.
 */
cnmlStatus_t cnmlCreatePluginYolov3DetectionOutputOp(
    cnmlBaseOp_t *op,
    cnmlPluginYolov3DetectionOutputOpParam_t param,
    cnmlTensor_t *yolov3_input_tensors,
    cnmlTensor_t *yolov3_output_tensors);

定义cnmlCreatePluginYolov3DetectionOutputOp时，对输出张量shape进行了明确，为[batchNum, 64 + 7 * numMaxBox, 1, 1]。

6. 注册

//yolov3_detection_output_op.cc  Kernel注册
REGISTER_KERNEL_BUILDER(                \
      Name("Yolov3DetectionOutput")     \
      .Device(DEVICE_MLU)               \
      .TypeConstraint("T"),          \
      MLUYolov3DetectionOutputOp);

//image_ops.cc  OP注册
REGISTER_OP("Yolov3DetectionOutput")
    .Output("predicts: T")
    .Input("input0: T")
    .Input("input1: T")
    .Input("input2: T")
    .Attr("batchNum:int")
    .Attr("inputNum:int")
    .Attr("classNum:int")
    .Attr("maskGroupNum:int")
    .Attr("maxBoxNum:int")
    .Attr("netw:int")
    .Attr("neth:int")
    .Attr("confidence_thresh:float")
    .Attr("nms_thresh:float")
    .Attr("inputWs: list(int)")
    .Attr("inputHs: list(int)")
    .Attr("biases: list(float)")
    .Attr("T: type")
    .SetShapeFn([](InferenceContext *c){return SetOutputForYolov3DetectionOutput(c);
    });

在OP注册时，其涉及到的输入输出及参量和.pbtxt中node一一对应。

//./cnplugin.h
/*!
 *  @brief A function.
 *  This function creates a PluginYolov3DetectionOutputOp param object with
 *  the pointer and parameters provided by user.
 *  **Supports MLU220/MLU270**
 *  @param[out] param
 *    Output. The returning param descriptor.
 *  @param[in] batchNum
 *    Input. The number of input batches.
 *           No default value, a valid batchNum must be in the range of [1, inf).
 *  @param[in] inputNum
 *    Input. The number of input tensors.
 *           No default value, a valid inputNum must be in the range of [1, 7].
 *  @param[in] classNum
 *    Input. The number of input classes.
 *           No default value, a valid classNum must be in the range of [1, 4096].
 *  @param[in] maskGroupNum
 *    Input. The number of anchors used by every input tensors.
 *           No default value, a valid maskGroupNum must be in the range of [1, inf].
 *  @param[in] maxBoxNum
 *    Input. The largest possible number of output boxes.
 *           Default value is 1024, a valid maxBoxNum must be in the range of [1, inf].
 *  @param[in] netw
 *    Input. Width of input image of backbone network.
 *           No default value, a valid netw must be in the range of [1, inf).
 *  @param[in] neth
 *    Input. Height of input image of backbone network.
 *           No default value, a valid neth must be in the range of [1, inf).
 *  @param[in] confidence_thresh
 *    Input. Confidence threshold.
 *           No default value, a valid confidence_thresh must be in the range of [0, 1].
 *  @param[in] nms_thresh.
 *    Input. IOU threshold used in NMS function.
 *           No default value, a valid nms_thresh must be in the range of [0, 1].
 *  @param[in] core_version
 *    Input. Supported core version.
 *           No default value, a valid core_version must be either MLU220 or MLU270.
 *  @param[in] inputWs
 *    Input. Width of every input tensor. Must have the same order as inputHs
 *           No default value, the number of valid elements must be equal with inputNum.
 *  @param[in] inputHs
 *    Input. Height of every input tensor. Must have the same order as inputWs
 *           No default value, the number of valid elements must be equal with inputNum.
 *  @param[in] biases
 *    Input. Anchors of every input tensor.
 *           No default value. The number of valid elements must be equal with 2 x inputNum x maskGroupNum.
 *           The order of data from high to low, is [N(1) H(inputNum) W(maskGroupNum) C(2)]. For example:
 *           Width of anchor for mask0 input0, Height of anchor for mask0 input0,
 *           Width of anchor for mask1 input0, Height of anchor for mask1 input0,
 *           ...
 *           Width of anchor for maskN input0, Height of anchor for maskN input0,
 *           Width of anchor for mask0 input1, Height of anchor for mask0 input1,
 *           ......
 *  @retval CNML_STATUS_SUCCESS
 *    The object was set successfully.
 *  @retval CNML_STATUS_INVALIDPARAM
 *    The inputH/Ws ptr is nullptr or input param is invalid.
 */
cnmlStatus_t cnmlCreatePluginYolov3DetectionOutputOpParam(
    cnmlPluginYolov3DetectionOutputOpParam_t *param,
    int batchNum,
    int inputNum,
    int classNum,
    int maskGroupNum,
    int maxBoxNum,
    int netw,
    int neth,
    float confidence_thresh,
    float nms_thresh,
    cnmlCoreVersion_t core_version,
    int *inputWs,
    int *inputHs,
    float *biases);

在./cnplugin.h里定义了cnmlCreatePluginYolov3DetectionOutputOpParam，注释对每个参数含义进行了说明。对涉及到的参量，需要给定默认值，可以在OP注册时给定，也可以在添加node时给定。

其参数由数据集及算法特性给定：

①COCO共有80个类，原始图片全部resize为416 × 416；

②YOLOv3分别在尺度13 x 13, 26 x26, 52 x52上执行检测；

③在每个尺度上，每个单元使用 3 个锚点预测 3 个边界框，锚点的总数为 9，v3中每个尺度上平均检测三个锚点；

④在进行检测时，九个框分别是 (10×13)，(16×30)，(33×23)，(30×61)，(62×45)，(59× 119)， (116 × 90)， (156 × 198)，(373 × 326) ，顺序为w × h，数据依次从大到小排列。

三、自定义开发时涉及TensorFlow源码目录

tensorflow/core：

----kernels：Kernel的具体实现

----ops：OP的注册与声明

tensorflow/stream_executor：

运行时环境，管理TF中高性能并行编程设备的执行过程（限制哪些任务可以并发执行并指定存在哪些任务依赖项...）

----mlu：mlu执行引擎所使用的子模块

四、思考

在进行自定义算子开发时，包含注册与实现两个部分，在只涉及CPU平台时，完成OP注册后，可直接进行Kernel的实现，最后完成Kernel的注册。若要让算子能够在一些高效的设备上运行，需要针对该类设备做针对性开发其过程可分为以下几部分：

1. 自定义算子的Kernel函数实现；

2. 调用设备提供的接口封装出便于用户使用的接口；

3. 对2所述接口进一步封装，以有效隔离高层调用与底层实现；

4. 完成设备端算子实现（本质是3所述接口的调用）；

5. 设备端算子实例化，运行时会自动将算子与运行时队列绑定并下发执行；

6. OPKernel实现，创建输入输出Tensor并初始化，调用5中实例化的算子；

7. OP注册与Kernel注册。

五、参考资料

《AICS》实验7-1流程：https://blog.csdn.net/weixin_40943865/article/details/122059436

StreamExecutor：https://blog.csdn.net/qq_36178899/article/details/84521479

OpShapeInference：https://blog.csdn.net/HaoBBNuanMM/article/details/115352223

自定义OP实现：https://docs.pythontab.com/tensorflow/how_tos/adding_an_op/#op-kernel

使用conda update python将python3.6更新到python3.7版本出现bug：苹果酱0567 面试题汇总与解析课程设计 spring boot layui 毕业设计 java
使用condaupdatepython将python3.6更新到python3.7版本出现bug：1）anacondanavigator无法打开，2）Jupyternotbook一直显示无法连接服务器解决办法：Anacondaprompt下操作：>condaupdate--lla>anaconda-navigator--resetqtpy.PythonQtError:NoQtbindingscou
15、Python面试题解析：列表推导式-条件推导与嵌套推导千层冷面 python python 开发语言
1.列表推导式简介列表推导式（ListComprehension）是Python中一种简洁的创建列表的方式。它允许我们通过一行代码生成列表，通常比传统的for循环更简洁、更易读。基本语法[表达式for元素in可迭代对象]表达式：对元素的处理逻辑。元素：从可迭代对象中取出的每个元素。可迭代对象：如列表、元组、字符串等。示例#生成0到9的平方列表squares=[x**2forxinrange(10)
Ai时代，搞钱的6种方法大耳朵爱学习人工智能 AI大模型大模型产品经理自然语言处理深度学习语言模型
随着人工智能（Ai）技术的迅速发展，越来越多的人意识到它不仅是一种前沿科技，更是一种变革性力量，为我们打开了赚钱的新大门。无论你是创业者、自由职业者，还是打算给自己的业务注入新活力，利用Ai赚钱都是一种值得尝试的选择。本文将结合当前最热门的Ai工具，为你提供6种高效、实用的搞钱思路。——1——内容创作：用Ai做你的创意助手1.1自媒体内容创作利用Ai模型，你可以轻松撰写公众号文章、知乎回答、短视频
【python】将word文档内容转换为excel表格师兄师兄怎么办 python word excel python
在日常工作中，我们经常需要将Word文档中的内容提取并转换为Excel表格，以便进行数据分析和处理。本文将介绍如何使用Python编写一个简单的程序，将Word文档中的内容转换为Excel表格。一.实例使用以下word文档作为例子：工具界面如下：第一个弹窗选择对应的文档后选择打开：第二个弹窗选择保存路径以及excel表格的名字：生成后的效果如下：二.环境准备我们将使用tkinter库创建一个图形用
Python中LLM的稀疏Transformer架构：Longformer与BigBird 二进制独立开发非纯粹GenAI GenAI与Python python transformer 架构开发语言分布式人工智能自然语言处理
文章目录1.Transformer架构的挑战2.稀疏Transformer架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力2.2.2局部注意力2.2.3全局注意力2.2.4实现3.稀疏Transformer架构的优势4.稀疏Transformer架构的挑战5.未来发展方向5.1更高效的稀疏注意力机制5.2自适应稀疏注
微信DeepSeek王炸组合金枝玉叶9 程序员知识储备1 程序员知识储备2 vue.js
1.背景信息微信：腾讯旗下的超级社交应用，涵盖通讯、支付、小程序生态等，月活用户超10亿。DeepSeek：专注AGI（通用人工智能）的中国公司，核心产品包括大模型（如DeepSeek-R1、DeepSeek-Chat）、多模态技术及行业解决方案。“王炸组合”：通常指强强联合的顶级合作，可能暗示技术互补或场景融合。2.可能的合作方向AI功能嵌入微信生态：DeepSeek的大模型能力（如对话、搜索、
【Pydantic】Pydantic：新的Python 数据验证库无糖气泡WU Python python
Python数据验证：PydanticPydantic简介Pydantic的主要特性Pydantic安装Pydantic使用Pydantic基本操作Field对象数据转换模型类转换为字典模型类转换为JSONPydantic简介Pydantic是一个在Python中用于数据验证和解析的第三方库。它提供了一种简单且直观的方式来定义数据模型，并使用这些模型对数据进行验证和转换。Pydantic的主要特性
一个财务做的python代码--PDF发票文件信息提取宾不可 pdf python 职场和发展
一、引言（我为什么做）随着国家不断推行数字发票，现在工作中越来越多的电子发票被收取和开具。这给财务人员高效登记大量发票信息提供了充足的环境。日常中，手动从每张发票中提取关键信息并录入Excel表格不仅耗时费力，还容易出错。本文提出了一种基于Python的自动化解决方案，该方案利用pdfplumber库从PDF格式的电子发票中提取文本信息，并结合正则表达式进行信息匹配和清洗，最后将整理好的数据自动写
Pydantic：强大的Python 数据验证库霍格沃兹测试开发学社 Python语法基础 python 开发语言单元测试
PydanticPydantic是一个在Python中用于数据验证和解析的第三方库。它提供了一种简单且直观的方式来定义数据模型，并使用这些模型对数据进行验证和转换。Pydantic的一些主要特性：类型注解：Pydantic使用类型注解来定义模型的字段类型。你可以使用Python内置的类型、自定义类型或者其他Pydantic提供的验证类型。数据验证：Pydantic自动根据模型定义进行数据验证。它会
机器学习相关基础星辰瑞云机器学习
1.预备知识人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能。人工智能学科:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。2.日常生活中的机器学习:①称为RGB(由红色，绿色，蓝色组成)，这种是欠拟合欠拟合和过拟合区别:•欠拟合（Underfitting）：模型在训练数据上表现不佳，无法很好地捕捉数据中的规律。通
python与c的md5运算速度对比在学02 python 开发语言 c语言 hash 密码学性能优化
计算0-50000000（5千万）的u64数字的md5值的第一个字节为0的数字的个数。pythonfromhashlibimportmd5importtimet1=time.time()n=0foriinrange(50000000):#print(md5(i.to_bytes(16)).hexdigest())ifmd5(i.to_bytes(8,byteorder='little')).dig
探索Python数组工具类 ArrayUtils：功能强大的数组操作助手 FinkGO小码 Python python 开发语言程序人生 numpy pycharm 课程设计经验分享
引言在Python编程的世界里，数组（通常以列表list形式呈现）是一种极为常用的数据结构。无论是数据处理、算法实现还是日常的编程任务，对数组进行高效且便捷的操作都是必不可少的。然而，Python内置的数组操作方法虽然丰富，但在实际开发中，我们可能需要将一些常用的操作封装起来，以提高代码的复用性和可维护性。今天，我们就来详细介绍一个自定义的Python数组工具类ArrayUtils，它将众多实用的
Python学习（二）----turtle库的基本功能 Tiny1420 Python学习 python
importturtle#设置画布大小turtle.screensize(canvwidth=None,canvheight=None,bg=None)#参数分别为画布的宽(单位像素),高,背景颜色。turtle.setup(width=0.75,height=0.75,startx=None,starty=None)'''width,height:输入宽和高为整数时,表示像素;为小数时,表示占据
python 登录接口_python-oauth2：Python的OAuth登录接口 weixin_39812065 python 登录接口
新浪微博Python客户端接口OAuth2!/usr/bin/envpython--coding:utf-8--version=‘1.04’author=‘LiaoXuefeng([email protected])’”’PythonclientSDKforsinaweiboAPIusingOAuth2.”’try:importjsonexceptImportErr使用Python实现OAu
python 登录接口_（转载）Python 的 OAuth 登录接口 python-oauth2 weixin_39923110 python 登录接口
前言python-oauth2是Python语言的OAuth2的实现，包括客户端和服务器端。该项目经过完整的测试。它拥有一下特点：100%单元测试覆盖。完全去掉了DataStore对象。所有的类名不再带有OAuth前缀。Request类生产字典对象。不再支持Python2.3。Client类是在httplib2基础上进行的扩展。文档中的示例全用的是Twitter，包括以下内容：基本的Twitter
FastAPI开发与运维最佳实践 ivwdcwso 开发运维 fastapi 运维数据库开发 python
FastAPI是一个现代、快速（高性能）的Web框架,用于构建API,基于Python3.6+标准。它不仅易于使用,而且具有出色的性能和可扩展性。本文将探讨FastAPI的开发最佳实践,以及如何有效地部署和维护FastAPI应用。1.项目结构一个良好组织的项目结构对于长期维护至关重要。以下是一个推荐的FastAPI项目结构:myproject/│├──app/│├──__init__.py│├──
《传统教培机构的痛点：数字化转型如何破局？》
数字化浪潮下的困境在当今时代，数字化浪潮正以前所未有的速度席卷全球，深刻地改变着人们的生活、工作和学习方式。这是一个数据爆炸的时代，数据成为了驱动社会发展的核心要素之一。据统计，全球每天产生的数据量高达数万亿字节，这些数据涵盖了人们生活的方方面面，从购物习惯到社交行为，从健康状况到学习偏好，都被数字化记录下来。[]()数字化时代的技术创新日新月异，人工智能、大数据、云计算、物联网等新兴技术不断涌现
Python关键字终极指南：36个核心关键词详解+实战示例，带你彻底掌握编程梦想记 python 开发语言
以下是Python中的关键字（基于Python3.11版本，共**36个**），按功能分类解释它们的核心用途和常见场景。每个关键字都会用通俗易懂的语言和代码示例说明。一、控制程序流程的关键字1.**`if`/`elif`/`else`**-**用途**：条件判断。-**示例**：```pythonage=18ifage=18andage<=60:print("成年人")```14.**`is`**
AIMv2：多模态自回归预训练的视觉新突破人工智能
AIMv2：多模态自回归预训练的视觉新突破阅读时长：19分钟发布时间：2025-02-17近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】导言视觉模型在人工智能领域的地位愈发重要，从图像识别、目标检测到多模态理解，其应用场景不断拓展。在大规模数据集上进行预训练，能助力模型学习丰富的视觉特
FastAPI：解锁高性能API开发的密钥，轻松构建现代Web服务醉心编码人工智能基础 fastapi 前端
FastAPI：解锁高性能API开发的密钥，轻松构建现代Web服务一、核心特点二、应用场景三、技术优势四、安装与基本用法五、社区与文档FastAPI是一个基于Python的现代、快速（高性能）的Web框架，专门用于构建APIs，特别是基于Python的RESTfulAPIs。它以其高性能、易用性和可扩展性而闻名，适合开发者、数据科学家和机器学习工程师等多种岗位使用。以下是对FastAPI的详细介绍
使用DeepSeek+本地知识库，尝试从0到1搭建高度定制化工作流（数据分析篇）代码轨迹 Python 数据分析人工智能 deepseek
7.3.数据监控与生成本地知识库目的：监控新生成的小红书文案，记录每一次生成的小红书文案风格。后续根据输入topic，检索与某一topic有关的文案，可以根据先前的文案风格，生成类似风格的文案。实现思路：1.要实现文件监控功能，需要使用watchdog库。watchdog是一个Python库，用于监控文件系统的变化。它提供了多种事件类型，如文件创建、修改、删除等，可以用来监控文件的变化。启动一个线
Python-OAuth2 教程房耿园Hartley
Python-OAuth2教程项目地址:https://gitcode.com/gh_mirrors/pyt/python-oauth21.项目目录结构及介绍在python-oauth2项目中，目录结构通常包括以下几个部分：src/:主要代码存放的地方，包含了OAuth2的核心模块和实现。tests/:测试用例，用于确保代码的功能正确性。docs/:文档目录，包含项目的README和其他相关说明。
Python-OAuth2：一款Python实现的OAuth 2.0认证框架束辉煊Darian
Python-OAuth2：一款Python实现的OAuth2.0认证框架python-oauth2[UNMAINTAINED]OAuth2.0providerwritteninpython项目地址:https://gitcode.com/gh_mirrors/pyth/python-oauth21.项目基础介绍Python-OAuth2是一个开源项目，旨在为开发者提供一个简单易用的OAuth2.
Python OAuth2库邹澜鹤Gardener
PythonOAuth2库python-oauth2Afullytested,abstractinterfacetocreatingOAuthclientsandservers.项目地址:https://gitcode.com/gh_mirrors/py/python-oauth2PythonOAuth2库是一个简单易用的库，可以让你在Python应用中轻松地实现OAuth2认证。什么是OAuth
AIGC与AICG的区别解析倔强的小石头_ AIGC
目录一、AIGC（人工智能生成内容）（一）定义与内涵（二）核心技术与应用场景（三）优势与挑战二、AICG（计算机图形学中的人工智能）（一）定义与内涵（二）核心技术与应用场景（三）优势与挑战三、AIGC与AICG的区别（一）侧重点不同（二）应用领域不同（三）技术重点不同在当今快速发展的人工智能领域，新的概念和术语不断涌现。其中，AIGC和AICG这两个看似相近的术语引起了广泛的关注。尽管它们仅有字母
AI 发展的第一驱动力：人才引领变革倔强的小石头_ 热点时事人工智能
在科技蓬勃发展的当下，AI成为了时代的焦点，然而其发展并非一帆风顺，究竟什么才是推动AI持续前行的关键力量呢？目录AI发展现状剖析期望与现实的落差落地困境根源人才：AI发展的核心动力编辑技术突破的引领者行业融合的推动者人才驱动下的AI多元赋能创新应用场景加速产业升级培育AI人才的战略路径教育体系革新企业人才战略AI发展现状剖析期望与现实的落差近年来，全球科技大厂纷纷将目光聚焦于人工智能领域，对其寄
Python Web 开发：利用 FastAPI 构建 OAuth2 授权与认证系统 Switch616 Python Web python 前端 fastapi 数据库开发语言 sql
PythonWeb开发：利用FastAPI构建OAuth2授权与认证系统目录OAuth2协议概述与工作原理FastAPI中实现OAuth2登录的基础流程在FastAPI中集成Google登录（OAuth2）使用GitHub登录与FastAPIOAuth2集成OAuth2Token的管理与认证⚙️OAuth2授权的安全性考量与最佳实践1.OAuth2协议概述与工作原理OAuth2（开放授权2.0）是
Python的`turtle`库来模拟满屏烟花效果 go5463158465 python python 开发语言
以下是使用Python的turtle库来模拟满屏烟花效果的代码示例，运行代码后会在一个图形窗口中呈现出不断绽放的烟花场景，希望你能喜欢哦。importturtleimportrandomimporttime#初始化屏幕screen=turtle.Screen()screen.bgcolor("black")screen.title("FireworksShow")screen.setup(widt
PyInstaller在Linux环境下的打包艺术黑金IT python linux 运维服务器
PyInstaller是一款强大的工具，能够将Python应用程序及其所有依赖项打包成独立的可执行文件，支持Windows、macOS和Linux等多个平台。在Linux环境下，PyInstaller打包的可执行文件具有独特的特点和优势。本文将详细介绍PyInstaller在Linux环境下的应用，包括安装、准备项目、打包过程、打包后的可执行文件、常见问题与解决方法、进阶技巧、案例分析以及总结与展
掌握AI Prompt的艺术：如何有效引导智能助手黑金IT langchain 人工智能 prompt langchain AI编程
开头叙述：在人工智能的世界里，Prompt（提示）是沟通人类意图与机器理解之间的桥梁。它不仅是一串简单的文字，而是一把钥匙，能够解锁AI模型的潜力，引导它们执行复杂的任务。本文将探讨Prompt的重要性，并展示如何通过精心设计的Prompt来提升AI助手的效率和准确性。无论是在聊天、会议总结还是日程管理中，正确的Prompt都能让AI助手成为你工作中的得力助手。让我们一起深入了解Prompt的力量
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默