夏小悠

腾讯TNN神经网络推理框架手动实现多设备单算子卷积推理

文章目录

- 前言
- 1. 简介
- 2. 快速开始
- - 2.1 onnx转tnn
  - 2.2 编译目标平台的 TNN 引擎
  - 2.3 使用编译好的 TNN 引擎进行推理
- 3. 手动实现单算子卷积推理(浮点)
- 4. 代码解析
- - 4.1 构建模型(单卷积层)
  - 4.2 构建解释器
  - 4.3 初始化tnn
- 5. 模型量化
- - 5.1 编译量化工具
  - 5.2 量化流程
  - 5.3 feature map量化
  - - 5.3.1 range_per_channel_的计算
    - 5.3.2 interval_per_channel_的计算
    - 5.3.3 distribute_per_channel_的计算
    - 5.3.4 scale的计算与存储
  - 5.4 weight量化
  - - 5.4.1 前处理
    - 5.4.2 weight量化策略
    - 5.4.3 scale存储
  - 5.5 bias量化
  - 5.6 8bit推理过程
- 6. im2col实现卷积计算
- - 6.1 input为单通道，weight为单通道(输出)
  - 6.2 input为多通道，weight为单通道(输出)
  - 6.3 input为多通道，weight为多通道(输出)
- 结束语

前言

近期调研了一下腾讯的TNN神经网络推理框架，因此这篇博客主要介绍一下TNN的基本架构、模型量化以及手动实现x86和arm设备上单算子卷积推理。

1. 简介

TNN是由腾讯优图实验室开源的高性能、轻量级神经网络推理框架，同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势。TNN框架在原有Rapidnet、ncnn框架的基础上进一步加强了移动端设备的支持以及性能优化，同时借鉴了业界主流开源框架高性能和良好拓展性的特性，拓展了对于后台X86、NV GPU的支持。手机端TNN已经在手机QQ、微视、P图等众多应用中落地，服务TNN作为腾讯云AI基础加速框架已为众多业务落地提供加速支持。

TNN开源地址：https://github.com/Tencent/TNN

2. 快速开始

2.1 onnx转tnn

&emsp目前 TNN 支持业界主流的模型文件格式，包括ONNX、PyTorch、TensorFlow、TesorFlow-Lite 以及 Caffe 等。如上图所示，TNN 将 ONNX 作为中间层，借助于ONNX 开源社区的力量，来支持多种模型文件格式。如果要将PyTorch、TensorFlow 以及 Caffe 等模型文件格式转换为 TNN，首先需要使用对应的模型转换工具，统一将各种模型格式转换成为 ONNX 模型格式，然后将 ONNX 模型转换成 TNN 模型。

为了简化 convert2tnn转换工具的安装和编译步骤，官方推荐使用docker镜像：

# 建议直接从 docker hub 上拉取镜像
docker pull ccr.ccs.tencentyun.com/qcloud/tnn-convert

# 对 docker 镜像进行重命名
docker tag ccr.ccs.tencentyun.com/qcloud/tnn-convert tnn-convert:latest
docker rmi ccr.ccs.tencentyun.com/qcloud/tnn-convert

# 通过打印 convert2tnn 的帮助信息来验证下 docker 镜像能够正常使用
docker run -it tnn-convert:latest python3 ./converter.py -h

进一步的，查看下ONNX转TNN工具：

docker run -it tnn-convert:latest python3 ./converter.py onnx2tnn -h

具体参数不再进行过多详述，可参阅官方文档。

本例就以Resnet50为例，将其转为tnn格式：

import torch
from torchvision.models.resnet import resnet50


if __name__ == '__main__':
    model = resnet50()
    model.load_state_dict(torch.load('model/resnet50-0676ba61.pth'))
    model.eval()

    input_data = torch.randn(size=(1, 3, 224, 224), dtype=torch.float32)
    input_names, output_names = ["input"], ["output"]
    torch.onnx.export(model, input_data, "model/resnet50.onnx", input_names=input_names, output_names=output_names)
# 当然，也可以直接使用onnx格式的resnet50，下载链接为：https://github.com/onnx/models/tree/main/vision/classification/resnet/model

# 启动docker
docker run -v /home/liyanpeng/tnn_docker:/home/liyanpeng/tnn_docker --rm -it tnn-convert:latest /bin/bash
# cd /opt/TNN/tools/convert2tnn(default)
# onnx2tnn
python3 ./converter.py onnx2tnn /home/liyanpeng/tnn_docker/model/resnet50.onnx -in input:1,3,224,224

2.2 编译目标平台的 TNN 引擎

编译相关注意事项请参考官方文档。

arm-linux平台编译：

apt-get install g++-aarch64-linux-gnu gcc-aarch64-linux-gnu
apt-get install g++-arm-linux-gnueabihf gcc-arm-linux-gnueabihf
# apt-get install vim gdb

cd scripts
./build_aarch_linux.sh

x86-linux平台编译：

cd scripts
./build_linux_native.sh

2.3 使用编译好的 TNN 引擎进行推理

上面那个没有编译具体的实例，接下来编译x86平台下各任务下的TNN引擎：

# x86平台编译
cd examples/linux/x86
./build_linux_native.sh

# arm-linux交叉编译
# cd examples/linux/cross
# ./build_aarch64_linux.sh

执行图像分类任务：

./demo_x86_imageclassify -p /home/liyanpeng/tnn_docker/model/resnet50.tnnproto -m /home/liyanpeng/tnn_docker/model/resnet50.
tnnmodel -i /home/liyanpeng/tnn_docker/model/tiger_cat.jpg

推理结果也是正确的：

各任务源码位置：examples/linux/src

3. 手动实现单算子卷积推理(浮点)

TNN框架构建神经网络推理实例需要输入两个文件，一个是模型结构文件.tnnproto，一个是模型权重文件.tnnmodel，这两个文件是必须的。但由于一些特殊的需要，这种文件的方式不太适用，因此我这里提供了一个手动创建模型结构的实例，不用依赖于模型文件。

仿照examples/linux/src目录下的TNNImageClassify图像分类demo，我在根目录下创建了一个my_cnn_model目录，其中包括my_conv.cpp和CMakeLists.txt两个文件。

my_conv.cpp文件内容如下：

// Author:   xiayouran
// Email:    [email protected]
// Datetime: 2023/4/8 15:17
// Filename: my_conv.cpp
#include "tnn/core/tnn.h"
#include "tnn/interpreter/abstract_model_interpreter.h"
#include "tnn/interpreter/tnn/model_interpreter.h"

using namespace TNN_NS;

int main(int argc, char* argv[]) {
    auto model_type = MODEL_TYPE_TNN;
    auto device_type = DEVICE_X86;// DEVICE_ARM
    auto data_type = DATA_TYPE_FLOAT;// DATA_TYPE_INT8

    ModelConfig model_config;
    model_config.model_type = model_type;

    NetworkConfig net_config;
    net_config.device_type = device_type;

    TNN tnn;
    Status status = tnn.MyInit(model_config);
    auto instance = tnn.CreateInst(net_config, status);

    BlobMap input_blobs;
    status = instance->GetAllInputBlobs(input_blobs);
    Blob* input_blob = input_blobs.begin()->second;
    float* data_ptr = static_cast<float*>(input_blob->GetHandle().base);
    for (int i = 0; i < 1 * 1 * 4 * 4; i++) {
        data_ptr[i] = (float)1.0 + i;
    }

    status = instance->Forward();

    BlobMap output_blobs;
    status = instance->GetAllOutputBlobs(output_blobs);
    Blob* output_blob = output_blobs.begin()->second;
    float* out_data_ptr = static_cast<float*>(output_blob->GetHandle().base);
    for (int i = 0; i < 1 * 1 * 2 * 2; i++) {
        std::cout << out_data_ptr[i] << std::endl;
    }

    return 0;
}

卷积的输入shape为(1, 1, 4, 4)，卷积的shape为(1, 1, 3, 3)，卷积的输出shape为(1, 1, 2, 2)，具体为：

运行结果如下：

在CMakeLists.txt文件中除了添加了本示例代码my_conv.cpp，还添加了官方提供的图像分类demo的TNNImageClassify.cc及其依赖，具体内容如下：

file(GLOB MyCNNModel_SRCS my_conv.cpp)
file(GLOB ImageClassify_SRCS ${CMAKE_CURRENT_SOURCE_DIR}/../examples/linux/src/TNNImageClassify/TNNImageClassify.cc)

message(${MyCNNModel_SRCS})
message(${ImageClassify_SRCS})

#include_directories(../include)
#include_directories(../source)

include_directories(${CMAKE_CURRENT_SOURCE_DIR}/../examples/base)
include_directories(${CMAKE_CURRENT_SOURCE_DIR}/../examples/base/utils)
include_directories(${CMAKE_CURRENT_SOURCE_DIR}/../examples/utils)
add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/../third_party/gflags ${CMAKE_CURRENT_SOURCE_DIR}/../third_party/gflags)
get_target_property(GFLAGS_INCLUDE_DIRS gflags INTERFACE_INCLUDE_DIRECTORIES)
include_directories(BEFORE "${GFLAGS_INCLUDE_DIRS}")
link_libraries(gflags)
file(GLOB FLAG_SRC "${CMAKE_CURRENT_SOURCE_DIR}/../examples/linux/src/*.cc")
file(GLOB_RECURSE BASE_SRC
        "${CMAKE_CURRENT_SOURCE_DIR}/../examples/base/*.cc"
        "${CMAKE_CURRENT_SOURCE_DIR}/../examples/base/utils/*.cc")
file(GLOB_RECURSE UTIL_SRC
        "${CMAKE_CURRENT_SOURCE_DIR}/../examples/utils/*.cc")

include_directories(${CMAKE_CURRENT_SOURCE_DIR}/../source/tnn/interpreter/tnn)
include_directories(${CMAKE_CURRENT_SOURCE_DIR}/../third_party/stb)

add_executable(my_conv_cmd ${MyCNNModel_SRCS})
add_executable(demo_x86_imageclassify_cmd ${ImageClassify_SRCS} ${BASE_SRC} ${UTIL_SRC} ${FLAG_SRC})

target_link_libraries(my_conv_cmd TNN)
target_link_libraries(demo_x86_imageclassify_cmd TNN)

set_target_properties(my_conv_cmd PROPERTIES RUNTIME_OUTPUT_DIRECTORY ${PROJECT_BINARY_DIR})
set_target_properties(demo_x86_imageclassify_cmd PROPERTIES RUNTIME_OUTPUT_DIRECTORY ${PROJECT_BINARY_DIR})

4. 代码解析

按照官方提供的API说明，运行一个神经网络需要五个步骤：

# Step1. 模型解析
model_config.params.push_back(proto_buffer);# proto文件内容存入proto_buffer
model_config.params.push_back(model_buffer);# model文件内容存入model_buffer
Status ret = tnn.Init(model_config);

# Step2. 网络构建
auto net_instance = tnn.CreateInst(config, status);

# Step3. 输入设定
auto status = net_instance->SetInputMat(input_mat, input_cvt_param);

# Step4. 网络运行
auto status = net_instance->Forward();

# Step5. 输出获取
auto status = instance->GetOutputMat(output_mat);

在第一步模型解析中涉及到文件操作，理论上只要按照其他模型转tnn的格式写模型文件是不需要修改源码的，这里没有阅读这部分源码，因此就直接修改了源码。
经过源码分析，手动构建一个模型主要需要构建神经网络模型的各层layer并完成参数的初始化、模型解释器及tnn的初始化的构建，具体如下：

4.1 构建模型(单卷积层)

在source/tnn/interpreter/tnn/model_interpreter.cc文件中新增了ModelInterpreter::MyInterpret()函数，区别于官方的ModelInterpreter::Interpret(std::vector ¶ms)函数，本函数不需要从文件中去解析模型的结构和权重：

// Interpret the proto and model without file.
Status ModelInterpreter::MyInterpret() {
    Status status = TNN_OK;
    /****************初始化卷积层参数****************/
    NetStructure *structure = GetNetStructure();

    structure->source_model_type = MODEL_TYPE_TNN;
    DimsVector &input_shape = structure->inputs_shape_map["input"];
    input_shape.push_back(1);
    input_shape.push_back(1);
    input_shape.push_back(4);
    input_shape.push_back(4);
    DataType data_type = DATA_TYPE_FLOAT;// DATA_TYPE_FLOAT
    structure->input_data_type_map["input"] = data_type;
    structure->outputs.insert("output");

    auto cur_layer = std::make_shared<LayerInfo>();
    std::string type_str = "Convolution";
    type_str = Transfer(type_str);
    LayerType type = GlobalConvertLayerType(type_str);
    cur_layer->type = type;
    cur_layer->type_str = type_str;
    cur_layer->name = Transfer("Conv_0");
    cur_layer->inputs.clear();
    cur_layer->outputs.clear();

    cur_layer->inputs.push_back("input");
    structure->blobs.insert("input");
    cur_layer->outputs.push_back("output");
    structure->blobs.insert("output");

    LayerParam *layer_param = NULL;
    LayerParam** param = &layer_param;
    auto p = CreateLayerParam<ConvLayerParam>(param);

    p->input_channel = 1;
    p->output_channel = 1;

    p->kernels = {3, 3};
    p->strides = {1, 1};
    p->pads = {0, 0, 0, 0};
    p->dialations = {1, 1};

    p->bias = 0;
    p->pad_type = -1;
    p->group = 1;
    p->activation_type = 0;

    layer_param->type = cur_layer->type_str;
    layer_param->name = cur_layer->name;
    if (data_type == DATA_TYPE_INT8) {
        layer_param->quantized = true;
    }

    cur_layer->param = shared_ptr<LayerParam>(layer_param);
    structure->layers.push_back(cur_layer);
    /**************卷积层参数初始化结束**************/

    /****************初始化卷积层权重****************/
    NetResource *net_resource = GetNetResource();

    LayerResource *layer_resource = NULL;
    LayerResource** resource = &layer_resource;

    auto layer_res = CreateLayerRes<ConvLayerResource>(resource);
    layer_res->filter_format = OIHW;

    // weight
    RawBuffer weight_buf;
    DimsVector weight_dims = {1, 1, 3, 3};
    weight_buf = TNN_NS::RawBuffer(1*1*3*3*4);
    weight_buf.SetDataType(data_type);
    weight_buf.SetBufferDims(weight_dims);
    float weight_data[1][1][3][3] = {{{{1.0, 0.0, 0.0},
                                       {0.0, 1.0, 0.0},
                                       {0.0, 0.0, 1.0}}}};
    memcpy(weight_buf.force_to<float*>(), weight_data, 1*1*3*3*4);
    layer_res->filter_handle = weight_buf;

    // bias
    RawBuffer bias_buf;
    DimsVector bias_dims = {1};
    bias_buf = TNN_NS::RawBuffer(4);
    bias_buf.SetDataType(data_type);
    bias_buf.SetBufferDims(bias_dims);
    float bias_data[1] = {0.0};
    memcpy(bias_buf.force_to<float*>(), bias_data, 1*4);
    layer_res->bias_handle = bias_buf;

	/****************以下操作浮点推理非必须****************/
    // scale
    RawBuffer scale_buf;
    DimsVector scale_dims = {1};
    scale_buf = TNN_NS::RawBuffer(4);
    scale_buf.SetDataType(DATA_TYPE_FLOAT);
    scale_buf.SetBufferDims(scale_dims);
    float scale_data[1] = {1.0};
    memcpy(scale_buf.force_to<float*>(), scale_data, 1*4);
    layer_res->scale_handle = scale_buf;
	
    // zero_point
    RawBuffer zero_point_buf;
    DimsVector zero_point_dims = {1};
    zero_point_buf = TNN_NS::RawBuffer(1);
    zero_point_buf.SetDataType(DATA_TYPE_INT8);
    zero_point_buf.SetBufferDims(zero_point_dims);
    int8_t zero_point_data[1] = {0};
    memcpy(zero_point_buf.force_to<int8_t*>(), zero_point_data, 1*1);
    layer_res->zero_point_handle = zero_point_buf;
	/****************以上操作浮点推理非必须****************/
	
    net_resource->resource_map["Conv_0"] = std::shared_ptr<LayerResource>(layer_resource);

    // 不用解析constant_map
    /**************卷积层权重初始化结束**************/

    return status;
}

相应的，需要在source/tnn/interpreter/tnn/model_interpreter.h、source/tnn/interpreter/abstract_model_interpreter.h和source/tnn/interpreter/ncnn/ncnn_model_interpreter.h三个文件中添加本函数的声明：

// model_interpreter.h文件中的ModelInterpreter
virtual Status MyInterpret();

// abstract_model_interpreter.h文件中的AbstractModelInterpreter
virtual Status MyInterpret() = 0;

// ncnn_model_interpreter.h文件中的NCNNModelInterpreter
virtual Status MyInterpret();

4.2 构建解释器

在source/tnn/core/tnn_impl_default.cc文件中新增了TNNImplDefault::MyInit(ModelConfig& config)函数，函数实现大体与官方的TNNImplDefault::Init(ModelConfig& config)函数一样，只不过这里构建解释器时使用了MyInterpret()函数：

Status TNNImplDefault::MyInit(ModelConfig& config) {
    auto status = TNNImpl::MyInit(config);
    if (status != TNN_OK) {
        return status;
    }

    auto interpreter = CreateModelInterpreter(config.model_type);
    if (!interpreter) {
        return Status(TNNERR_NET_ERR, "interpreter is nil");
    }
    interpreter_ = std::shared_ptr<AbstractModelInterpreter>(interpreter);
    return interpreter_->MyInterpret();
}

TNNImpl::MyInit(config)函数的实现在在source/tnn/core/tnn_impl.cc文件中：

Status TNNImpl::MyInit(ModelConfig &config) {
    model_config_.model_type = config.model_type;
    return TNN_OK;
}

相应的，需要在source/tnn/core/tnn_impl_default.h和source/tnn/core/tnn_impl.h两个文件中添加本函数的声明：

// tnn_impl_default.h文件中的MyInit
virtual Status MyInit(ModelConfig& config);

// tnn_impl.h文件中的MyInit
virtual Status MyInit(ModelConfig& config);

4.3 初始化tnn

为了使tnn能够正确按照我们的方法进行初始化，需要添加TNN::MyInit(ModelConfig& config)函数以代替官方的TNN::Init(ModelConfig& config)函数进行初始化，具体在source/tnn/core/tnn.cc文件中：

Status TNN::MyInit(ModelConfig& config) {
    impl_ = TNNImplManager::GetTNNImpl(config.model_type);
    if (!impl_) {
        LOGE("Error: not support mode type: %d. If TNN is a static library, link it with option -Wl,--whole-archive tnn -Wl,--no-whole-archive on android or add -force_load on iOS\n", config.model_type);
        return Status(TNNERR_NET_ERR, "unsupported mode type, If TNN is a static library, link it with option -Wl,--whole-archive tnn -Wl,--no-whole-archive on android or add -force_load on iOS");
    }
    return impl_->MyInit(config);
}

相应的，需要在include/tnn/core/tnn.h文件中添加本函数的声明：

// tnn.h文件中的MyInit
Status MyInit(ModelConfig& config);

至此，手动构建单算子卷积推理所需的要素已经构建完毕，在根目录下的CMakeLists.txt文件中添加本示例的代码目录进行编译即可：

add_subdirectory(my_cnn_model)

5. 模型量化

5.1 编译量化工具

# 编译
cd platforms/linux/
./build_quanttool.sh -c

# 执行量化
cd build_quantize/
./quantization_cmd -p /home/liyanpeng/tnn_docker/model/resnet50.tnnproto -m /home/liyanpeng/tnn_docker/model/resnet50.tnnmodel -i /home/liyanpeng/tnn_docker/imagenet128/ -o resnet50

浮点模型大小为98M，量化后的定点模型为26M：

使用量化模型进行推理：

./demo_x86_imageclassify -p /opt/TNN/platforms/linux/build_quantize/resnet50.quantized.tnnproto -m /opt/TNN/platforms/linux/build_quantize/resnet50.quantized.tnnmodel -i /home/liyanpeng/tnn_docker/model/tiger_cat.jpg

这里只是用128张图片进行的量化，所以精度损失较大，推理结果不大对：

更改了1000张图片进行的量化，feature map的量化方式采用KL，weight的方式采用MIN_MAX/ADMM，也更换了测试图片，推理结果都不行：

5.2 量化流程

TNN默认采用Min-Max量化方式，除此之外，feature map支持KL量化方法，weight支持ADMM量化方法，具体的量化流程如下：

calibration.Init(net_config, model_config)
/*根据输入shape，计算出每个网络层的输出shape*/

calibration.SetCalibrationParams(cali_params)
/*设置量化方式为MIN_MAX*/

calibration.RunCalibration(dataset)
/*scale计算和量化*/
    CalBlobScale(dataset);// Compute Feature Scale
        InitFeatureMap();// Init Feature map(在此之前进行了reshape)，初始化每个feature map的range_per_channel_等参数
        UpdateBlobRange(dataset);// Collect the Range of Feature map，更新range_per_channel_
            UpdateRange()
        UpdateBlobDistribute(dataset);// Calculate Distribute of Feature map
            ResetDistribute()// 根据range_per_channel_计算valid_channel_和interval_per_channel_，并初始化distribute_per_channel_
            UpdateDistribute()// 
        CalculateScale(scale_vec, zero_point_vec);// Compute Scale of Feature map and save to resource map
    QuantizeParams();// Quantize params
    MergeBlobScale();// Merge Blob Scale of some layers

calibration.Serialize(output_name + ".quantized.tnnproto", output_name + ".quantized.tnnmodel")
/*保存量化模型*/

其中range_per_channel_表示每个channel中的最大最小值：first(min)，second(max)。

量化源码位置在：tools/quantization。

5.3 feature map量化

5.3.1 range_per_channel_的计算

按per_channel的方式对所有feature map(包括input/output)的channel计算最大最小值：

// tools/quantization/scale_calculator.cc --> ScaleCalculator::UpdateRange()
// Collect the Range of Feature map
// 在这里也叫 blob
int batch       = origin_blob_->GetBlobDesc().dims[0];// 1
int channel     = origin_blob_->GetBlobDesc().dims[1];// 3
int hxw         = DimsVectorUtils::Count(origin_blob_->GetBlobDesc().dims, 2);// 224*224
float* data_ptr = reinterpret_cast<float*>(static_cast<char*>(origin_blob_->GetHandle().base) +
                                           origin_blob_->GetHandle().bytes_offset);

for (int b = 0; b < batch; ++b) {
    for (int c = 0; c < channel; ++c) {
        int channel_idx = c;
        if (merge_channel_) {
            channel_idx = 0;
        }

        float* p = data_ptr + b * channel * hxw + c * hxw;

        for (int i = 0; i < hxw; ++i) {
            float val = p[i];

            if (val < range_per_channel_[channel_idx].first) {
                range_per_channel_[channel_idx].first = val;//first记录当前channel中的最小值
            }
            if (val > range_per_channel_[channel_idx].second) {
                range_per_channel_[channel_idx].second = val;//second记录当前channel中的最大值
            }
        }
    }
}

5.3.2 interval_per_channel_的计算

// tools/quantization/scale_calculator.cc --> ScaleCalculator::ResetDistribute()
for (unsigned int i = 0; i < interval_per_channel_.size(); ++i) {
    float max_val     = std::max(std::abs(range_per_channel_[i].first), std::abs(range_per_channel_[i].second));
    valid_channel_[i] = max_val > 0.00001;
    if (valid_channel_[i]) {
        // bin_nums_ 默认值为 2048
        interval_per_channel_[i] = (float)bin_nums_ / max_val;
    }
}

5.3.3 distribute_per_channel_的计算

这里涉及到feature map的MIN_MAX和KL_DIVERGENCE两种量化策略，目的都是为了寻找一个合适的阈值threshold。
MIN_MAX量化策略：

// tools/quantization/scale_calculator.cc --> ScaleCalculator::CalculateScalePerDis
const int target_bin_nums = 128;
int threshold             = target_bin_nums;
threshold = bin_nums_ - 1;// 2047
output = ((float)threshold + 0.5) / interval / 127.0;

总结起来就是：scale = max[abs(r_min), abs(r_max)] / 127.0，同NVIDIA报告中给出的一致，如下图所示：

KL_DIVERGENCE量化策略：

// tools/quantization/scale_calculator.cc --> ScaleCalculator::CalculateScalePerDis
const int target_bin_nums = 128;
int threshold             = target_bin_nums;

// normalize
float sum = 0;
std::for_each(distribute.begin(), distribute.end(), [&](float n) { sum += n; });
std::for_each(distribute.begin(), distribute.end(), [sum](float& n) { n /= sum; });

float kl_val_min          = 1e6;
float sum_after_threshold = 0.0f;
std::for_each(distribute.begin() + target_bin_nums, distribute.end(),
              [&](float n) { sum_after_threshold += n; });
for (int i = target_bin_nums; i < bin_nums_; ++i) {
    // 1. get referenced distribute
    std::vector<float> distribute_ref(i);
    std::copy(distribute.begin(), distribute.begin() + i, distribute_ref.begin());
    distribute_ref[i - 1] += sum_after_threshold;
    sum_after_threshold -= distribute[i];  // for next loop

    // 2. quantize the distribute within threshold scope as target bins
    std::vector<float> distribute_quantized(target_bin_nums);
    const float bin_interval = (float)i / (float)target_bin_nums;

    for (int j = 0; j < target_bin_nums; ++j) {
        const float start = j * bin_interval;
        const float end   = start + bin_interval;

        const int left_upper = static_cast<int>(std::ceil(start));
        if (left_upper > start) {
            const float left_scale = left_upper - start;
            distribute_quantized[j] += left_scale * distribute[left_upper - 1];
        }
        const int right_lower = static_cast<int>(std::floor(end));
        if (right_lower < end) {
            const float right_scale = end - right_lower;
            distribute_quantized[j] += right_scale * distribute[right_lower];
        }
        std::for_each(distribute.begin() + left_upper, distribute.begin() + right_lower,
                      [&](float n) { distribute_quantized[j] += n; });
    }

    // 3. expand target bins to i bins to calculate kl
    std::vector<float> distribute_expanded(i);
    for (int j = 0; j < target_bin_nums; ++j) {
        const float start    = j * bin_interval;
        const float end      = start + bin_interval;
        float count          = 0;
        const int left_upper = static_cast<int>(std::ceil(start));
        float left_scale     = 0.0f;
        if (left_upper > start) {
            left_scale = left_upper - start;
            if (distribute[left_upper - 1] != 0) {
                count += left_scale;
            }
        }
        const int right_lower = static_cast<int>(std::floor(end));
        float right_scale     = 0.0f;
        if (right_lower < end) {
            right_scale = end - right_lower;
            if (distribute[right_lower] != 0) {
                count += right_scale;
            }
        }

        std::for_each(distribute.begin() + left_upper, distribute.begin() + right_lower, [&](float n) {
            if (n != 0) {
                count += 1;
            }
        });

        if (count == 0) {
            continue;
        }
        const float to_expand_val = distribute_quantized[j] / count;
        if (left_upper > start && distribute[left_upper - 1] != 0) {
            distribute_expanded[left_upper - 1] += to_expand_val * left_scale;
        }
        if (right_lower < end && distribute[right_lower] != 0) {
            distribute_expanded[right_lower] += to_expand_val * right_scale;
        }

        for (int k = left_upper; k < right_lower; ++k) {
            if (distribute[k] != 0) {
                distribute_expanded[k] += to_expand_val;
            }
        }
    }

    // 4. calculate kl val
    const float kl_val_cur = KlDivergence(distribute_ref, distribute_expanded);

    // 5. get the threshold of min kl val
    if (kl_val_cur < kl_val_min) {
        kl_val_min = kl_val_cur;
        threshold  = i;
    }
}
output = ((float)threshold + 0.5) / interval / 127.0;

5.3.4 scale的计算与存储

feature map的scale相关信息也会存储在LayerResource对象中，相较于卷积层的LayerResource来说，这里是blob数据，对应resource_map中的名字为xxx_scale_data_，具体为：

val.resize(valid_channel_.size());
std::fill(val.begin(), val.end(), 0.0f);

for (unsigned int c = 0; c < range_per_channel_.size(); ++c) {
    int ret = -1;
    ret = CalculateScalePerDis(distribute_per_channel_[c], interval_per_channel_[c], val[c]);
}
// val存储的就是CalculateScalePerDis计算出的output，也即是feature map的scale

// tools/quantization/calibration.cc --> Calibration::CalBlobScale()
// 将scale_vec和zero_point_vec写入net_resource->resource_map中
LayerResource* blob_scale_res;
blob_scale_res = CreateIntScale(scale_vec, zero_point_vec);
net_resource->resource_map[input_scale_name] = std::shared_ptr<LayerResource>(blob_scale_res);
// input_scale_name: xxx_scale_data_

// tools/quantization/calibration.cc --> Calibration::CreateIntScale()
IntScaleResource* int8scale = new IntScaleResource();
// scale
RawBuffer scale(scale_vec.size() * sizeof(float));
float* k_data = scale.force_to<float*>();
memcpy(k_data, scale_vec.data(), scale_vec.size() * sizeof(float));
int8scale->scale_handle = scale;

// zero_point
RawBuffer zero_point(zero_point_vec.size() * sizeof(char));
zero_point.SetDataType(DATA_TYPE_INT8);
int8_t* sb_data = zero_point.force_to<int8_t*>();
memcpy(sb_data, zero_point_vec.data(), zero_point_vec.size() * sizeof(char));
int8scale->zero_point_handle = zero_point;

// bias
RawBuffer bias(scale_vec.size() * sizeof(int32_t));
bias.SetDataType(DATA_TYPE_INT32);
int32_t* b_data = bias.force_to<int32_t*>();
memset(b_data, 0, scale_vec.size() * sizeof(int32_t));
int8scale->bias_handle = bias;

5.4 weight量化

5.4.1 前处理

在权重量化之前，先将weight乘以输入feature map的scale，具体为：

// tools/quantization/calibration.cc --> Calibration::QuantizeConvParams()
std::vector<float> weight_multiby_inputscale(size);
// multi weights by input_scale
// input_scale就是上面feature map的scale
float* input_scale_data = input_scale->scale_handle.force_to<float*>();
auto filter_handle      = resource->filter_handle;
float* weight_data = filter_handle.force_to<float*>();
// conv(32, 3, 3, 3)
for (int group_idx = 0; group_idx < group; group_idx++) {      // 1
    for (int oc = 0; oc < output_channel_per_group; ++oc) {    // 32
        for (int ic = 0; ic < input_channel_per_group; ++ic) { // 3
            int s_idx = ic + group_idx * input_channel_per_group;
            for (int i = 0; i < kernel_size; ++i) {            // 3*3
                int idx = (group_idx * output_channel_per_group + oc) * oc_stride + ic * kernel_size + i;
                if (is_depthwise) {
                    weight_multiby_inputscale[idx] = weight_data[idx];
                } else {
                    weight_multiby_inputscale[idx] = weight_data[idx] * input_scale_data[s_idx];
                }
            }
        }
    }
}

5.4.2 weight量化策略

TNN中的卷积量化有两种：MIN_MAX量化策略和ADMM量化策略。
MIN_MAX量化策略：

// tools/quantization/calibration.cc --> Calibration::CalQuantizedWeights()
// MIN_MAX
int weight_scale_count = merge_channel ? 1 : output_channel;
int s_size             = size / weight_scale_count;// 32*3*3*3 / 32
for (int s_idx = 0; s_idx < weight_scale_count; ++s_idx) {
    const float* weight_start = weights + s_idx * s_size;
    int8_t* weight_q_start    = quantized_weights + s_idx * s_size;
    auto minmax               = std::minmax_element(weight_start, weight_start + s_size);
    float max_val_abs         = std::max(std::abs(*minmax.first), std::abs(*minmax.second));

    weight_scale[s_idx]    = max_val_abs / 127.0f;
    float scale_float2int8 = 1.0f;
    if (max_val_abs != 0)
        scale_float2int8 = 1 / weight_scale[s_idx];

    // quantize weights
    for (int i = 0; i < s_size; ++i) {
        int value         = static_cast<int>(std::round(weight_start[i] * scale_float2int8));
        weight_q_start[i] = std::min(127, std::max(-127, value));
    }
}

MIN_MAX量化策略总结起来就是：weight_int8 = (weight_float * input_scale) / max_val_abs * 127，得到的weight_int8 的取值范围为[-127, 127]。
ADMM量化策略如下：

// tools/quantization/calibration.cc --> Calibration::CalQuantizedWeights()
// ADMM
int weight_scale_count  = merge_channel ? 1 : output_channel;
int s_size              = size / weight_scale_count;
const int quantize_bits = 8;

InitWeightScaleADMM(weights, size, output_channel, merge_channel, weight_scale, quantize_bits);

int iter           = 0;
float pre_sum      = 0;
float cur_sum      = 0;
const int max_iter = 1000;

for (int i = 0; i < size; i++) {
    pre_sum += std::fabs(weights[i]);
}
// update weights quan
while (iter < max_iter) {
    UpdateQuantizedWeightsADMM(weights, size, output_channel, merge_channel, weight_scale, quantize_bits,
                               quantized_weights);
    UpdateAlphaADMM(weights, size, output_channel, merge_channel, weight_scale, quantized_weights);
    iter++;
}

for (int i = 0; i < size; i++) {
    cur_sum += std::fabs(quantized_weights[i] * weight_scale[i / s_size]);
}

5.4.3 scale存储

对量化后的卷积weight，scale和zero_point保存到当前layer的resource中：

// weight_quantized 对应上述的 quantized_weights(weight_quantized_data) int8_t
// weight_scale 对应上述的 weight_scale(weight_scale_data) float
// weight_zero_point 对应上述的 weight_zero_point(weight_zero_point_data) int8_t
resource->filter_handle = weight_quantized;
resource->scale_handle  = weight_scale;
resource->zero_point_handle  = weight_zero_point;

5.5 bias量化

bias的量化结果为浮点bias除以weight的scale：

// tools/quantization/calibration.cc
auto fp32_bias_handle = ConvertHalfHandle(resource->bias_handle);
float* bias_data      = fp32_bias_handle.force_to<float*>();
RawBuffer bias_quantized(output_channel * sizeof(int32_t));
bias_quantized.SetDataType(DATA_TYPE_INT32);
int32_t* bias_quantized_data = bias_quantized.force_to<int32_t*>();

for (int oc = 0; oc < output_channel; ++oc) {
    if (weight_scale_data[oc] == 0) {
        bias_quantized_data[oc] = 0;
    } else {
        int weight_scale_idx = oc;
        bias_quantized_data[oc] = static_cast<int32_t>(bias_data[oc] / weight_scale_data[weight_scale_idx]);
    }
}

resource->bias_handle = bias_quantized;

5.6 8bit推理过程

假设当前一个卷积层的信息为：

# input:  (1, 3, 224, 224)
# conv:   (32, 3, 3, 3)
# output: (1, 32, 222, 222)

结合x86和arm上8bit卷积推理，做了以下总结：

const float *w_scale        = conv_res->scale_handle.force_to<float *>();

const float *o_scale =
    reinterpret_cast<BlobInt8 *>(outputs[0])->GetIntResource()->scale_handle.force_to<float *>();

RawBuffer temp_buffer(total_byte_size);// 32个数 128字节
float *temp_ptr = temp_buffer.force_to<float *>();
for (int i = 0; i < dims_output[1]; i++) {
    int scale_idx_w = scale_len_w == 1 ? 0 : i;
    int scale_idx_o = scale_len_o == 1 ? 0 : i;

    temp_ptr[i] = w_scale[scale_idx_w] / o_scale[scale_idx_o];
}

// source/tnn/device/arm/acc/compute/compute_int8.cc
// ARM
dstTemp[j] += (int32_t)src_z[i] * (int32_t)weight_j[i];
auto res = static_cast<float>(dstTemp[j] + bias[j]) * scale[j];
dst_x[j] = float2int8(res);

总结起来就是 (input_data_int32 * weight_data_int32 + bias) * weight_scale可以得到卷积的浮点输出，浮点输出 / output_scale(也就是下一个layer的input_scale)得到卷积的量化输出，再将其限制在[-128. 127]。

6. im2col实现卷积计算

根据硬件具体实现，大部分卷积的计算都会转换为矩阵乘法(GEMM)，最常用的方法就是im2col，下面给出一些im2col实现卷积计算的示例图，结合这篇博客一起食用效果更佳！

6.1 input为单通道，weight为单通道(输出)

6.2 input为多通道，weight为单通道(输出)

6.3 input为多通道，weight为多通道(输出)

结束语

本篇博客主要介绍了TNN的基本使用、量化工具的使用以及手动实现单算子卷积推理，除了浮点卷积推理外，8bit定点卷积推理也有实现，不过目前的结果还没有对上，后续再进行补充8bit定点卷积推理的实现代码。

你可能感兴趣的:(AI编译器,神经网络,人工智能,TNN,AI编译器,c++)

跟小朋友学英语25——20220412 李杨手记
群内打卡：1.复习卡片今天晚上复习了近三十张卡片。牛仔好像记得不牢（其实是我有期待）。这两天没有好好听前两周的音频，今晚把音频重新调整一下。如果晚上没有专门的时间听，就睡前再磨一下耳朵。2.复习指定绘本FridaKhalo读了两遍，但都没读完，第二遍还差两页，孩子的注意力就跑到别的书上去了。后来我们阅读了甜心英语的绘本《Rainbowdiningtable》。读完后还一起讨论。最近陪伴精读绘本的能
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议 Echo_Wish 前沿技术人工智能人工智能 python 开发语言
用AI“看病”，靠谱吗？｜聊聊如何用Python生成个性化健康建议说实话，健康这事儿，谁不关心？可问题是，现代人越来越不想“看病”，倒不是说我们不在乎身体，而是——太麻烦、太贵、太笼统！你可能遇到过这种情况：明明每天健身，还被体检报告说“轻度脂肪肝”；营养均衡，但血糖还是偏高；去医院，医生说“少吃多动”，这谁听了不头疼？问题就出在一个词上：“个性化”。好消息是，AI已经可以提供定制化的健康建议了，
8分钟50项大奖，中国动画上天了 Sir电影
2018，是中国人首次进行太空行走的十周年。十年前，神舟七号出征太空，让中国成了世上第三个实现太空出舱的国家。十年后，也有这么一个“中国人出征太空”的故事。它有机会让中国动画冲进奥斯卡——《冲破天际》onesmallstep这部不到八分钟的短片，是太崆动漫（TAIKOSTUDIOS）自去年成立以来的首个项目。描述了一个对太空无限着迷的中国小女孩褚璐娜，在父亲激励下经过一系列挫折终于成为宇航员的故事
Valentino大衣怎么买便宜？Valentino华伦天奴2024秋季系列直返APP抖音优惠券
Valentino的这件大衣简直是时尚界的瑰宝！它完美地将经典与时尚融合在一起，剪裁精致，线条流畅，上身效果超赞。月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）通过直返APP买化妆用品（没有上级赚差价）购物，领券还能返佣！超级便宜~！分享赚钱，自用省钱！几款华伦天奴的大衣：VALENTINOCHAIN1967DOUBLECREPECOUTURE大衣：这款大衣
C/C++：学生通讯录管理系统项目实战详解（附源码）
1.项目需求用来记录同学的信息的工具系统中需要实现的功能如下：添加联系人：向通讯录中添加新的联系人，信息包括（姓名、性别、年龄、联系电话、家庭住址）显示联系人：显示通讯录中所有联系人信息删除联系人：按照姓名删除指定联系人查找联系人：按照姓名查找指定联系人信息修改联系人：按照姓名重新修改指定联系人清空联系人：清空通讯录所有信息退出通讯录：退出通讯录系统2.创建项目3.头文件与宏定义#includeu
AI编程实战：Cursor避坑指南与高效提示词设计孟柯coding 人工智能机器学习 AIGC
1.简介在AI迅猛发展的时代，掌握利用AI工具提升工作效率，已成为一项必备技能。无论是借助AICoding辅助编程，还是使用Coze或Dify搭建专属知识库问答助手，AI都能让我们事半功倍。当然，AI生成内容有时会存在“幻觉”，切勿完全轻信其输出，关键信息务必自行核查验证后再投入使用。本文将以我在使用Cursor进行开发时遇到的实际问题为例，分享相应的处理思路与解决方案，并同步提供开发用户模块所使
【leetcode-字符串】单词搜索 II 程序员小2
【leetcode-字符串】单词搜索II题目：给定一个二维网格board和一个字典中的单词列表words，找出所有同时在二维网格和字典中出现的单词。单词必须按照字母顺序，通过相邻的单元格内的字母构成，其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母在一个单词中不允许被重复使用。示例:输入:words=["oath","pea","eat","rain"]andboard=[
选择结构作业题（五.1）为什么名字不能重复呢？ C语言作业题 c#
阿尔法编程第五章（1--30）1.输入一个整数，如果是奇数，输出odd；如果是偶数，输出even。#includeintmain(){intn;scanf("%d",&n);{if(n%2==0)printf("even");elseprintf("odd");}return0;}2.输入一个年份，判断它是平年还是闰年。如果是平年，输出commonyear；如果是闰年，输出leapyear。注意：
第6章循环结构作业题（1）
1.在选秀节目中有10个评委为参赛选手打分，分数为1到100分，选手最后的得分为去掉一个最高分和去掉一个最低分后其余8个分数的平均分，编写程序，输入10个分数，输出选手的最后得分(保留2位小数)。实现思路在for循环中使用if语句使用输入输出语句#includeintmain(){floatscore,max,min,s=0;inti;scanf("%f",&score);max=min=scor
DP学习笔记(7):有依赖背包，背包求方案数李白洗一夜学习笔记算法
有依赖背包常规分析有依赖背包特点:有主件，有附件，每种物品只有一件设主件的重量main_w[N]价值main_c[N],附件的重量sec_w[N][N],价值sec_c[N][N]那么01背包是不是可以看作特殊的有依赖背包，全是主件，没有附件的有依赖背包01背包的状态转移方程if(j>=w[i])dp[j]=max(dp[j],dp[j-w[i]]+c[i])是不是就可以看成只选主件的有依赖背包的
一条SQL引发的革命：金仓KES V9 2025如何用“融合”颠覆数据库格局 Loving_enjoy 计算机学科论文创新点机器学习 facebook 课程设计经验分享
>一条SQL，既能查交易记录，又能搜相似图片，还能分析JSON文档——国产数据库正在用“全栈融合”重新定义数据价值“迁移成本太高了！”某银行技术总监看着眼前的Oracle集群摇头叹息。为了部署新的AI风控系统，团队需要在关系数据库、文档数据库和向量数据库之间搭建数据管道——**不仅架构复杂度飙升，维护成本更是翻了三倍**。直到他们遇见了金仓KESV92025。2025年7月15日，中电科金仓发布新
【慢工社—学术篇】如何使用 ChatGPT 撰写文献综述（二）取不好名字= 慢工社-学术篇 chatgpt 学习方法程序人生人工智能 AI写作
慢工社的来历：有没有发现，现在我们像在给AI打工？我们为AI提供基础信息，各种材料，期盼着AI能给我们一些有效的内容作为“薪水”。在这样的付出收获视角下，俗语“慢工才能出细活”简直形容的不能再贴切了。如何使用ChatGPT撰写文献综述？（二）在第一篇内容中，我们介绍了G老师在学术写作上的主要局限以及一些在G老师帮助下写综述的主要过程，最后附上了一些认为会常用到的“咒语”。【慢工社—学术篇】如何使用
简单C语言通讯录的实现（非动态内存管理）潘同学爱学习 c语言数据结构开发语言
本文将介绍一个基于C语言的命令行通讯录管理系统。该系统支持联系人信息的增删改查、排序和清空等核心功能，采用模块化设计便于维护和扩展。一、程序结构程序由三个文件组成：contact.h数据结构和函数声明contact.c-函数具体实现main.c-程序入口和主循环二、核心数据结构typedefstructPeoInf{charname[20];chargender[7];intage;charpho
关于基于 LVGL 库实现“注册-登录-跳转页面”功能的代码，适配 800x480 屏幕，并添加了详细注释：
要将“注册-登录-跳转页面”功能整合到已有的main.c工程中，只需按以下步骤操作，核心是复用LVGL和SQLite逻辑，并与现有工程的初始化流程对接：步骤1：整理核心功能代码将之前的功能拆分为独立模块（方便嵌入），创建2个辅助文件：•auth.h：声明注册登录相关函数#ifndefAUTH_H#defineAUTH_H#include"lvgl/lvgl.h"#include"sqlite3.h
C++入门教程笔记·基本语法数据类型
编写不易，请勿搬运嵌入式开发学C++有必要嘛首先嵌入式开发的常用工具，keil5，Vscode，Esp-idf三个编译工具中都是支持C++语言的，也就是说常见芯片种类ST、ESP、等芯片类型都能够使用C++进行开发，同时在公司工程中，对于使用C++开发的工程对于项目的后续维护，改版都是需要懂C++的，所以能看懂C++，学好C++非常有必要。同时在ST开发的hal库中的函数驱动底层抽象库中，都是使用
Python简化常用技巧优雅的心情自动化测试 python 开发语言
文章目录一、列表表达式二、语法糖一、列表表达式Python为了简化程序的代码行数做了很多努力，其中最经典的就是列表表达式。比如我有如下函数，用来输出一个单词中的所有字符：defoutput_letter(letter):l=[]foriteminletter:l.append(item)returnlif__name__=="__main__":print(output_letter('kevin
鸿蒙与web混合开发双向通信屿筱鸿蒙 HarmonyOS5
鸿蒙与web混合开发双向通信用runJavaScript和registerJavaScriptProxywebentry/src/main/resources/rawfile/1.html混合开发打开相册//直接写js代码functionchangeImg(){//1.获取img这个元素constimg=document.querySelector('img')//2.修改元素的属性img.src
For what 鲜宇夫
ItrainedoutsideintheafternoonAfterabusyday,IhavenoideaabouttheoutsideworldItfeelscoolwhentheriverwindblowsWhatwoulditbeliketoaskmyselfoverandoveragainInretrospect,itseemsnotworthitSomanybeautifulthing
【C#】Vscode中C#工程如何引用自编写的dll
如题问了几个AI，最后实验出来这个说的对,实际效果也是可以的，修改完csproj，关闭文件夹重新打开工程即可在VisualStudioCode中使用C#项目添加自定义DLL动态链接库的步骤如下：通过修改.csproj文件将DLL文件放入项目目录在项目根目录创建lib文件夹（或其他名称）将你的YourLibrary.dll放入此文件夹编辑项目文件(.csproj)打开项目文件（如YourProjec
【工具篇】【从冷笑话到职场革命：Manus 100 问挑战人类认知极限】再见孙悟空_ AI 进阶之旅》【2025 AI工具合集】【2025 AI学习从零单排系列】Manus AI Manus manus邀请码 manus体验 Manus PPT Manus 对比 DeepSeek
一、基础认知篇1.Manus到底是什么？它是全球首款通用型AI智能体，简单来说就是能独立完成任务的数字助手。比如你让它分析股票，它不仅能给出报告，还能自动调用Python生成图表，甚至在你睡觉的时候还能在云端继续工作。2.名字“Manus”有什么含义？来自拉丁语“MensetManus”，直译是“心智与手”。官方解释是希望它既能思考又能行动，把人类的想法变成现实，就像有个AI助手帮你干活。3.谁开
骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
AQS 抽象队列同步器资源竞争-排队等待
目录一、AQS的核心作用二、AQS的核心组件1.同步状态（state）2.等待队列（CLH队列）节点状态（waitStatus）的关键值：三、AQS的两种工作模式1.独占模式（ExclusiveMode）独占模式的获取流程（以acquire(1)为例）：独占模式的释放流程（以release(1)为例）：2.共享模式（SharedMode）共享模式的获取流程（以acquireShared(1)为例）
低速信号设计之 RMII 万花丛中一抹绿服务器低速信号设计服务器硬件研发低速信号设计 RMII
一、引言在服务器的信号设计中，高速信号往往是关注的焦点，但低速信号的稳定运行同样是保障服务器整体可靠性的关键。RMII（ReducedMediaIndependentInterface，简化的媒体独立接口）作为一种常用于低速以太网通信的接口标准，在服务器的低带宽通信场景中发挥着重要作用。本文将从RMII总线在服务器中的应用场景、工作原理、关键参数、设计及布局布线注意事项、典型应用案例等方面进行详细
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
C语言自学日记（三）变量与常量
初学者肯定很懵逼，变量是什么？常量是什么？在数学中，令x=1或者令x=1.10在纸上一写便是，但我们要是在C语言中应该怎么办？在这里我们写一段简单的两端代码#includeintmain(){intx;x=1;return0;}int是什么，如果对前文了解的，应该能明白这是一种数据类型，名为整数类型，它的语法是：数据类型变量名；看到这里，我们就可以对变量做一个简单的介绍，确定目标并提供存放的空间。
PyTorch笔记6----------神经网络案例 HuashuiMu花水木 PyTorch笔记 pytorch 笔记
1.回归网络波士顿房价预测模型搭建波士顿房价数据集下载链接：百度网盘请输入提取码提取码:5279导入所需包importtorchimportnumpyasnpimportre读取数据ff=open('housing.data').readlines()data=[]foriteminff:out=re.sub(r"\s{2,}","",item).strip()#通过正则表达式去除所有空格data
hard_err错误 hahaha6016 硬件设计 fpga开发
1.XilinxAurora协议中的hard_err（HardError）是一种指示物理层不可恢复通信故障的错误信号，属于AuroraIP核错误检测机制的核心部分2.hard_err是aurora的IP核的错误检测接口输出的信号，直接反映了链路物理层的严重故障；3.hard_err错误是不可恢复的，一旦出现了错误，表示链路的稳定性出现了问题，需要重新复位或者重新初始化才能恢复通信。4.hard_e
C51 贪吃蛇基于 Proteus V1.0 ForesterX proteus 单片机嵌入式硬件贪吃蛇 C51
文章目录0.效果演示1.开发环境2.项目地址3.项目目录4.设计与开发4.1整体原理图4.2方向键模块4.3点阵模块4.4整体逻辑说明4.4.1点阵怎么刷新4.4.2按键在哪里检测4.4.3蛇怎么移动4.4.4游戏规则4.5main.c5.不足与展望0.效果演示视频演示：C51单片机贪吃蛇基于Proteus1.开发环境系统：window10专业版。开发软件：Keil5仿真软件：ProteusPS：
Python：勾股数 Dominick_Su Python编程 python 开发语言后端
找出一定范围内的勾股数a,b,c（均为正整数），而且三个数互质。importmathMAX=100#设定范围,a,b,c都在100以内PN=[]#PythagoreanNumber勾股数forainrange(2,int(MAX//math.sqrt(2))+1):forbinrange(a+1,int(math.sqrt(MAX*MAX-a*a))+1,2):c=int(math.sqrt(s:
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号