迷若烟雨

基于caffe的模型压缩

训练出来的模型有很多参数，比如AlexNet有高达6千万个，体积有232MB之大，具体计算方法参见深度学习计算模型中每层参数的个数和FLOPs，对于部署到移动端来说显然是不合适的，那么怎么样才能减少模型的体积呢？怎么样才能加速呢？

裁剪、量化和蒸馏是常用的三种方式，本文将介绍其中的前两种方法.

1.裁剪

看下在Mnist数据集训练精度达99%的LeNet网络的滤波器权重, conv1第一个和fc2第一个，大部分都接近0.

再来看下压缩后的对比:

大部分已经截断为0.

分析下LeNet的结构可以发现conv2占据了绝大部分的计算量，fc1占用了大部分参数量，因此对其优化收益最佳

layer name Filter Shape     Output Size      Params   Flops        Ratio
conv1     (20, 1, 5, 5)    (64, 20, 24, 24) 500      288000       12.56
conv2     (50, 20, 5, 5)   (64, 50, 8, 8)   25000    1600000      69.778
ip1       (500, 800)       (64, 500)        400000   400000       17.444
ip2       (10, 500)        (64, 10)         5000     5000         0.218
Layers num: 4
Total number of parameters:  430500
Total number of FLOPs:  2293000

DeepCompression-caffe精简后的日志:

stage1
I1102 17:28:31.986773 29076 cmp_conv_layer.cpp:47] CONV THR: 0.115747 0.33
I1102 17:28:31.986806 29076 cmp_conv_layer.cpp:65] sparsity: 0.33
I1102 17:28:31.988147 29076 cmp_conv_layer.cpp:65] sparsity: 0
I1102 17:28:32.014879 29076 cmp_inner_product_layer.cpp:62] sparsity: 0
I1102 17:28:32.015149 29076 cmp_inner_product_layer.cpp:62] sparsity: 0
I0527 11:15:41.981787  7460 solver.cpp:317] Iteration 500, loss = 0.00337758
I0527 11:15:41.981802  7460 solver.cpp:337] Iteration 500, Testing net (#0)
I0527 11:15:42.053822  7460 solver.cpp:404]     Test net output #0: accuracy = 0.9914
I0527 11:15:42.053841  7460 solver.cpp:404]     Test net output #1: loss = 0.0273776 (* 1 = 0.0273776 loss)
stage2
I1102 17:28:33.807425 29226 cmp_conv_layer.cpp:47] CONV THR: 0 0.33
I1102 17:28:33.807464 29226 cmp_conv_layer.cpp:65] sparsity: 0.33
I1102 17:28:33.808884 29226 cmp_conv_layer.cpp:47] CONV THR: 0.0529969 0.8
I1102 17:28:33.808957 29226 cmp_conv_layer.cpp:65] sparsity: 0.8
I1102 17:28:33.834861 29226 cmp_inner_product_layer.cpp:62] sparsity: 0
I0527 11:15:45.206871  7483 solver.cpp:317] Iteration 1000, loss = 0.00963775
I0527 11:15:45.206888  7483 solver.cpp:337] Iteration 1000, Testing net (#0)
I0527 11:15:45.279081  7483 solver.cpp:404]     Test net output #0: accuracy = 0.9917
I0527 11:15:45.279103  7483 solver.cpp:404]     Test net output #1: loss = 0.0283742 (* 1 = 0.0283742 loss)
stage3
I1102 17:28:36.274431 29278 cmp_conv_layer.cpp:47] CONV THR: 0 0.33
I1102 17:28:36.274452 29278 cmp_conv_layer.cpp:65] sparsity: 0.33
I1102 17:28:36.274977 29278 cmp_conv_layer.cpp:47] CONV THR: 0 0.8
I1102 17:28:36.275055 29278 cmp_conv_layer.cpp:65] sparsity: 0.8
I1102 17:28:36.302774 29278 cmp_inner_product_layer.cpp:46] THR: 0.0397202
I1102 17:28:36.303934 29278 cmp_inner_product_layer.cpp:62] sparsity: 0.9
I1102 17:28:36.304250 29278 cmp_inner_product_layer.cpp:62] sparsity: 0
I0527 11:16:12.605298  7509 solver.cpp:317] Iteration 10500, loss = 0.0248651
I0527 11:16:12.605315  7509 solver.cpp:337] Iteration 10500, Testing net (#0)
I0527 11:16:12.683331  7509 solver.cpp:404]     Test net output #0: accuracy = 0.9907
I0527 11:16:12.683354  7509 solver.cpp:404]     Test net output #1: loss = 0.0299526 (* 1 = 0.0299526 loss)
stage4
I1102 17:28:53.363138 29602 cmp_conv_layer.cpp:47] CONV THR: 0 0.33
I1102 17:28:53.363155 29602 cmp_conv_layer.cpp:65] sparsity: 0.33
I1102 17:28:53.363728 29602 cmp_conv_layer.cpp:47] CONV THR: 0 0.8
I1102 17:28:53.363800 29602 cmp_conv_layer.cpp:65] sparsity: 0.8
I1102 17:28:53.371803 29602 cmp_inner_product_layer.cpp:46] THR: 0
I1102 17:28:53.372537 29602 cmp_inner_product_layer.cpp:62] sparsity: 0.9
I1102 17:28:53.372779 29602 cmp_inner_product_layer.cpp:46] THR: 0.0979528
I0527 11:16:41.465282  7631 solver.cpp:317] Iteration 11000, loss = 0.00405698
I0527 11:16:41.465301  7631 solver.cpp:337] Iteration 11000, Testing net (#0)
I0527 11:16:41.544684  7631 solver.cpp:404]     Test net output #0: accuracy = 0.9908
I0527 11:16:41.544704  7631 solver.cpp:404]     Test net output #1: loss = 0.0296194 (* 1 = 0.0296194 loss)
stage5
I1102 17:29:10.394448 29928 cmp_conv_layer.cpp:47] CONV THR: 0 0.33
I1102 17:29:10.394480 29928 cmp_conv_layer.cpp:65] sparsity: 0.33
I1102 17:29:10.395453 29928 cmp_conv_layer.cpp:47] CONV THR: 0 0.8
I1102 17:29:10.395548 29928 cmp_conv_layer.cpp:65] sparsity: 0.8
I1102 17:29:10.408223 29928 cmp_inner_product_layer.cpp:46] THR: 0
I1102 17:29:10.408944 29928 cmp_inner_product_layer.cpp:62] sparsity: 0.9
I1102 17:29:10.472780 29928 cmp_inner_product_layer.cpp:46] THR: 0
I1102 17:29:10.472833 29928 cmp_inner_product_layer.cpp:62] sparsity: 0.8
I1102 17:29:10.477787 29928 cmp_conv_layer.cpp:47] CONV THR: 0 0.33
I1102 17:29:10.477800 29928 cmp_conv_layer.cpp:65] sparsity: 0.33
I0527 11:16:43.887966  7733 solver.cpp:317] Iteration 500, loss = 0.0114702
I0527 11:16:43.887984  7733 solver.cpp:337] Iteration 500, Testing net (#0)
I0527 11:16:43.971312  7733 solver.cpp:404]     Test net output #0: accuracy = 0.9905
I0527 11:16:43.971331  7733 solver.cpp:404]     Test net output #1: loss = 0.0297006 (* 1 = 0.0297006 loss)

附滤波器参数可视化代码:

import os
import numpy as np
import matplotlib.pyplot as plt
import caffe
import cv2

def draw_filters(name,weights):
    data = weights.copy()
    data -= data.min()
    data /= data.max()
    sh = data.shape
    width = sh[3]
    height =sh[2]
    c_out = sh[0]
    c_in = sh[1]
    savedir="filters/"+name
    if not os.path.exists(savedir):
        os.makedirs(savedir)
    for i in range(c_out):
        for j in range(c_in):
            img = np.zeros((height*100,width*100,3),dtype=np.float32)
            #img = data[i][j]
            for h in range(height):
                for w in range(width):
                    img[h*100:(h+1)*100,w*100:(w+1)*100,:]=data[i][j][h][w]
                    v = round(weights[i][j][h][w],5)
                    cv2.putText(img,str(v),(w*100,h*100+60),1,1,(0,0,255))
            savepath = savedir+"/"+str(i)+"_"+str(j)+".jpg"
            cv2.imwrite(savepath,img*255)

def draw_linear(name,weights):
    data = weights.copy()
    data -= data.min()
    data /= data.max()
    sh = data.shape
    c_out = sh[0]
    c_in = sh[1]
    savedir="filters/"+name
    if not os.path.exists(savedir):
        os.makedirs(savedir)
    for i in range(c_out):
        img = np.zeros((c_in*2,1000,3),dtype=np.float32)
        for j in range(int(c_in/10)):
            for k in range(10):
                img[j*20:(j+1)*20,k*100:(k+1)*100,:]=data[i][j*10+k]
                v = round(weights[i][j*10+k],7)
                cv2.putText(img,str(v),(k*100,j*20+15),1,1,(0,0,255))
        savepath = savedir+"/"+str(i)+".jpg"
        cv2.imwrite(savepath,img*255)

if __name__=="__main__":
    prototxt="lenet_deploy.prototxt"
    #caffemodel="models/lenet_iter_10000.caffemodel"
    #caffemodel="models/lenet_finetune_stage1_iter_500.caffemodel"
    #caffemodel="models/lenet_finetune_stage2_iter_1000.caffemodel"
    #caffemodel="models/lenet_finetune_stage3_iter_10500.caffemodel"
    #caffemodel="models/lenet_finetune_stage4_iter_11000.caffemodel"
    caffemodel="models/lenet_finetune_stage5_iter_500.caffemodel"
    net = caffe.Net(prototxt,caffemodel,caffe.TEST)

    for item in net.params.items():
        name, layer = item
        print(name)
        layer_type = net.layer_dict[name].type
        if layer_type == "Convolution":
            if name == "conv1":
                draw_filters(name,layer[0].data)
        elif layer_type == "InnerProduct":
            if name =="fc2":
                draw_linear(name,layer[0].data)

2.量化

为什么能做int8量化？

(1) CNN对噪声不敏感 -> Int8有用
(2) 模型太大，对存储和计算需求较大 -> 量化能有效降低推理过程中对存储和算力需求
(3) 每个层weights波动范围不大 -> 适合做量化

量化的本质就是在原信号上进行采样: FP32 Tensor (T) = scale_factor(sf) * 8-bit Tensor(t)

量化的流程:

//首先分成 2048个组，每组包含多个数值（基本都是小数）
Input: FP32 histogram H with 2048 bins: bin[ 0 ], …, bin[ 2047 ] 
  
For i in range( 128 , 2048 ): // |T|的取值肯定在 第128-2047 组之间,取每组的中点
	reference_distribution_P = [ bin[ 0 ] , ..., bin[ i-1 ] ] // 选取前 i 组构成P，i>=128
	outliers_count = sum( bin[ i ] , bin[ i+1 ] , … , bin[ 2047 ] ) //边界外的组
	reference_distribution_P[ i-1 ] += outliers_count //边界外的组加到边界P[i-1]上，没有直接丢掉
	P /= sum(P) // 归一化
      
    // 将前面的P（包含i个组，i>=128），映射到 0-128 上，映射后的称为Q，Q包含128个组，
    // 一个整数是一组
	candidate_distribution_Q = quantize [ bin[ 0 ], …, bin[ i-1 ] ] into 128 levels
	
	//这时的P（包含i个组，i>=128）和Q向量（包含128个组）的大小是不一样的，无法直接计算二者的KL散度
	//因此需要将Q扩展为 i 个组，以保证跟P大小一样
	expand candidate_distribution_Q to ‘ i ’ bins 
	
	Q /= sum(Q) // 归一化
	//计算P和Q的KL散度
	divergence[ i ] = KL_divergence( reference_distribution_P, candidate_distribution_Q)
End For
//找出 divergence[ i ] 最小的数值，假设 divergence[m] 最小，
//那么|T|=( m + 0.5 ) * ( width of a bin )
Find index ‘m’ for which divergence[ m ] is minimal
threshold = ( m + 0.5 ) * ( width of a bin )

通过不断地构造P和Q，并计算相对熵，然后找到最小（截断长度为m）的相对熵，此时表示Q能极好地拟合P分布了，而阀值就等于（m + 0.5）*一个bin的长度. 通过上述步骤就能得到校准表，然后送入量化模块进行量化，那么在端上如何使用呢？NCNN Conv进行Int8计算时，计算流程如下：

在进行conv前，对input和weight做量化，计算完后反量化到fp32,再加bias

NCNN首先将输入(bottom_blob)和权重(weight_blob)量化成INT8，在INT8下计算卷积，然后反量化到fp32，再和未量化的bias相加，得到输出(top_blob)

quantize（量化）公式为

$bottom\_blob(int8) = bottom\_data\_scale(int8) * bottom\_blob(fp32)$

$weight\_blob(int8) = weight\_data\_scale(int8) * weight\_data(fp32)$

在做前向inference（推理）时，计算输入和权重的乘积：

$bottom\_blob(fp32)*weight\_blob(fp32)= bottom\_blob(int8)*weight\_blob(int8) / (bottom\_data\_scale(int8) * weight\_data\_scale(int8))$

所以dequantize（反量化）时，反量化因子为：

$inner\_blob(int32) = bottom\_blob(int8)*weight\_blob(int8)$

进行前向推理运算时，有：

$bottom\_blob(fp32)*weight\_data(fp32)= bottom\_blob(int8)*weight\_blob(int8)*dequantize\_scale$

附caffe训好的模型一键式转换ncnn和运行

@echo off
set NCNN_DIR=D:/CNN/ncnn
set TOOLS=%NCNN_DIR%/build/tools/caffe/Release/caffe2ncnn
SET OPT=%NCNN_DIR%/build/tools/Release/ncnnoptimize
set NCNN2TABLE=%NCNN_DIR%/build/tools/quantize/Release/ncnn2table
set NCNN2int8=%NCNN_DIR%/build/tools/quantize/Release/ncnn2int8
set MODEL_NAME=mobilenet_ssd_voc
set IMAGES=images

call:ncnntools

rem method 1: use caffe-int8-convert-tools
:caffe2ncnn
echo "generating quantization table"
set pytool=D:/CNN/caffe_models/caffe-int8-convert-tools/caffe-int8-convert-tool-dev-weight.py
python %pytool% --proto=%MODEL_NAME%-depth.prototxt --model=%MODEL_NAME%.caffemodel --mean 127.5 127.5 127.5 --norm 0.007843 --images=%IMAGES% --output=%MODEL_NAME%.table --gpu=1
echo "converting model"
rem "%TOOLS%" %MODEL_NAME%.prototxt %MODEL_NAME%.caffemodel %MODEL_NAME%.param %MODEL_NAME%.bin
"%TOOLS%" %MODEL_NAME%.prototxt %MODEL_NAME%.caffemodel %MODEL_NAME%-int8.param %MODEL_NAME%-int8.bin 256 %MODEL_NAME%.table
goto:run

rem mtehod 2: use ncnnoptimize ncnn2table ncnn2int8
:ncnntools
"%TOOLS%" %MODEL_NAME%.prototxt %MODEL_NAME%.caffemodel %MODEL_NAME%.param %MODEL_NAME%.bin
"%OPT%" %MODEL_NAME%.param %MODEL_NAME%.bin %MODEL_NAME%.param %MODEL_NAME%.bin 1
"%NCNN2TABLE%" --param=%MODEL_NAME%.param --bin=%MODEL_NAME%.bin --images=%IMAGES% --output=%MODEL_NAME%.table --mean=127.5,127.5,127.5 --norm=0.007843,0.007843,0.007843 --size=300,300 --thread=4 --swapRB=0
"%NCNN2int8%" %MODEL_NAME%.param %MODEL_NAME%.bin %MODEL_NAME%-int8.param %MODEL_NAME%-int8.bin %MODEL_NAME%.table
goto:run

:run
echo "start running demo"
"../x64/Release/voc" images/test.jpg
pause

运行日志:

Collect histograms of activations:
loop stage 2 : 0/2
conv0                bin : 2046     threshold : 0.999250   interval : 0.000488   scale : 127.095313
conv1                bin : 767      threshold : 11.684288  interval : 0.015224   scale : 10.869297 
conv2                bin : 1279     threshold : 10.785722  interval : 0.008430   scale : 11.774826 
conv3                bin : 1151     threshold : 24.829513  interval : 0.021563   scale : 5.114881  
conv4                bin : 1535     threshold : 9.157705   interval : 0.005964   scale : 13.868103 
conv5                bin : 1279     threshold : 9.892059   interval : 0.007731   scale : 12.838580 
conv6                bin : 895      threshold : 7.349082   interval : 0.008207   scale : 17.281069 
conv7                bin : 1535     threshold : 9.801176   interval : 0.006383   scale : 12.957628 
conv8                bin : 1151     threshold : 7.922781   interval : 0.006880   scale : 16.029725 
conv9                bin : 1279     threshold : 7.027348   interval : 0.005492   scale : 18.072251 
conv10               bin : 1279     threshold : 8.220346   interval : 0.006425   scale : 15.449472 
conv11               bin : 1663     threshold : 8.217446   interval : 0.004940   scale : 15.454924 
conv13               bin : 1279     threshold : 14.380681  interval : 0.011239   scale : 8.831292
conv14_1             bin : 1791     threshold : 23.348444  interval : 0.013033   scale : 5.439335
conv14_2             bin : 1535     threshold : 5.194996   interval : 0.003383   scale : 24.446602
conv15_1             bin : 2046     threshold : 3.439832   interval : 0.001681   scale : 36.920405
conv15_2             bin : 2046     threshold : 2.459520   interval : 0.001202   scale : 51.636100
conv16_1             bin : 2046     threshold : 4.317693   interval : 0.002110   scale : 29.413857
conv16_2             bin : 1535     threshold : 1.746493   interval : 0.001137   scale : 72.717155
conv17_1             bin : 2046     threshold : 3.930415   interval : 0.001921   scale : 32.312110
conv17_2             bin : 1919     threshold : 2.801916   interval : 0.001460   scale : 45.326128
conv11_mbox_loc      bin : 2046     threshold : 5.171228   interval : 0.002527   scale : 24.558963
conv11_mbox_conf     bin : 2046     threshold : 5.171228   interval : 0.002527   scale : 24.558963
conv13_mbox_loc      bin : 1791     threshold : 23.348444  interval : 0.013033   scale : 5.439335
conv13_mbox_conf     bin : 1791     threshold : 23.348444  interval : 0.013033   scale : 5.439335
conv14_2_mbox_loc    bin : 2046     threshold : 3.439832   interval : 0.001681   scale : 36.920405
conv14_2_mbox_conf   bin : 2046     threshold : 3.439832   interval : 0.001681   scale : 36.920405
conv15_2_mbox_loc    bin : 2046     threshold : 4.317693   interval : 0.002110   scale : 29.413857
conv15_2_mbox_conf   bin : 2046     threshold : 4.317693   interval : 0.002110   scale : 29.413857
conv16_2_mbox_loc    bin : 2046     threshold : 3.930415   interval : 0.001921   scale : 32.312110
conv16_2_mbox_conf   bin : 2046     threshold : 3.930415   interval : 0.001921   scale : 32.312110
conv17_2_mbox_loc    bin : 1663     threshold : 4.633778   interval : 0.002786   scale : 27.407440
conv17_2_mbox_conf   bin : 1663     threshold : 4.633778   interval : 0.002786   scale : 27.407440

Caffe Int8 Calibration table create success, it's cost 0:01:16.598000, best wish for your INT8 inference has a low accuracy loss...\(^鈻絕)/...2333...

注意mobilenet-ssd中的pointwise-dw层不要去量化，否则损失会很大.

TensorRT(5)-INT8校准原理

模型量化原理笔记

Int8量化-介绍（一）

Int8量化 - python实现以及代码分析（二）

NCNN Conv量化详解（一）

NCNN量化详解（二）

Int8量化-Winograd量化原理及实现

基于Caffe-Int8-Convert-Tools进行caffe模型转int8量化日常记录

Pytorch 模型量化实战

卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
编译OpenCV支持CUDA视频解码 AI标书 python openvc cuda nvidia docker build
如何在Ubuntu上编译OpenCV并启用CUDA视频解码支持（cudacodec）在深度学习、视频处理等高性能计算领域，OpenCV的GPU加速功能非常重要。特别是它的cudacodec模块，能直接利用NVIDIA硬件实现高效的视频解码，极大提升性能。本文将基于Ubuntu环境，详细介绍从环境准备到编译安装OpenCV，并开启cudacodec模块的全过程。完整的shell脚本以及本次编译所用到
深度学习：梯度下降法数字化与智能化人工智能深度学习深度学习梯度下降法
一、梯度的概念（1）什么是梯度梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。对于一个多元函数f(x1,x2,...,xn)，其梯度是一个由函数偏导数组成的向量，其梯度表示为：Gradient=(∂f/∂x1,∂f/∂x2,...,∂f/∂xn)其中，∂f/∂xi表示函数f对第i个自变量
C# vs Python：谁更适合初学者？用5个关键点教你掌握深度学习中的线性代数墨瑾轩一起学学C#【四】c#python 深度学习
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要一起探索如何使用C#来入门深度学习的世界，特别关注其中的线性代数部分。你可能会好奇：“为什么是C#而不是Python？”别急，我们会在接下来的内容中详细解释这个问题，并通过对比两种语言的特点，让你明白选择C#进行深度学习并不是一个坏主意
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
AI人工智能领域中OpenCV的深度学习融合 AI大模型应用实战人工智能 opencv 深度学习 ai
AI人工智能领域中OpenCV的深度学习融合关键词：AI人工智能、OpenCV、深度学习融合、计算机视觉、图像识别摘要：本文深入探讨了在AI人工智能领域中OpenCV与深度学习的融合。我们将先介绍OpenCV和深度学习的基本概念，再讲解它们融合的原理和方式，通过实际代码案例展示融合的具体操作，探讨其在不同场景的应用，推荐相关工具和资源，分析未来发展趋势与挑战。希望能让大家对这一融合有全面且深入的了
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
【深度学习解惑】训练RNN时如何解决梯度消失或梯度爆炸？
训练RNN时如何解决梯度消失或梯度爆炸？1.引言与背景介绍循环神经网络（RNN）是处理序列数据的核心模型，但在训练过程中面临两大挑战：梯度消失（GradientVanishing）和梯度爆炸（GradientExplosion）。梯度消失导致长距离依赖难以学习（如文本中相距50个词的关联），而梯度爆炸会造成参数剧烈震荡甚至数值溢出（NaN值）。本文系统分析问题根源并提供工程级解决方案。2.原理解释
找组织——机器学习社区、团体洞察小哥伯涵机器学习人工智能
在Github上，有一些中文社区可以看一看：prompt“如果我是个AI小白，想参加到一个组织，接收最新的AI有趣源项目、一些定期的刊物等。我应该加入哪些组织？”AI社区——深度学习社区Reddit上的MachineLearningsubreddit:https://www.reddit.com/r/MachineLearning/是一个拥有超过400,000名成员的活跃社区。在这里，您可以找到有
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

基于caffe的模型压缩

1.裁剪

2.量化

你可能感兴趣的:(深度学习)