努力努力在努力丶

深度学习框架Caffe学习系列(2)：Ristretto 量化 cifar_small 实验记录

模型压缩之量化策略

Caffe 量化工具：Ristretto

近似方案
学习资源
量化cifar_small模型

1. 创建模型训练文件
2. 创建模型训练参数文件
3. 开始训练原始模型
4. 测试训练好的模型
5. 量化模型

5.1 量化cifar_small模型

量化失败原因分析

合并BatchNorm层

5.2 Caffe自带的cifar10_quick模型

问题答疑

模型文件转换：darknet的cfg文件转换成caffe的prototxt文件

为什么caffe的BatchNorm要分成batchnorm和Scale两个层？

Caffe 量化工具：Ristretto

Ristretto是一种自动CNN近似工具，可压缩32位浮点网络。 Ristretto是Caffe的扩展，允许以有限的数值精度测试，训练和微调网络。

近似方案

Ristretto允许三种不同的量化策略来近似卷积神经网络：

动态不动点：修改后的定点格式。
Minifloat：比特宽度减少的浮点数。
二次幂参数：当在硬件中实现时，具有二次幂参数的层不需要任何乘法器。

学习资源

GitHub1

量化cifar_small模型

1. 创建模型训练文件

文件名：cifar_small_train_test.prototxt, 由darknet的cifar_small.cfg改写而来，创建在caffe根目录/examples/cifar10目录下。

name: "CIFAR10_quick"
layer {
  name: "cifar_small"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TRAIN
  }
  transform_param {
    crop_size: 28
    mean_file: "examples/cifar10/mean.binaryproto"
  }
  data_param {
    source: "examples/cifar10/cifar10_train_lmdb"
    batch_size: 128
    backend: LMDB
  }
}
layer {
  name: "cifar_small"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TEST
  }
  transform_param {
    crop_size: 28
    mean_file: "examples/cifar10/mean.binaryproto"
  }
  data_param {
    source: "examples/cifar10/cifar10_test_lmdb"
    batch_size: 128
    backend: LMDB
  }
}
layer {
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1"
  convolution_param {
    num_output: 32
    pad: 1
    kernel_size: 3
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.0001
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
    name: "batch_norm1"
    type: "BatchNorm"
    bottom: "conv1"
    top: "conv1"
    batch_norm_param {
        use_global_stats: false
    }
    include {
        phase: TRAIN
    }
}
layer {
    name: "batch_norm1"
    type: "BatchNorm"
    bottom: "conv1"
    top: "conv1"
    batch_norm_param {
        use_global_stats: true
    }
    include {
        phase: TEST
    }
}
layer {
    name: "scale1"
    type: "Scale"
    bottom: "conv1"
    top: "conv1"
    scale_param {
        bias_term: true
    }
}
layer {
  name: "relu1"
  type: "ReLU"
  bottom: "conv1"
  top: "conv1"
  relu_param{
    negative_slope: 0.1
  }
}
layer {
  name: "pool1"
  type: "Pooling"
  bottom: "conv1"
  top: "pool1"
  pooling_param {
    pool: MAX
    kernel_size: 2
    stride: 2
  }
}
layer {
  name: "conv2"
  type: "Convolution"
  bottom: "pool1"
  top: "conv2"
  convolution_param {
    num_output: 16
    pad: 0
    kernel_size: 1
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
    name: "batch_norm2"
    type: "BatchNorm"
    bottom: "conv2"
    top: "conv2"
    batch_norm_param {
        use_global_stats: false
    }
    include {
        phase: TRAIN
    }
}
layer {
    name: "batch_norm2"
    type: "BatchNorm"
    bottom: "conv2"
    top: "conv2"
    batch_norm_param {
        use_global_stats: true
    }
    include {
        phase: TEST
    }
}
layer {
    name: "scale2"
    type: "Scale"
    bottom: "conv2"
    top: "conv2"
    scale_param {
        bias_term: true
    }
}
layer {
  name: "relu2"
  type: "ReLU"
  bottom: "conv2"
  top: "conv2"
  relu_param{
    negative_slope: 0.1
  }
}
layer {
  name: "conv3"
  type: "Convolution"
  bottom: "conv2"
  top: "conv3"
  convolution_param {
    num_output: 64
    pad: 1
    kernel_size: 3
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
    name: "batch_norm3"
    type: "BatchNorm"
    bottom: "conv3"
    top: "conv3"
    batch_norm_param {
        use_global_stats: false
    }
    include {
        phase: TRAIN
    }
}
layer {
    name: "batch_norm3"
    type: "BatchNorm"
    bottom: "conv3"
    top: "conv3"
    batch_norm_param {
        use_global_stats: true
    }
    include {
        phase: TEST
    }
}
layer {
    name: "scale3"
    type: "Scale"
    bottom: "conv3"
    top: "conv3"
    scale_param {
        bias_term: true
    }
}
layer {
  name: "relu3"
  type: "ReLU"
  bottom: "conv3"
  top: "conv3"
  relu_param{
    negative_slope: 0.1
  }
}
layer {
  name: "pool2"
  type: "Pooling"
  bottom: "conv3"
  top: "pool2"
  pooling_param {
    pool: MAX
    kernel_size: 2
    stride: 2
  }
}
layer {
  name: "conv4"
  type: "Convolution"
  bottom: "pool2"
  top: "conv4"
  convolution_param {
    num_output: 32
    pad: 0
    kernel_size: 1
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
    name: "batch_norm4"
    type: "BatchNorm"
    bottom: "conv4"
    top: "conv4"
    batch_norm_param {
        use_global_stats: false
    }
    include {
        phase: TRAIN
    }
}
layer {
    name: "batch_norm4"
    type: "BatchNorm"
    bottom: "conv4"
    top: "conv4"
    batch_norm_param {
        use_global_stats: true
    }
    include {
        phase: TEST
    }
}
layer {
    name: "scale4"
    type: "Scale"
    bottom: "conv4"
    top: "conv4"
    scale_param {
        bias_term: true
    }
}
layer {
  name: "relu4"
  type: "ReLU"
  bottom: "conv4"
  top: "conv4"
  relu_param{
    negative_slope: 0.1
  }
}
layer {
  name: "conv5"
  type: "Convolution"
  bottom: "conv4"
  top: "conv5"
  convolution_param {
    num_output: 128
    pad: 1
    kernel_size: 3
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
    name: "batch_norm5"
    type: "BatchNorm"
    bottom: "conv5"
    top: "conv5"
    batch_norm_param {
        use_global_stats: false
    }
    include {
        phase: TRAIN
    }
}
layer {
    name: "batch_norm5"
    type: "BatchNorm"
    bottom: "conv5"
    top: "conv5"
    batch_norm_param {
        use_global_stats: true
    }
    include {
        phase: TEST
    }
}
layer {
    name: "scale5"
    type: "Scale"
    bottom: "conv5"
    top: "conv5"
    scale_param {
        bias_term: true
    }
}
layer {
  name: "relu5"
  type: "ReLU"
  bottom: "conv5"
  top: "conv5"
  relu_param{
    negative_slope: 0.1
  }
}
layer {
  name: "conv6"
  type: "Convolution"
  bottom: "conv5"
  top: "conv6"
  convolution_param {
    num_output: 64
    pad: 0
    kernel_size: 1
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
    name: "batch_norm6"
    type: "BatchNorm"
    bottom: "conv6"
    top: "conv6"
    batch_norm_param {
        use_global_stats: false
    }
    include {
        phase: TRAIN
    }
}
layer {
    name: "batch_norm6"
    type: "BatchNorm"
    bottom: "conv6"
    top: "conv6"
    batch_norm_param {
        use_global_stats: true
    }
    include {
        phase: TEST
    }
}
layer {
    name: "scale6"
    type: "Scale"
    bottom: "conv6"
    top: "conv6"
    scale_param {
        bias_term: true
    }
}
layer {
  name: "relu6"
  type: "ReLU"
  bottom: "conv6"
  top: "conv6"
  relu_param{
    negative_slope: 0.1
  }
}
layer {
  name: "conv7"
  type: "Convolution"
  bottom: "conv6"
  top: "conv7"
  convolution_param {
    num_output: 10
    pad: 0
    kernel_size: 1
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
  name: "relu7"
  type: "ReLU"
  bottom: "conv7"
  top: "conv7"
  relu_param{
    negative_slope: 0.1
  }
}
layer {
  name: "pool3"
  type: "Pooling"
  bottom: "conv7"
  top: "pool3"
  pooling_param {
    pool: AVE
    global_pooling: true
  }
}
layer {
  name: "accuracy"
  type: "Accuracy"
  bottom: "pool3"
  bottom: "label"
  top: "accuracy"
  include {
    phase: TEST
  }
}
layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "pool3"
  bottom: "label"
  top: "loss"
}

2. 创建模型训练参数文件

文件名：cifar_small_solver.prototxt，创建在创建在caffe根目录/examples/cifar10目录下。

# reduce the learning rate after 8 epochs (4000 iters) by a factor of 10

# The train/test net protocol buffer definition
net: "examples/cifar10/cifar_small_train_test.prototxt"
# test_iter specifies how many forward passes the test should carry out.
# In the case of MNIST, we have test batch size 100 and 100 test iterations,
# covering the full 10,000 testing images.
test_iter: 100
# Carry out testing every 500 training iterations.
test_interval: 500
# The base learning rate, momentum and the weight decay of the network.
base_lr: 0.1
momentum: 0.9
weight_decay: 0.0005
# The learning rate policy
lr_policy: "poly"
power: 4
# Display every 100 iterations
display: 100
# The maximum number of iterations
max_iter: 5000
# snapshot intermediate results
snapshot: 5000
snapshot_prefix: "examples/cifar10/cifar_small"
# solver mode: CPU or GPU
solver_mode: CPU

3. 开始训练原始模型

执行脚本(caffe 根目录 )
./build/tools/caffe train --solver=examples/cifar10/cifar_small_solver.prototxt
训练结果(5000次)：accuracy = 0.731719

I1220 22:43:28.052917 23562 solver.cpp:239] Iteration 4900 (2.47072 iter/s, 40.474s/100 iters), loss = 0.714026
I1220 22:43:28.053019 23562 solver.cpp:258]     Train net output #0: loss = 0.714026 (* 1 = 0.714026 loss)
I1220 22:43:28.053027 23562 sgd_solver.cpp:112] Iteration 4900, lr = 1.59999e-08
I1220 22:44:08.196622 23562 solver.cpp:468] Snapshotting to binary proto file examples/cifar10/cifar_small_iter_5000.caffemodel
I1220 22:44:08.197582 23562 sgd_solver.cpp:280] Snapshotting solver state to binary proto file examples/cifar10/cifar_small_iter_5000.solverstate
I1220 22:44:08.403373 23562 solver.cpp:331] Iteration 5000, loss = 0.651131
I1220 22:44:08.403400 23562 solver.cpp:351] Iteration 5000, Testing net (#0)
I1220 22:44:10.372725 23565 data_layer.cpp:73] Restarting data prefetching from start.
I1220 22:44:23.157145 23565 data_layer.cpp:73] Restarting data prefetching from start.
I1220 22:44:24.784054 23562 solver.cpp:418]     Test net output #0: accuracy = 0.731719
I1220 22:44:24.784085 23562 solver.cpp:418]     Test net output #1: loss = 0.764806 (* 1 = 0.764806 loss)
I1220 22:44:24.784091 23562 solver.cpp:336] Optimization Done.
I1220 22:44:24.784095 23562 caffe.cpp:250] Optimization Done.

训练结果(10000次)：accuracy = 0.800234

I1224 13:35:49.443615 26921 solver.cpp:239] Iteration 9900 (59.9533 iter/s, 1.66796s/100 iters), loss = 0.491564
I1224 13:35:49.443645 26921 solver.cpp:258]     Train net output #0: loss = 0.491564 (* 1 = 0.491564 loss)
I1224 13:35:49.443652 26921 sgd_solver.cpp:112] Iteration 9900, lr = 9.99996e-10
I1224 13:35:51.090950 26921 solver.cpp:468] Snapshotting to binary proto file examples/cifar10/cifar_small_iter_10000.caffemodel
I1224 13:35:51.093062 26921 sgd_solver.cpp:280] Snapshotting solver state to binary proto file examples/cifar10/cifar_small_iter_10000.solverstate
I1224 13:35:51.097295 26921 solver.cpp:331] Iteration 10000, loss = 0.559846
I1224 13:35:51.097313 26921 solver.cpp:351] Iteration 10000, Testing net (#0)
I1224 13:35:51.197440 26929 data_layer.cpp:73] Restarting data prefetching from start.
I1224 13:35:51.450372 26921 solver.cpp:418]     Test net output #0: accuracy = 0.800234
I1224 13:35:51.450397 26921 solver.cpp:418]     Test net output #1: loss = 0.58406 (* 1 = 0.58406 loss)
I1224 13:35:51.450402 26921 solver.cpp:336] Optimization Done.
I1224 13:35:51.450407 26921 caffe.cpp:250] Optimization Done.

4. 测试训练好的模型

创建测试脚本：vi examples/cifar10/00_test_cifar_small.sh
脚本代码：

#!/usr/bin/env sh

./build/tools/caffe test \
        --model=examples/cifar10/cifar_small_train_test.prototxt \
        --weights=examples/cifar10/cifar_small_iter_5000.caffemodel \
        --iterations=320

测试模型：sh examples/cifar10/00_test_cifar_small.sh
得到测试结果：

I1221 17:05:35.942559  1010 caffe.cpp:304] Batch 319, accuracy = 0.765625
I1221 17:05:35.942585  1010 caffe.cpp:304] Batch 319, loss = 0.762705
I1221 17:05:35.942592  1010 caffe.cpp:309] Loss: 0.765284
I1221 17:05:35.942605  1010 caffe.cpp:321] accuracy = 0.732983
I1221 17:05:35.942616  1010 caffe.cpp:321] loss = 0.765284 (* 1 = 0.765284 loss)

5. 量化模型

5.1 量化cifar_small模型

创建量化脚本文件00_quantize_cifar_small.sh，文件目录：$caffe-master/examples/ristretto/00_quantize_cifar_small.sh。
vi examples/ristretto/00_quantize_cifar_small.sh
脚本代码:

#!/usr/bin/env sh

./build/tools/ristretto quantize \
        --model=examples/cifar10/cifar_small_train_test.prototxt \
        --weights=examples/cifar10/cifar_small_iter_5000.caffemodel \
        --model_quantized=models/cifar_small/RistrettoDemo/quantized.prototxt \
        --trimming_mode=dynamic_fixed_point --iterations=2000 \
        --error_margin=3

其中，model_quantized参数对应的是量化后的文件存放路径，因此需要提前创建examples/cifar_small/RistrettoDemo目录

开始量化：caffe根目录执行如下命令
sh examples/ristretto/00_quantize_cifar10_quick.sh
得到如下结果：

I1221 10:39:21.821512 27270 quantization.cpp:136] Batch 1999, accuracy = 0.0859375
I1221 10:39:21.821568 27270 quantization.cpp:136] Batch 1999, loss = 3.30265
I1221 10:39:21.821573 27270 quantization.cpp:141] Loss: 3.2011
I1221 10:39:21.821578 27270 quantization.cpp:153] accuracy = 0.0999219
I1221 10:39:21.821585 27270 quantization.cpp:153] loss = 3.2011 (* 1 = 3.2011 loss)
I1221 10:39:21.827525 27270 quantization.cpp:276] ------------------------------
I1221 10:39:21.827541 27270 quantization.cpp:277] Network accuracy analysis for
I1221 10:39:21.827545 27270 quantization.cpp:278] Convolutional (CONV) and fully
I1221 10:39:21.827564 27270 quantization.cpp:279] connected (FC) layers.
I1221 10:39:21.827566 27270 quantization.cpp:280] Baseline 32bit float: 0.732895
I1221 10:39:21.827572 27270 quantization.cpp:281] Dynamic fixed point CONV
I1221 10:39:21.827574 27270 quantization.cpp:282] weights: 
I1221 10:39:21.827577 27270 quantization.cpp:284] 16bit: 	0.732895
I1221 10:39:21.827580 27270 quantization.cpp:284] 8bit: 	0.73082
I1221 10:39:21.827596 27270 quantization.cpp:284] 4bit: 	0.471715
I1221 10:39:21.827600 27270 quantization.cpp:287] Dynamic fixed point FC
I1221 10:39:21.827602 27270 quantization.cpp:288] weights: 
I1221 10:39:21.827620 27270 quantization.cpp:290] 16bit: 	0.732895
I1221 10:39:21.827622 27270 quantization.cpp:290] 8bit: 	0.732895
I1221 10:39:21.827625 27270 quantization.cpp:290] 4bit: 	0.732895
I1221 10:39:21.827630 27270 quantization.cpp:290] 2bit: 	0.732895
I1221 10:39:21.827633 27270 quantization.cpp:290] 1bit: 	0.732895
I1221 10:39:21.827636 27270 quantization.cpp:292] Dynamic fixed point layer
I1221 10:39:21.827652 27270 quantization.cpp:293] activations:
I1221 10:39:21.827656 27270 quantization.cpp:295] 16bit: 	0.0999219
I1221 10:39:21.827674 27270 quantization.cpp:298] Dynamic fixed point net:
I1221 10:39:21.827677 27270 quantization.cpp:299] 8bit CONV weights,
I1221 10:39:21.827680 27270 quantization.cpp:300] 1bit FC weights,
I1221 10:39:21.827683 27270 quantization.cpp:301] 32bit layer activations:
I1221 10:39:21.827687 27270 quantization.cpp:302] Accuracy: 0.0999219
I1221 10:39:21.827689 27270 quantization.cpp:303] Please fine-tune.

准确率：Accuracy: 0.0999219，明显量化失败，分析原因…

不服气，验证一下量化后的准确率

创建测试脚本：vi models/cifar_small/00_test_cifar_small_quantized.sh
脚本内容：

#!/usr/bin/env sh

./build/tools/caffe test \
    --model=models/cifar_small/RistrettoDemo/quantized.prototxt \
    --weights=examples/cifar10/cifar_small_iter_5000.caffemodel \
    --iterations=2000

运行脚本：sh models/cifar_small/00_test_cifar_small_quantized.sh
验证结果：

I1221 18:09:04.598676  2917 caffe.cpp:304] Batch 54, accuracy = 0.109375
I1221 18:09:04.598700  2917 caffe.cpp:304] Batch 54, loss = 3.19723
I1221 18:09:07.994002  2917 caffe.cpp:304] Batch 55, accuracy = 0.078125
I1221 18:09:07.994027  2917 caffe.cpp:304] Batch 55, loss = 3.24805
I1221 18:09:11.363610  2917 caffe.cpp:304] Batch 56, accuracy = 0.0859375
I1221 18:09:11.363633  2917 caffe.cpp:304] Batch 56, loss = 3.25478

真的是量化失败，强制停止…

量化失败原因分析

尝试1：自己写的模型文件学习率策略冲突
貌似cifar_small_train_test.prototxt中的param：lr_mult 跟 cifar_small_solver.prototxt的学习策略lr_policy: "poly"有冲突，于是注释cifar_small_train_test.prototxt的所有以下代码块：

param {
	lr_mult: 1
}
param {
	lr_mult: 2
}

再次执行量化脚本，得到以下量化结果，量化依旧未成功。

I1222 05:15:23.697180  5472 quantization.cpp:276] ------------------------------
I1222 05:15:23.697196  5472 quantization.cpp:277] Network accuracy analysis for
I1222 05:15:23.697201  5472 quantization.cpp:278] Convolutional (CONV) and fully
I1222 05:15:23.697204  5472 quantization.cpp:279] connected (FC) layers.
I1222 05:15:23.697207  5472 quantization.cpp:280] Baseline 32bit float: 0.732895
I1222 05:15:23.697213  5472 quantization.cpp:281] Dynamic fixed point CONV
I1222 05:15:23.697216  5472 quantization.cpp:282] weights: 
I1222 05:15:23.697219  5472 quantization.cpp:284] 16bit: 	0.732895
I1222 05:15:23.697223  5472 quantization.cpp:284] 8bit: 	0.73082
I1222 05:15:23.697227  5472 quantization.cpp:284] 4bit: 	0.471715
I1222 05:15:23.697232  5472 quantization.cpp:287] Dynamic fixed point FC
I1222 05:15:23.697234  5472 quantization.cpp:288] weights: 
I1222 05:15:23.697237  5472 quantization.cpp:290] 16bit: 	0.732895
I1222 05:15:23.697242  5472 quantization.cpp:290] 8bit: 	0.732895
I1222 05:15:23.697244  5472 quantization.cpp:290] 4bit: 	0.732895
I1222 05:15:23.697249  5472 quantization.cpp:290] 2bit: 	0.732895
I1222 05:15:23.697252  5472 quantization.cpp:290] 1bit: 	0.732895
I1222 05:15:23.697257  5472 quantization.cpp:292] Dynamic fixed point layer
I1222 05:15:23.697259  5472 quantization.cpp:293] activations:
I1222 05:15:23.697263  5472 quantization.cpp:295] 16bit: 	0.0999219
I1222 05:15:23.697266  5472 quantization.cpp:298] Dynamic fixed point net:
I1222 05:15:23.697269  5472 quantization.cpp:299] 8bit CONV weights,
I1222 05:15:23.697273  5472 quantization.cpp:300] 1bit FC weights,
I1222 05:15:23.697276  5472 quantization.cpp:301] 32bit layer activations:
I1222 05:15:23.697279  5472 quantization.cpp:302] Accuracy: 0.0999219
I1222 05:15:23.697283  5472 quantization.cpp:303] Please fine-tune.

尝试2：利用开源转换工具pytorch-caffe-darknet-convert生成模型文件。

生成后根据Cifar_quick文件稍加修改如下：

name: "CIFAR10_small"
layer {
  name: "cifar"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TRAIN
  }
  transform_param {
    crop_size: 28
    mean_file: "examples/cifar10/mean.binaryproto"
  }
  data_param {
    source: "examples/cifar10/cifar10_train_lmdb"
    batch_size: 128
    backend: LMDB
  }
}
layer {
  name: "cifar"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TEST
  }
  transform_param {
    crop_size: 28
    mean_file: "examples/cifar10/mean.binaryproto"
  }
  data_param {
    source: "examples/cifar10/cifar10_test_lmdb"
    batch_size: 128
    backend: LMDB
  }
}
layer {
    bottom: "data"
    top: "layer1-conv"
    name: "layer1-conv"
    type: "Convolution"
    convolution_param {
        num_output: 32
        kernel_size: 3
        pad: 1
        stride: 1
        bias_term: false
    }
}
layer {
    bottom: "layer1-conv"
    top: "layer1-conv"
    name: "layer1-bn"
    type: "BatchNorm"
    batch_norm_param {
        use_global_stats: true
    }
}
layer {
    bottom: "layer1-conv"
    top: "layer1-conv"
    name: "layer1-scale"
    type: "Scale"
    scale_param {
        bias_term: true
    }
}
layer {
    bottom: "layer1-conv"
    top: "layer1-conv"
    name: "layer1-act"
    type: "ReLU"
    relu_param {
        negative_slope: 0.1
    }
}
layer {
    bottom: "layer1-conv"
    top: "layer2-maxpool"
    name: "layer2-maxpool"
    type: "Pooling"
    pooling_param {
        kernel_size: 2
        stride: 2
        pool: MAX
    }
}
layer {
    bottom: "layer2-maxpool"
    top: "layer3-conv"
    name: "layer3-conv"
    type: "Convolution"
    convolution_param {
        num_output: 16
        kernel_size: 1
        pad: 0
        stride: 1
        bias_term: false
    }
}
layer {
    bottom: "layer3-conv"
    top: "layer3-conv"
    name: "layer3-bn"
    type: "BatchNorm"
    batch_norm_param {
        use_global_stats: true
    }
}
layer {
    bottom: "layer3-conv"
    top: "layer3-conv"
    name: "layer3-scale"
    type: "Scale"
    scale_param {
        bias_term: true
    }
}
layer {
    bottom: "layer3-conv"
    top: "layer3-conv"
    name: "layer3-act"
    type: "ReLU"
    relu_param {
        negative_slope: 0.1
    }
}
layer {
    bottom: "layer3-conv"
    top: "layer4-conv"
    name: "layer4-conv"
    type: "Convolution"
    convolution_param {
        num_output: 64
        kernel_size: 3
        pad: 1
        stride: 1
        bias_term: false
    }
}
layer {
    bottom: "layer4-conv"
    top: "layer4-conv"
    name: "layer4-bn"
    type: "BatchNorm"
    batch_norm_param {
        use_global_stats: true
    }
}
layer {
    bottom: "layer4-conv"
    top: "layer4-conv"
    name: "layer4-scale"
    type: "Scale"
    scale_param {
        bias_term: true
    }
}
layer {
    bottom: "layer4-conv"
    top: "layer4-conv"
    name: "layer4-act"
    type: "ReLU"
    relu_param {
        negative_slope: 0.1
    }
}
layer {
    bottom: "layer4-conv"
    top: "layer5-maxpool"
    name: "layer5-maxpool"
    type: "Pooling"
    pooling_param {
        kernel_size: 2
        stride: 2
        pool: MAX
    }
}
layer {
    bottom: "layer5-maxpool"
    top: "layer6-conv"
    name: "layer6-conv"
    type: "Convolution"
    convolution_param {
        num_output: 32
        kernel_size: 1
        pad: 0
        stride: 1
        bias_term: false
    }
}
layer {
    bottom: "layer6-conv"
    top: "layer6-conv"
    name: "layer6-bn"
    type: "BatchNorm"
    batch_norm_param {
        use_global_stats: true
    }
}
layer {
    bottom: "layer6-conv"
    top: "layer6-conv"
    name: "layer6-scale"
    type: "Scale"
    scale_param {
        bias_term: true
    }
}
layer {
    bottom: "layer6-conv"
    top: "layer6-conv"
    name: "layer6-act"
    type: "ReLU"
    relu_param {
        negative_slope: 0.1
    }
}
layer {
    bottom: "layer6-conv"
    top: "layer7-conv"
    name: "layer7-conv"
    type: "Convolution"
    convolution_param {
        num_output: 128
        kernel_size: 3
        pad: 1
        stride: 1
        bias_term: false
    }
}
layer {
    bottom: "layer7-conv"
    top: "layer7-conv"
    name: "layer7-bn"
    type: "BatchNorm"
    batch_norm_param {
        use_global_stats: true
    }
}
layer {
    bottom: "layer7-conv"
    top: "layer7-conv"
    name: "layer7-scale"
    type: "Scale"
    scale_param {
        bias_term: true
    }
}
layer {
    bottom: "layer7-conv"
    top: "layer7-conv"
    name: "layer7-act"
    type: "ReLU"
    relu_param {
        negative_slope: 0.1
    }
}
layer {
    bottom: "layer7-conv"
    top: "layer8-conv"
    name: "layer8-conv"
    type: "Convolution"
    convolution_param {
        num_output: 64
        kernel_size: 1
        pad: 0
        stride: 1
        bias_term: false
    }
}
layer {
    bottom: "layer8-conv"
    top: "layer8-conv"
    name: "layer8-bn"
    type: "BatchNorm"
    batch_norm_param {
        use_global_stats: true
    }
}
layer {
    bottom: "layer8-conv"
    top: "layer8-conv"
    name: "layer8-scale"
    type: "Scale"
    scale_param {
        bias_term: true
    }
}
layer {
    bottom: "layer8-conv"
    top: "layer8-conv"
    name: "layer8-act"
    type: "ReLU"
    relu_param {
        negative_slope: 0.1
    }
}
layer {
    bottom: "layer8-conv"
    top: "layer9-conv"
    name: "layer9-conv"
    type: "Convolution"
    convolution_param {
        num_output: 10
        kernel_size: 1
        pad: 0
        stride: 1
        bias_term: true
    }
}
layer {
    bottom: "layer9-conv"
    top: "layer9-conv"
    name: "layer9-act"
    type: "ReLU"
    relu_param {
        negative_slope: 0.1
    }
}
layer {
    bottom: "layer9-conv"
    top: "layer10-avgpool"
    name: "layer10-avgpool"
    type: "Pooling"
    pooling_param {
        kernel_size: 7
        stride: 1
        pool: AVE
    }
}
layer {
  name: "accuracy"
  type: "Accuracy"
  bottom: "layer10-avgpool"
  bottom: "label"
  top: "accuracy"
  include {
    phase: TEST
  }
}
layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "layer10-avgpool"
  bottom: "label"
  top: "loss"
}

未初始化weights

Iteration 4500, Testing net (#0)
I0111 14:16:08.761826 19467 data_layer.cpp:73] Restarting data prefetching from start.
I0111 14:16:09.313390 19395 solver.cpp:418]     Test net output #0: accuracy = 0.100469
I0111 14:16:09.313412 19395 solver.cpp:418]     Test net output #1: loss = 2.30259 (* 1 = 2.30259 loss)

必须添加weight_filler参数：

weight_filler {
      type: "gaussian"
      std: 0.01
    }

batchnorm不规范：不收敛，反而准确率高，肯定有问题。更多细节参考问题答疑第一部分和博客：BatchNorm layer设定。

Iteration 10000, loss = 87.3365
I0111 14:35:35.405905  1456 solver.cpp:351] Iteration 10000, Testing net (#0)
I0111 14:35:35.612701  1462 data_layer.cpp:73] Restarting data prefetching from start.
I0111 14:35:36.156333  1456 solver.cpp:418]     Test net output #0: accuracy = 1
I0111 14:35:36.156356  1456 solver.cpp:418]     Test net output #1: loss = 87.3365 (* 1 = 87.3365 loss)

重新进行训练得到预期的训练效果：accuracy = 0.726797

0111 15:07:42.618531   552 sgd_solver.cpp:112] Iteration 9900, lr = 9.99996e-10
I0111 15:07:46.647879   552 solver.cpp:468] Snapshotting to binary proto file models/cifar_small/darknet2caffe/cifar_small_solver_iter_10000.caffemodel
I0111 15:07:46.649987   552 sgd_solver.cpp:280] Snapshotting solver state to binary proto file models/cifar_small/darknet2caffe/cifar_small_solver_iter_10000.solverstate
I0111 15:07:46.661846   552 solver.cpp:331] Iteration 10000, loss = 0.704111
I0111 15:07:46.661859   552 solver.cpp:351] Iteration 10000, Testing net (#0)
I0111 15:07:46.947620   558 data_layer.cpp:73] Restarting data prefetching from start.
I0111 15:07:47.472630   552 solver.cpp:418]     Test net output #0: accuracy = 0.726797
I0111 15:07:47.472651   552 solver.cpp:418]     Test net output #1: loss = 0.77728 (* 1 = 0.77728 loss)
I0111 15:07:47.472656   552 solver.cpp:336] Optimization Done.
I0111 15:07:47.472659   552 caffe.cpp:250] Optimization Done.

但是darknet的训练效果更好,应该是更多的细节没有考虑到。

# 1: lr = 0.1; 2,3:lr = 0.2 
#------------------------max_batches = 10000----------------------------------
# train
10000, 25.600: 0.669140, 0.579837 avg, 0.000000 rate, 0.024381 seconds, 1280000 images
# valid
9999: top 1: 0.784900, top 2: 0.907100

# Gpu-train
forward_softmax_layer_gpu cost = 63.9296
10000, 25.600: 0.499450, 0.588345 avg, 0.000000 rate, 0.024301 seconds, 1280000 images
# Gpu-valid
9999: top 1: 0.791900, top 2: 0.908900

#------------------------max_batches = 20000----------------------------------
# train
forward_softmax_layer_gpu cost = 42.4485
20000, 51.200: 0.331629, 0.452693 avg, 0.000000 rate, 0.024326 seconds, 2560000 images
# valid 
9999: top 1: 0.820700, top 2: 0.926000

# cpu-train
20000, 51.200: 0.467073, 0.435266 avg, 0.000000 rate, 0.646882 seconds, 2560000 images
# cpu-valid
9999: top 1: 0.823600, top 2: 0.928000

# 1
20000, 51.200: 0.462403, 0.437111 avg, 0.000000 rate, 0.025494 seconds, 2560000 images
9999: top 1: 0.822500, top 2: 0.929900

# 2
20000, 51.200: 0.536238, 0.423880 avg, 0.000000 rate, 0.025418 seconds, 2560000 images
9999: top 1: 0.827000, top 2: 0.933500

# 3
20000, 51.200: 0.450796, 0.427930 avg, 0.000000 rate, 0.025619 seconds, 2560000 images
9999: top 1: 0.825500, top 2: 0.930900

#------------------------max_batches = 30000----------------------------------
# 1
# train
forward_softmax_layer_gpu cost = 38.3523
30000, 76.800: 0.299627, 0.361766 avg, 0.000000 rate, 0.024431 seconds, 3840000 images
# valid 
9999: top 1: 0.838800, top 2: 0.936200

# 2
30000, 76.800: 0.424442, 0.374467 avg, 0.000000 rate, 0.025370 seconds, 3840000 images
9999: top 1: 0.845500, top 2: 0.942400

# 3
30000, 76.800: 0.411451, 0.361035 avg, 0.000000 rate, 0.025524 seconds, 3840000 images
9999: top 1: 0.843500, top 2: 0.938600

#------------------------max_batches = 40000----------------------------------
# 1
# train
forward_softmax_layer_gpu cost = 32.8497
40000, 102.400: 0.256639, 0.335073 avg, 0.000000 rate, 0.024441 seconds, 5120000 images
# valid 
9999: top 1: 0.845800, top 2: 0.939000

# 2
40000, 102.400: 0.320675, 0.325991 avg, 0.000000 rate, 0.025444 seconds, 5120000 images
9999: top 1: 0.850300, top 2: 0.942700

# 3
40000, 102.400: 0.375832, 0.322458 avg, 0.000000 rate, 0.026347 seconds, 5120000 images
9999: top 1: 0.848900, top 2: 0.941400

#-----------------------max_batches = 50000-----------------------------------
# 1
# train
forward_softmax_layer_gpu cost = 41.0163
50000, 128.000: 0.320440, 0.307838 avg, 0.000000 rate, 0.024387 seconds, 6400000 images
# valid 
9999: top 1: 0.847600, top 2: 0.944800

# 2
50000, 128.000: 0.478606, 0.321987 avg, 0.000000 rate, 0.025830 seconds, 6400000 images
9999: top 1: 0.852700, top 2: 0.944700

# 3
50000, 128.000: 0.280483, 0.286663 avg, 0.000000 rate, 0.025281 seconds, 6400000 images
9999: top 1: 0.853600, top 2: 0.942700

与darknet不同与未实现之处如下：

darknet的权重初始化方式(出处)：

float scale = sqrt(2./(size*size*c));
    //scale = .02;
    //for(i = 0; i < c*n*size*size; ++i) l.weights[i] = scale*rand_uniform(-1, 1);
    // 初始化权重：缩放因子*标准正态分布随机数，缩放因子等于sqrt(2./(size*size*c))，为什么取这个值呢？？
    // 此处初始化权重为正态分布，而在全连接层make_connected_layer()中初始化权重是均匀分布的。
    // TODO：个人感觉，这里应该加一个if条件语句：if(weightfile)，因为如果导入了预训练权重文件，就没有必要这样初始化了（事实上在detector.c的train_detector()函数中，
    // 紧接着parse_network_cfg()函数之后，就添加了if(weightfile)语句判断是否导入权重系数文件，如果导入了权重系数文件，也许这里初始化的值也会覆盖掉，
    // 总之这里的权重初始化的处理方式还是值得思考的，也许更好的方式是应该设置专门的函数进行权重的初始化，同时偏置也是，不过这里似乎没有考虑偏置的初始化，在make_connected_layer()中倒是有。。。）
for(i = 0; i < c*n*size*size; ++i) l.weights[i] = scale*rand_normal();

在forward_convolutional_layer中batchnorm的处理方式

if(l.batch_normalize){
        forward_batchnorm_layer(l, net);	
    } else {
        add_bias(l.output, l.biases, l.batch, l.n, l.out_h*l.out_w);
    }

    activate_array(l.output, l.outputs*l.batch, l.activation);

void forward_batchnorm_layer(layer l, network net)
{
    if(l.type == BATCHNORM) copy_cpu(l.outputs*l.batch, net.input, 1, l.output, 1);
    copy_cpu(l.outputs*l.batch, l.output, 1, l.x, 1);
    if(net.train){
        mean_cpu(l.output, l.batch, l.out_c, l.out_h*l.out_w, l.mean);
        variance_cpu(l.output, l.mean, l.batch, l.out_c, l.out_h*l.out_w, l.variance);

        scal_cpu(l.out_c, .99, l.rolling_mean, 1);
        axpy_cpu(l.out_c, .01, l.mean, 1, l.rolling_mean, 1);
        scal_cpu(l.out_c, .99, l.rolling_variance, 1);
        axpy_cpu(l.out_c, .01, l.variance, 1, l.rolling_variance, 1);

        normalize_cpu(l.output, l.mean, l.variance, l.batch, l.out_c, l.out_h*l.out_w);   
        copy_cpu(l.outputs*l.batch, l.output, 1, l.x_norm, 1);
    } else {
        normalize_cpu(l.output, l.rolling_mean, l.rolling_variance, l.batch, l.out_c, l.out_h*l.out_w);
    }
    scale_bias(l.output, l.scales, l.batch, l.out_c, l.out_h*l.out_w);
    add_bias(l.output, l.biases, l.batch, l.out_c, l.out_h*l.out_w);
}

若有大神知道，恳请告知～～

合并BatchNorm层

公司的老师说ristretto不支持batchnorm，因此用以下脚本remove_batchnorm.py合并batchnorm层。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import caffe
import numpy as np
import sys, getopt
import caffe.proto.caffe_pb2 as caffe_pb2
import google.protobuf.text_format as txtf

#################################################################################

def parse_prototxt(model_in, model_out):
    # initialize net parameter
    net_param = caffe_pb2.NetParameter()

    # parse file and link to net parameter
    with open(model_in) as f:
        s = f.read()
        txtf.Merge(s, net_param)

    # shortcut to layer and do sanity check
    layers = net_param.layer
    layer_num = len(layers)
    layer_list = []
    if len(layers) == 0:
        raise NotImplementedError('Convert model def prototxt to use new caffe '
                                  'format (layer not layers) [%s]' % model_in)

    # delete batch_norm and scale layers
    del_list = []
    for i in range(0, layer_num):
        l = layers[i]
        layer_list.append(l.name)

        # remove BatchNorm and Scale layers when seeing 3 consecutive layers are
        # Convolution->BatchNorm->Scale
        # Then, update next layer's bottom from "Scale layer's top" to "Convolution layer's top"
        if l.type.find('Convolution')>=0 or l.type.find('Deconvolution')>=0:
            if ((i + 1) < layer_num and  layers[i+1].type == 'BatchNorm'):
                if ((i + 2) < layer_num and  layers[i+2].type == 'Scale'):
                    del_list.append(i+1)
                    del_list.append(i+2)
                    l.convolution_param.bias_term = True

                    # network graph handling
                    top_name_old = layers[i+2].top[0]
                    top_name_new = layers[i].top[0]
                    if ((i + 3) < layer_num) and (top_name_new!=top_name_old):
                        for j in range(i + 3, layer_num):
                            n = layers[j]
                            for k in range(len(n.bottom)):
                                if(n.bottom[k]==top_name_old):
                                    n.bottom[k]=top_name_new
                                    break

    # check delete list content
    #print(del_list)

    # remove the layers listed in delete list
    # from last to the beginning because the index and size will change immediately
    # after delete and that will lead to wrong index mapping
    for i in range(len(del_list)-1, -1, -1):
        j = del_list[i]
        #print ('delete layer: ', j)
        del layers[j]

    # chceck results
    #for i in range(0, len(layers)):
    #    print (i, layers[i].type)

    # write file
    with open(model_out, 'w') as f:
        f.write(str(net_param))

#################################################################################

def merge_conv_bn_scale_weights(weight_in, bn_mean, bn_var, bn_scale,
                                sc_scale, sc_bias, eps=0.00001):

#    eps = 0.00001
#    new_scale = sc_scale / ((bn_var + eps) ** 0.5)
#    print bn_scale
#    tmp = (((bn_var/bn_scale) + eps) ** 0.5)
    new_scale = sc_scale / (((bn_var/bn_scale) + eps) ** 0.5)
    new_bias  = sc_bias - new_scale * bn_mean / bn_scale

    return new_scale, new_bias
#    weight_out = np.zeros(weight_in.shape)
#    weight_out = weight_in * new_scale
#    bias_out   = new_bias

#    return weight_out, bias_out

def convert_weight(model, out_model, weight, out_weight):

    if 1: # default value
        net_in  = caffe.Net(model, weight, caffe.TEST)
        net_out = caffe.Net(out_model, caffe.TEST)
    else:
        net_in  = caffe.Net(model, weight, caffe.TRAIN)
        net_out = caffe.Net(out_model, caffe.TRAIN)

    
    # initialize net parameter
    net_param = caffe_pb2.NetParameter()

    # parse file and link to net parameter
    with open(model) as f:
        s = f.read()
        txtf.Merge(s, net_param)

    layer_list = []
    list_size = len(net_param.layer)
    for i in range(list_size):
        l = net_param.layer[i]
        layer_list.append(l.name)

    # need params[][].data and net_param to complete the work
    param_list = net_in.params.keys()
    params = net_in.params
    params_out = net_out.params
    pr_idx = 0
    while pr_idx < len(param_list):
        pr = list(param_list)[pr_idx]
        lidx = layer_list.index(pr) # use name to find layer index
        l = net_param.layer[lidx]
        #print (pr_idx, pr, lidx, l.type)

        if l.type.find('Convolution')>=0 or l.type.find('Deconvolution')>=0:
            update = 0
            if ((lidx + 1 < list_size) and (net_param.layer[lidx+1].type == 'BatchNorm')):
                if ((lidx + 2 < list_size) and (net_param.layer[lidx+2].type == 'Scale')):
                    dim = net_in.params[pr][0].data.shape
                    bn_name = net_param.layer[lidx+1].name
                    sc_name = net_param.layer[lidx+2].name

                    update = 1
                    out_dim = dim[1] if l.type.find('Deconvolution')>=0 else dim[0]
                    for i in range(0, out_dim): # for each output channel
                        if l.type.find('Deconvolution')>=0:
                            weight_in = params[pr][0].data.transpose(1, 0, 2, 3)[i]
                            weight_out = params_out[pr][0].data.transpose(1, 0, 2, 3)[i]
                        else:
                            weight_in = params[pr][0].data[i]
                            weight_out = params_out[pr][0].data[i]
                        bn_mean   = params[bn_name][0].data[i]
                        bn_var    = params[bn_name][1].data[i]
                        bn_scale  = params[bn_name][2].data[0]
                        sc_scale  = params[sc_name][0].data[i]
                        sc_bias   = params[sc_name][1].data[i]
                        bn_eps    = net_param.layer[lidx+1].batch_norm_param.eps

                        s, b = merge_conv_bn_scale_weights(weight_in, bn_mean, bn_var, bn_scale,
                                                           sc_scale, sc_bias,
                                                           bn_eps)
                        params_out[pr][1].data[i] = b
                        weight_out[...] = weight_in[...] * s
                    pr_idx = pr_idx + 2
            # for last conv layer which is not paired with bn and scale
            if update == 0:
                for i in range(len(params_out[pr])):
                    params_out[pr][i].data[...] = params[pr][i].data[...].copy()
        else:
            for i in range(len(params_out[pr])):
                params_out[pr][i].data[...] = params[pr][i].data[...].copy()
        pr_idx = pr_idx + 1
    # save caffemodel
    net_out.save(out_weight)

#################################################################################

def main(argv):
    model = ''
    weight = ''
    out_model = ''
    out_weight = ''

    # parse files
    try:
        opts, args = getopt.getopt(argv, "hm:w:o:c:")
        print( opts )
    except getopt.GetoptError:
        print( 'convert_proto.py -m  -w  -o  -c ' )
        sys.exit(2)

    for opt, arg in opts:
        if opt == '-h':
            print( 'convert_proto.py -m  -w  -o  -c ' )
            sys.exit()
        elif opt == "-m":
            model = arg
        elif opt == "-w":
            weight = arg
        elif opt == "-o":
            out_model = arg
        elif opt == "-c":
            out_weight = arg

    # cpu mode
    #caffe.set_device(0)  # if we have multiple GPUs, pick the first one
    caffe.set_mode_cpu()

    # print filenames
    print ("")
    print ('model_in = ', model)
    print ('weight_in= ', weight)
    print ('model_out= ', out_model)
    print ('weight_out=', out_weight)


    # parse model_in and write model_out (prototxt)
    # remove BatchNorm and Scale layers
    parse_prototxt(model, out_model)

    # load new prototxt, convert old weight to new weight, save new
    # caffemodel.
    convert_weight(model, out_model, weight, out_weight)


if __name__=='__main__':
    main(sys.argv[1:])

5.2 Caffe自带的cifar10_quick模型

测试量化好的cifar10_quick模型

执行测试脚本
sh models/cifar10_quick/00_test_cifar_quick_quantized.sh
脚本代码

#!/usr/bin/env sh

./build/tools/caffe test \
--model=models/cifar10_quick/RistrettoDemo/quantized.prototxt \
--weights=examples/cifar10/cifar10_quick_iter_5000.caffemodel.h5 \
--iterations=200

cifar10_quick模型量化好的quantized.prototxt文件内容如下：

name: "CIFAR10_quick"
layer {
  name: "cifar"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TRAIN
  }
  transform_param {
    mean_file: "examples/cifar10/mean.binaryproto"
  }
  data_param {
    source: "examples/cifar10/cifar10_train_lmdb"
    batch_size: 100
    backend: LMDB
  }
}
layer {
  name: "cifar"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TEST
  }
  transform_param {
    mean_file: "examples/cifar10/mean.binaryproto"
  }
  data_param {
    source: "examples/cifar10/cifar10_test_lmdb"
    batch_size: 100
    backend: LMDB
  }
}
layer {
  name: "conv1"
  type: "ConvolutionRistretto"
  bottom: "data"
  top: "conv1"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 32
    pad: 2
    kernel_size: 5
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.0001
    }
    bias_filler {
      type: "constant"
    }
  }
  quantization_param {
    bw_layer_in: 8
    bw_layer_out: 8
    bw_params: 4
    fl_layer_in: 0
    fl_layer_out: -1
    fl_params: 5
  }
}
layer {
  name: "pool1"
  type: "Pooling"
  bottom: "conv1"
  top: "pool1"
  pooling_param {
    pool: MAX
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "relu1"
  type: "ReLU"
  bottom: "pool1"
  top: "pool1"
}
layer {
  name: "conv2"
  type: "ConvolutionRistretto"
  bottom: "pool1"
  top: "conv2"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 32
    pad: 2
    kernel_size: 5
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
  quantization_param {
    bw_layer_in: 8
    bw_layer_out: 8
    bw_params: 4
    fl_layer_in: -1
    fl_layer_out: -1
    fl_params: 6
  }
}
layer {
  name: "relu2"
  type: "ReLU"
  bottom: "conv2"
  top: "conv2"
}
layer {
  name: "pool2"
  type: "Pooling"
  bottom: "conv2"
  top: "pool2"
  pooling_param {
    pool: AVE
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "conv3"
  type: "ConvolutionRistretto"
  bottom: "pool2"
  top: "conv3"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  convolution_param {
    num_output: 64
    pad: 2
    kernel_size: 5
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.01
    }
    bias_filler {
      type: "constant"
    }
  }
  quantization_param {
    bw_layer_in: 8
    bw_layer_out: 8
    bw_params: 4
    fl_layer_in: 0
    fl_layer_out: 2
    fl_params: 6
  }
}
layer {
  name: "relu3"
  type: "ReLU"
  bottom: "conv3"
  top: "conv3"
}
layer {
  name: "pool3"
  type: "Pooling"
  bottom: "conv3"
  top: "pool3"
  pooling_param {
    pool: AVE
    kernel_size: 3
    stride: 2
  }
}
layer {
  name: "ip1"
  type: "FcRistretto"
  bottom: "pool3"
  top: "ip1"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  inner_product_param {
    num_output: 64
    weight_filler {
      type: "gaussian"
      std: 0.1
    }
    bias_filler {
      type: "constant"
    }
  }
  quantization_param {
    bw_layer_in: 8
    bw_layer_out: 8
    bw_params: 4
    fl_layer_in: 2
    fl_layer_out: 3
    fl_params: 4
  }
}
layer {
  name: "ip2"
  type: "FcRistretto"
  bottom: "ip1"
  top: "ip2"
  param {
    lr_mult: 1
  }
  param {
    lr_mult: 2
  }
  inner_product_param {
    num_output: 10
    weight_filler {
      type: "gaussian"
      std: 0.1
    }
    bias_filler {
      type: "constant"
    }
  }
  quantization_param {
    bw_layer_in: 8
    bw_layer_out: 8
    bw_params: 4
    fl_layer_in: 3
    fl_layer_out: 3
    fl_params: 4
  }
}
layer {
  name: "accuracy"
  type: "Accuracy"
  bottom: "ip2"
  bottom: "label"
  top: "accuracy"
  include {
    phase: TEST
  }
}
layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "ip2"
  bottom: "label"
  top: "loss"
}

cifar10_quick模型的量化后的测试结果如下(未finetune): accuracy = 0.7099

I1224 17:24:28.137130 31540 caffe.cpp:304] Batch 199, accuracy = 0.76
I1224 17:24:28.137156 31540 caffe.cpp:304] Batch 199, loss = 0.73176
I1224 17:24:28.137163 31540 caffe.cpp:309] Loss: 0.865315
I1224 17:24:28.137190 31540 caffe.cpp:321] accuracy = 0.7099
I1224 17:24:28.137203 31540 caffe.cpp:321] loss = 0.865315 (* 1 = 0.865315 loss)

验证cifar10_quick的原始准确率

执行验证脚本：
sh examples/cifar10/00_test_cifar10_quick.sh
脚本代码：

#!/usr/bin/env sh

./build/tools/caffe test \
--model=examples/cifar10/cifar10_quick_train_test.prototxt \
--weights=examples/cifar10/cifar10_quick_iter_5000.caffemodel.h5 \
--iterations=320

验证结果：accuracy = 0.758562

I1224 17:54:21.790515  1264 caffe.cpp:304] Batch 319, accuracy = 0.68
I1224 17:54:21.790540  1264 caffe.cpp:304] Batch 319, loss = 0.944417
I1224 17:54:21.790546  1264 caffe.cpp:309] Loss: 0.73186
I1224 17:54:21.790558  1264 caffe.cpp:321] accuracy = 0.758562
I1224 17:54:21.790570  1264 caffe.cpp:321] loss = 0.73186 (* 1 = 0.73186 loss)

finetune cifar10_quick 模型

执行微调脚本
sh examples/ristretto/01_finetune_cifar10_quick.sh
脚本代码(01_finetune_cifar10_quick.sh)：

#!/usr/bin/env sh

./build/tools/caffe train \
--solver=models/cifar10_quick/RistrettoDemo/cifar10_quick_solver_finetune.prototxt \
--weights=examples/cifar10/cifar10_quick_iter_5000.caffemodel.h5

微调方案(cifar10_quick_solver_finetune.prototxt)，内容如下：

# Ristretto cifar10_quick example
# Fine-tuning of 8-bit dynamic fixed point network

# The train/test net protocol buffer definition
# test_iter specifies how many forward passes the test should carry out.
test_iter: 2000
# Carry out testing every 100 training iterations.
test_interval: 100
# The base learning rate, momentum and the weight decay of the network.
base_lr: 0.000001
# Display every 100 iterations
display: 100
# The maximum number of iterations
max_iter: 2000
iter_size: 32 #global batch size = batch_size * iter_size
# The learning rate policy
lr_policy: "fixed"
momentum: 0.9
delta: 0.00000001
weight_decay: 0.0002
# snapshot intermediate results
snapshot: 100
snapshot_prefix: "models/cifar10_quick/RistrettoDemo/cifar10_quick"
# solver mode: CPU or GPU
solver_mode: CPU
random_seed: 42
net: "models/cifar10_quick/RistrettoDemo/quantized.prototxt"
average_loss: 40
test_initialization: true
solver_type: ADAM

微调结果：accuracy = 0.716696

I1224 18:26:02.715363 29887 solver.cpp:418]     Test net output #0: accuracy = 0.716696
I1224 18:26:02.715381 29887 solver.cpp:418]     Test net output #1: loss = 0.814206 (* 1 = 0.814206 loss)
I1224 18:26:02.715385 29887 solver.cpp:336] Optimization Done.
I1224 18:26:02.715389 29887 caffe.cpp:250] Optimization Done.

验证量化后的**cifar10_quick(已finetune)**的准确率

更改量化后的caffemodel文件名

cp models/cifar10_quick/RistrettoDemo/cifar10_quick_iter_2000.caffemodel models/cifar10_quick/RistrettoDemo/cifar10_quick_finetuned.caffemodel

脚本文件(examples/ristretto/02_benchmark_fixedpoint_cifar10_quick.sh
):

#!/usr/bin/env sh

./build/tools/caffe test \
         --model=models/cifar10_quick/RistrettoDemo/quantized.prototxt \                                                    
	     --weights=models/cifar10_quick/RistrettoDemo/cifar10_quick_finetuned.caffemodel \
         --gpu=0 --iterations=2000

问题答疑

模型文件转换：darknet的cfg文件转换成caffe的prototxt文件

卷积层重写

# darknet 的cfg文件
[convolutional]
batch_normalize=1
filters=32
size=3
stride=1
pad=1
activation=leaky

对应于caffe的prototxt文件：

# caffe的prototxt书写
layer {
  name: "conv1"
  type: "Convolution"
  bottom: "data"
  top: "conv1"
  convolution_param {
    num_output: 32
    pad: 1
    kernel_size: 3
    stride: 1
    weight_filler {
      type: "gaussian"
      std: 0.0001
    }
    bias_filler {
      type: "constant"
    }
  }
}
layer {
    name: "batch_norm1"
    type: "BatchNorm"
    bottom: "conv1"
    top: "conv1"
    batch_norm_param {
        use_global_stats: false
    }
    include {
        phase: TRAIN
    }
}
layer {
    name: "batch_norm1"
    type: "BatchNorm"
    bottom: "conv1"
    top: "conv1"
    batch_norm_param {
        use_global_stats: true
    }
    include {
        phase: TEST
    }
}
layer {
    name: "scale1"
    type: "Scale"
    bottom: "conv1"
    top: "conv1"
    scale_param {
        bias_term: true
    }
}
layer {
  name: "relu1"
  type: "ReLU"
  bottom: "conv1"
  top: "conv1"
  relu_param{
    negative_slope: 0.1
  }
}

为什么caffe的BatchNorm要分成batchnorm和Scale两个层？

use_global_stats：如果为真，则使用保存的均值和方差，否则采用滑动平均计算新的均值和方差。该参数缺省的时候，如果是测试阶段则等价为真，如果是训练阶段则等价为假。

参考：
- 博客：caffe常用层：batchNorm使用
- BatchNorm layer设定
- 博客：caffe 中 BatchNorm layer设定
- GitHub:KaimingHe/deep-residual-networks的书写

你可能感兴趣的:(深度学习)

TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&