知来者逆

Ubuntu 16.04下Caffe-SSD的应用（四）——ssd_pascal.py源码解读

前言

caffe-ssd所有的训练时的参数，全部由ssd_pascal.py来定义，之后再去调用相关的脚本和函数，所以想要训练自己的数据，首先要明白ssd_pascal.py各个定义参数的大体意思。

ssd_pascal.py源码解读

from __future__ import print_function
import caffe
from caffe.model_libs import *
from google.protobuf import text_format

import math
import os
import shutil
import stat
import subprocess
import sys
 
# 给基准网络后面增加额外的卷积层（为了避免此处的卷积层的名称和基准网络卷积层的名称重复，
#这里可以用基准网络最后一个层的名称进行开始命名），这一部分的具体实现方法可以对照文件
#~/caffe/python/caffe/model_libs.py查看，SSD的实现基本上就是ssd_pascal.py和model_libs.py
#两个文件在控制，剩下的则是caffe底层代码中编写各个功能模块。
def AddExtraLayers(net, use_batchnorm=True):
    use_relu = True
    
#生成附加网络的第一个卷积层，卷积核的数量为256，卷积核的大小为1*1,pad的尺寸为0，stride为1.
# 获得基准网络的最后一层，作为conv6-1层的输入
    from_layer = net.keys()[-1]
    # TODO(weiliu89): Construct the name using the last layer to avoid duplication.
    out_layer = "conv6_1"
    #conv6_1生成完毕
    ConvBNLayer(net, from_layer, out_layer, use_batchnorm, use_relu, 256, 1, 0, 1)

#生成附加网络的第一个卷积层，卷积核的数量为512，卷积核的大小为3*3,pad的尺寸为1，stride为2.
    from_layer = out_layer
    out_layer = "conv6_2"
    #conv6_2生成完毕
    ConvBNLayer(net, from_layer, out_layer, use_batchnorm, use_relu, 512, 3, 1, 2)

#conv7_1到conv9_2的生成
    for i in xrange(7, 9):
      from_layer = out_layer
      out_layer = "conv{}_1".format(i)
      ConvBNLayer(net, from_layer, out_layer, use_batchnorm, use_relu, 128, 1, 0, 1)

      from_layer = out_layer
      out_layer = "conv{}_2".format(i)
      ConvBNLayer(net, from_layer, out_layer, use_batchnorm, use_relu, 256, 3, 1, 2)

    #添加全局池层
    name = net.keys()[-1]
    net.pool6 = L.Pooling(net[name], pool=P.Pooling.AVE, global_pooling=True)

    return net


### 相应地修改一下参数 ###  
# 包含caffe代码的路径  
# 假设当前路径是在caffe跟目录下运行代码
caffe_root = os.getcwd()  #获取caffe的根目录  

#在生成所有训练文件之后就开始训练，这里run_soon给予参数Ture.  
run_soon = True
#如果接着上次的训练，继续进行训练，这里的参数为Ture，（就是训练一半停止了，重新启动的时候，这里的Ture保证继续接着上次的训练进行训练）
#否则为False，表示将从下面定义的预训练模型处进行加载。（这个表示就是不管上次训练一半的模型，直接从预训练好的基准模型哪里开始训练）  
resume_training = True
# 如果是Ture的话，表示要移除旧的模型训练文件，否则是不移除的。 
remove_old_models = False

#如果想用CPU进行训练，设置为TRUE
use_cpu = False

#训练数据的数据库文件，就是create_data.sh生成的trainval_lmdb文件
train_data = "data/VOC0712/trainval_lmdb"
#测试数据的数据库文件，就是create_data.sh生成的test_lmdb文件
test_data = "data/VOC0712/test_lmdb"
# 指定批量采样器，可以改成500X500
resize_width = 300
resize_height = 300
resize = "{}x{}".format(resize_width, resize_height)
batch_sampler = [
        {
                'sampler': {
                        },
                'max_trials': 1,
                'max_sample': 1,
        },
        {
                'sampler': {
                        'min_scale': 0.3,
                        'max_scale': 1.0,
                        'min_aspect_ratio': 0.5,
                        'max_aspect_ratio': 2.0,
                        },
                'sample_constraint': {
                        'min_jaccard_overlap': 0.1,
                        },
                'max_trials': 50,
                'max_sample': 1,
        },
        {
                'sampler': {
                        'min_scale': 0.3,
                        'max_scale': 1.0,
                        'min_aspect_ratio': 0.5,
                        'max_aspect_ratio': 2.0,
                        },
                'sample_constraint': {
                        'min_jaccard_overlap': 0.3,
                        },
                'max_trials': 50,
                'max_sample': 1,
        },
        {
                'sampler': {
                        'min_scale': 0.3,
                        'max_scale': 1.0,
                        'min_aspect_ratio': 0.5,
                        'max_aspect_ratio': 2.0,
                        },
                'sample_constraint': {
                        'min_jaccard_overlap': 0.5,
                        },
                'max_trials': 50,
                'max_sample': 1,
        },
        {
                'sampler': {
                        'min_scale': 0.3,
                        'max_scale': 1.0,
                        'min_aspect_ratio': 0.5,
                        'max_aspect_ratio': 2.0,
                        },
                'sample_constraint': {
                        'min_jaccard_overlap': 0.7,
                        },
                'max_trials': 50,
                'max_sample': 1,
        },
        {
                'sampler': {
                        'min_scale': 0.3,
                        'max_scale': 1.0,
                        'min_aspect_ratio': 0.5,
                        'max_aspect_ratio': 2.0,
                        },
                'sample_constraint': {
                        'min_jaccard_overlap': 0.9,
                        },
                'max_trials': 50,
                'max_sample': 1,
        },
        {
                'sampler': {
                        'min_scale': 0.3,
                        'max_scale': 1.0,
                        'min_aspect_ratio': 0.5,
                        'max_aspect_ratio': 2.0,
                        },
                'sample_constraint': {
                        'max_jaccard_overlap': 1.0,
                        },
                'max_trials': 50,
                'max_sample': 1,
        },
        ]
train_transform_param = {
        'mirror': True,
        'mean_value': [104, 117, 123],#均值  
        'resize_param': {#存储数据转换器用于调整大小策略的参数的消息。
                'prob': 1,#使用这个调整策略的可能性 
                'resize_mode': P.Resize.WARP,#重定义大小的模式，caffe.proto中定义的是枚举类型  
                'height': resize_height,
                'width': resize_width,
                'interp_mode': [#插值模式用于调整大小，定义为枚举类型 
                        P.Resize.LINEAR,
                        P.Resize.AREA,
                        P.Resize.NEAREST,
                        P.Resize.CUBIC,
                        P.Resize.LANCZOS4,
                        ],
                },
        'emit_constraint': {
            'emit_type': caffe_pb2.EmitConstraint.CENTER,
            }
        }
test_transform_param = {#测试转换参数，类似于训练转换参数。
        'mean_value': [104, 117, 123],
        'resize_param': {
                'prob': 1,
                'resize_mode': P.Resize.WARP,
                'height': resize_height,
                'width': resize_width,
                'interp_mode': [P.Resize.LINEAR],
                },
        }

#如果为ture，则对所有新添加的层使用批处理规范。
#目前只测试了非批处理规范版本。
use_batchnorm = False
#使用不同的初始学习率
if use_batchnorm:
    base_lr = 0.0004
else:
    # 当batch_size = 1, num_gpus = 1时的学习率.
    base_lr = 0.00004   #由于上面use_batchnorm = false，所以我们一般调整初始学习率时只需更改这一部分，目前为0.001。  

#可以在这里更改工作路径与名称.
job_name = "SSD_{}".format(resize)
#更改生成的模型名称.
model_name = "VGG_VOC0712_{}".format(job_name)

# 存储模型.prototxt文件的目录.
save_dir = "models/VGGNet/VOC0712/{}".format(job_name)
# 存储模型快照的目录.
snapshot_dir = "models/VGGNet/VOC0712/{}".format(job_name)
# 存储工作脚本和日志文件的目录.
job_dir = "jobs/VGGNet/VOC0712/{}".format(job_name)
# 存储检测结果的目录.
output_result_dir = "data/VOC0712/results/{}/Main".format(job_name)

# 模型定义文件.
train_net_file = "{}/train.prototxt".format(save_dir)
test_net_file = "{}/test.prototxt".format(save_dir)
deploy_net_file = "{}/deploy.prototxt".format(save_dir)
solver_file = "{}/solver.prototxt".format(save_dir)
# 快照前缀.
snapshot_prefix = "{}/{}".format(snapshot_dir, model_name)
# 工作脚本路径.
job_file = "{}/{}_train.bat".format(job_dir, model_name)

#存储测试图像的名称和大小，是create_list.sh生成的test_name_size.txt文件路径
name_size_file = "data/VOC0712/test_name_size.txt"
#预训练模型。 使用完卷积截断的VGGNet，使用官方或者别从成熟模型参数
pretrain_model = "models/VGGNet/VGG_ILSVRC_16_layers_fc_reduced.caffemodel"
#存储类型的文件
label_map_file = "data/VOC0712/labelmap_voc.prototxt"

#要预测的类的数量。VOC所标注的分类数加背景图.
num_classes = 21
#位置共享，如果为true，边框在不同的类中共享
share_location = True
#背景图的标签名称
background_label_id=0
#是否考虑困难的ground truth，默认为true
train_on_diff_gt = True
#如何规范跨越批次，空间维度或其他维度聚集的损失层的损失。 
#目前只在SoftmaxWithLoss和SigmoidCrossEntropyLoss图层中实现。
#按照批次中的示例数量乘以空间维度。 在计算归一化因子时，
#不会忽略接收忽略标签的输出。定义为枚举，四种类型分别是：FULL，
#除以不带ignore_label的输出位置总数。 如果未设置ignore_label，则表现为FULL；VALID；
normalization_mode = P.Loss.VALID
#bbox的编码方式。此参数定义在PriorBoxParameter参数定义解释中，
#为枚举类型，三种类型为：CORNER，CENTER_SIZE和CORNER_SIZE。  
code_type = P.PriorBox.CENTER_SIZE
#负/正比率，即文中所说的1：3
neg_pos_ratio = 3.
#位置损失的权重
loc_weight = (neg_pos_ratio + 1.) / 4.
multibox_loss_param = {	#存储MultiBoxLossLayer使用的参数的消息
    'loc_loss_type': P.MultiBoxLoss.SMOOTH_L1,#位置损失类型，定义为枚举，有L2和SMOOTH_L1两种类型.
    'conf_loss_type': P.MultiBoxLoss.SOFTMAX,	#置信损失类型，定义为枚举，有SOFTMAX和LOGISTIC两种。  
    'loc_weight': loc_weight,
    'num_classes': num_classes,
    'share_location': share_location,
    'match_type': P.MultiBoxLoss.PER_PREDICTION,#训练中的匹配方法。定义为枚举，有BIPARTITE和PER_PREDICTION两种。如果match_type为PER_PREDICTION（即每张图预测），则使用overlap_threshold来确定额外的匹配bbox。  
    'overlap_threshold': 0.5,	#阀值大小。即我们所说的IoU的大小
    'use_prior_for_matching': True,#是否使用先验匹配，一般为true。
    'background_label_id': background_label_id,	#背景标签的类别编号，一般为0
    'use_difficult_gt': train_on_diff_gt,#是否考虑困难的ground truth，默认为true。
    'do_neg_mining': True,
    'neg_pos_ratio': neg_pos_ratio,	#负/正比率，即文中所说的1：3
    'neg_overlap': 0.5,#对于不匹配的预测，上限为负的重叠。即如果重叠小于0.5则定义为负样本，Faster R-CNN设置为0.3。
    'code_type': code_type,	#bbox的编码方式。此参数定义在PriorBoxParameter参数定义解释中，为枚举类型，三种类型为：CORNER，CENTER_SIZE和CORNER_SIZE。
    }
loss_param = {#存储由损失层共享的参数的消息  
    'normalization': normalization_mode,#如何规范跨越批次，空间维度或其他维度聚集的损失层的损失。目前只在SoftmaxWithLoss和SigmoidCrossEntropyLoss图层中实现。按照批次中的示例数量乘以空间维度。 在计算归一化因子时，不会忽略接收忽略标签的输出。定义为枚举，四种类型分别是：FULL，除以不带ignore_label的输出位置总数。 如果未设置ignore_label，则表现为FULL；VALID；BATCH_SIZE，除以批量大小；NONE，不要规范化损失。  
    }

#参数生成先验。  
#输入图像的最小尺寸  
min_dim = 300#维度
# conv4_3 ==> 38 x 38
# fc7 ==> 19 x 19
# conv6_2 ==> 10 x 10
# conv7_2 ==> 5 x 5
# conv8_2 ==> 3 x 3
# pool6 ==> 1 x 1
#prior_box来源层，可以更改。很多改进都是基于此处的调整。
mbox_source_layers = ['conv4_3', 'fc7', 'conv6_2', 'conv7_2', 'conv8_2', 'pool6']
#这里即是论文中所说的Smin=0.2，Smax=0.9的初始值，经过下面的运算即可得到min_sizes，max_sizes。
min_ratio = 20
max_ratio = 95
#取一个间距步长，即在下面for循环给ratio取值时起一个间距作用。可以用一个具体的数值代替，这里等于17
step = int(math.floor((max_ratio - min_ratio) / (len(mbox_source_layers) - 2)))
#经过以下运算得到min_sizes和max_sizes。
min_sizes = []
max_sizes = []
#从min_ratio至max_ratio+1每隔step=17取一个值赋值给ratio。注意xrange函数的作用。  
for ratio in xrange(min_ratio, max_ratio + 1, step):
#min_sizes.append（）函数即把括号内部每次得到的值依次给了min_sizes。
  min_sizes.append(min_dim * ratio / 100.)
  max_sizes.append(min_dim * (ratio + step) / 100.)
min_sizes = [min_dim * 10 / 100.] + min_sizes
max_sizes = [[]] + max_sizes
#这里指的是横纵比，六种尺度对应六个产生prior_box的卷积层。
#具体可查看生成的train.prototxt文件一一对应每层的aspect_ratio参数，
#此参数在caffe.proto中有定义，关于aspect_ratios如何把其内容传递
#给了aspect_ratio，在model_libs.py文件中有详细定义。  
aspect_ratios = [[2], [2, 3], [2, 3], [2, 3], [2, 3], [2, 3]]
#对卷积层conv4_3做归一化。model_libs.py里产生了normallize层，具体的层定义，
#参看底层代码~/caffe/src/layers/Ｎormalize_layer.cpp，
#为什么这里设置conv4_3为20我也没看懂，原谅Ｃ++太渣，这里每个数对应每个先验层，
#只要哪个层对应的数不为-1则产生normal。  
normalizations = [20, -1, -1, -1, -1, -1]
#两种选择，根据参数code_type的选择决定，由于上面已经将code_type选定。有人理解
#为变量variance用来对bbox的回归目标进行放大，从而加快对应滤波器参数的收敛。
#除以variance是对预测box和真实box的误差进行放大，从而增加loss，增大梯度，加快收敛。
#另外，top_data += top[0]->offset(0, 1);已经使指针指向新的地址，所以variance不会覆
#盖前面的结果。prior_variance在model_libs.py中传递给了variance变量，
#然后利用prior_box_layer.cpp将其运算定义至priorbox_layer层中，
#具体可查看train.prototxt中的每一个先验卷积层层中产生先验框的层中，即**_mbox_priorbox。  
  prior_variance = [0.1, 0.1, 0.2, 0.2]
else:
  prior_variance = [0.1]
#如果为true，则会翻转每个宽高比。例如，
#如果有纵横比“r”，我们也会产生纵横比“1.0 / r”。故产生{1，2，3，1/2，1/3}。
flip = True
#做clip操作是为了让prior的候选坐标位置保持在[0,1]范围内。
#在caffe.proto文件中有关于参数clip的解释，为”如果为true，则将先验框裁剪为[0，1]
clip = True

# 求解参数。  
# 定义要使用的GPU。
gpus = "0" #"0,1,2,3"  #多块GPU的编号，如果只有一块，这里只需保留0，否则会出错。
gpulist = gpus.split(",")#获取GPU的列表。
num_gpus = len(gpulist)	#获取GPU编号。

#使用CPU进行训练
use_cpu = False

# 将小批次划分为不同的GPU
if use_cpu:
  num_gpus = 0

#设置训练样本输入的数量，不要超出内存就好。
batch_size = 2 # 32
#这里与batch_size相搭配产生下面的iter_size。在看了下一行你就知道它的作用了。  
accum_batch_size = 32
#如果iter_size=1,则前向传播一次后进行一次反向传递，如果=2，
#则两次前传后进行一次反传，这样做是减少每次传播所占用的内存空间，
#有的硬件不行的话就无法训练，但是增加iter会使训练时间增加，但是总的迭代次数不变。
iter_size = accum_batch_size / batch_size
solver_mode = P.Solver.CPU
device_id = 0
#批次传递
batch_size_per_device = batch_size
if num_gpus > 0:
	#这里指如果你有多块GPU则可以将这些训练任务均分给多块GPU训练，从而加快训练速度。
  batch_size_per_device = int(math.ceil(float(batch_size) / num_gpus))
  #多块GPU的iter_size大小计算，上面的是一块的时候。
  iter_size = int(math.ceil(float(accum_batch_size) / (batch_size_per_device * num_gpus)))
  solver_mode = P.Solver.GPU
  device_id = int(gpulist[0])

#如果损失层的参数NormalizationMode选择NONE，即没有归一化模式，则基础学习率为本文件之
#上的base_lr=0.0004除以batch_size_per_device=32得到新的base_lr=1.25*10^(-5)。  
if normalization_mode == P.Loss.NONE:
  base_lr /= batch_size_per_device
#同理，根据不同的归一化模式选择不同的base_lr。在本文件上面我们看到
#normalization_mode = P.Loss.VALID，而loc_weight = (neg_pos_ratio + 1.) / 4==1，
#所以新的base_lr=25*0.0004=0.001，这就是为什么我们最后生成的solver.prototxt文件
#中的base_lr=0.001的原因，所以如果训练发散想通过减小base_lr来实验，
#则要更改最上面的base_lr=0.0004才可以。  
elif normalization_mode == P.Loss.VALID:
  base_lr *= 25. / loc_weight
elif normalization_mode == P.Loss.FULL:
  # 每幅图像大概有2000个先验bbox。  
  # TODO(weiliu89): 估计确切的先验数量。
  base_lr *= 2000.  #base_lr=2000*0.0004=0.8。

# Which layers to freeze (no backward) during training.
freeze_layers = ['conv1_1', 'conv1_2', 'conv2_1', 'conv2_2']

# 评估整个测试集。
num_test_image = 4952#整个测试集图像的数量。		
test_batch_size = 1	#测试时的batch_size。理想情况下，test_batch_size应该被num_test_image整除，否则mAP会略微偏离真实值。这里计算每测试迭代多少次可以覆盖整个测试集，和分类网络中的是一致的。这里4952/8=619，如果你的测试图片除以你的test_batch_size不等于整数，那么这里会取一个近似整数。  
test_iter = num_test_image / test_batch_size

#solver.prototxt文件中的各参数的取值，这里相信做过caffe训练的人应该大致有了解。
solver_param = {  
     # 训练参数
    'base_lr': base_lr,#网络的基础学习速率,一般设一个很小的值,然后根据迭代到不同次数,对学习速率做相应的变化.lr过大不会收敛,过小收敛过慢
    'weight_decay': 0.0005,#权衰量,用于防止过拟合
    'lr_policy': "step",	#学习速率的衰减策略,详细见后面
    'stepsize': 40000,#每40000次迭代减少学习率(这一项和lr_policy有关)
    'gamma': 0.1,#学习率变化的比率(这一项和lr_policy有关)
    'momentum': 0.9,	#网络的冲量;学习的参数,不用变;上一次梯度更新的权重
    'iter_size': iter_size,	#实际使用的batch size。 相当于读取batchsize*itersize个图像才做一下gradient decent。这个参数可以规避由于gpu不足而导致的batchsize的限制 因为你可以用多个iteration做到很大的batch 即使单次batch有限
    'max_iter': 60000,#最大迭代次数,告诉网络何时停止训练.太小达不到收敛,太大会导致震荡
    'snapshot': 40000,#每40000次迭代打印一次快照(就是把当前数据保存下来,方便下次重用,如果电源不稳定容易意外关机建
    'display': 10,#每经过10次迭代,在屏幕上打印一次运行log(告诉你当前的loss之类的...)
    'average_loss': 10,#取多次foward的loss作平均,进行显示输出
    'type': "SGD",#选择一种优化算法
    'solver_mode': solver_mode,#选择CPU or GPU
    'device_id': device_id#选择几块GPU
    'debug_info': False,
    'snapshot_after_train': True,#表示在训练完后把最后一次的训练结果保存下来
    # 测试参数 
    'test_iter': [test_iter],
    'test_interval': 10000,#测试10000次输出一次测试结果 
    'eval_type': "detection",
    'ap_version': "11point",
    'test_initialization': False,#表示可以用上次保存的snapshot来继续训练
    }

# 生成检测输出的参数。
det_out_param = {
    'num_classes': num_classes,#类别数目
    'share_location': share_location,	#位置共享。
    'background_label_id': background_label_id,#背景类别编号，这里为0。
    'nms_param': {'nms_threshold': 0.45, 'top_k': 400},#非最大抑制参数，阀值为0.45，top_k表示最大数量的结果要保留，文中介绍，非最大抑制的作用就是消除多余的框，就是使评分低的框剔除。参数解释在caffe.proto中有介绍。  
    #用于保存检测结果的参数，这一部分参数在caffe.proto中的SaveOutputParameter有定义。
    'save_output_param': {
    	#输出目录。 如果不是空的，我们将保存结果。前面我们有定义结果保存的路径.
        'output_directory': output_result_dir,	
        #输出名称前缀。	
        'output_name_prefix': "comp4_det_test_",
        #输出格式。VOC  -  PASCAL VOC输出格式。COCO  -  MS COCO输出格式.
        'output_format': "VOC",
        #如果要输出结果，还必须提供以下两个文件。否则，我们将忽略保存结果。
        #标签映射文件。这在前面中有给label_map_file附文件，也就是我们在训练
        #的时候所做的labelmap.prototxt文件的位置
        'label_map_file': label_map_file,
        #即我们在训练时定义的test_name_size.txt文件的路径。该文件表示测试图片的大小。  
        'name_size_file': name_size_file,
        #测试图片的数量。
        'num_test_image': num_test_image,
        },
    #nms步之后每个图像要保留的bbox总数。-1表示在nms步之后保留所有的bbox.
    'keep_top_k': 200,
    #只考虑可信度大于阈值的检测。 如果没有提供，请考虑所有的框。
    'confidence_threshold': 0.01,
    #bbox的编码方式。
    'code_type': code_type,
    }

# parameters for evaluating detection results.
det_eval_param = {
    'num_classes': num_classes,
    'background_label_id': background_label_id,
    'overlap_threshold': 0.5,
    'evaluate_difficult_gt': False,
    'name_size_file': name_size_file,
    }

###不需要改变以下参数 ###
#检查文件。这一部分是检查你的所有训练验证过程必须有的文件与数据提供。
check_if_exist(train_data)
check_if_exist(test_data)
check_if_exist(label_map_file)
check_if_exist(pretrain_model)
make_if_not_exist(save_dir)
make_if_not_exist(job_dir)
make_if_not_exist(snapshot_dir)

#创建训练网络。这一部分主要是在model_libs.py中完成的。
net = caffe.NetSpec()
#调用model_libs.py中的CreateAnnotatedDataLayer()函数，创建标注数据传递层，将括号中的参数传递进去。
#model_libs.py文件中提供了四种基础网络，即VGG、ZF、ResNet101和ResNet152。 
net.data, net.label = CreateAnnotatedDataLayer(train_data, batch_size=batch_size_per_device,
        train=True, output_label=True, label_map_file=label_map_file,
        transform_param=train_transform_param, batch_sampler=batch_sampler)
#调用model_libs.py中的VGGNetBody()函数创建截断的VGG基础网络。参数传递进去。model_libs.py文件中提供了四种基础网络，
#即VGG、ZF、ResNet101和ResNet152。可以分别查看不同基础网络的调用方式。 
VGGNetBody(net, from_layer='data', fully_conv=True, reduced=True, dilated=True,
   #这些参数分别表示：from_layer表示本基础网络的数据源来自data层的输出，fully_conv=Ture表示使用全卷积，
   #reduced=Ｔure在该文件中可以发现是负责选用全卷积层的某几个参数的取值和最后选择不同参数的全链接层，
   #dilated=Ｔrue表示是否需要fc6和fc7间的pool5层以及选择其参数还有配合reduced共同选择全卷积层的参数选择，
   #dropout表示是否需要dropout层flase表示不需要。  
   dropout=False, freeze_layers=freeze_layers)

#以下为添加特征提取的层，即调用我们本文件最上面定义的需要额外添加的几个层，即conv6_1,conv6_2等等。  
AddExtraLayers(net, use_batchnorm)

#调用CreateMultiBoxHead()函数创建先验框的提取及匹配等层数，下面这些参数其实我们在上面全部都有解释，
#具体仍然可以参照caffe.proto和model_libs.py以及该层对应的cpp实现文件去阅读理解。
mbox_layers = CreateMultiBoxHead(net, data_layer='data', from_layers=mbox_source_layers,
        use_batchnorm=use_batchnorm, min_sizes=min_sizes, max_sizes=max_sizes,
        aspect_ratios=aspect_ratios, normalizations=normalizations,
        num_classes=num_classes, share_location=share_location, flip=flip, clip=clip,
        prior_variance=prior_variance, kernel_size=3, pad=1)

#创建MultiBoxLossLayer。即创建损失层。这里包括置信损失和位置损失的叠加。
#具体计算的实现在multibox_loss_layer.cpp中实现，其中的哥哥参数想multi_loss_param
#和loss_param等参数在前面均有定义。  
name = "mbox_loss"
mbox_layers.append(net.label)
#这里重点讲一下参数propagate_down，指定是否反向传播到每个底部。如果未指定，
#Caffe会自动推断每个输入是否需要反向传播来计算参数梯度。如果对某些输入设置为true，
#则强制向这些输入反向传播; 如果对某些输入设置为false，则会跳过对这些输入的反向传播。
#大小必须是0或等于底部的数量。具体解读cpp文件中的参数propagate_down[0]~[3]
net[name] = L.MultiBoxLoss(*mbox_layers, multibox_loss_param=multibox_loss_param,
        loss_param=loss_param, include=dict(phase=caffe_pb2.Phase.Value('TRAIN')),
        propagate_down=[True, True, False, False])

#打开文件将上面编辑的这些层写入到prototxt文件中。
with open(train_net_file, 'w') as f:
    print('name: "{}_train"'.format(model_name), file=f)
    print(net.to_proto(), file=f)
#将写入的训练文件train.prototxt复制一份给目录job_dir。
shutil.copy(train_net_file, job_dir)

#创建测试网络。前一部分基本上与训练网络一致。
net = caffe.NetSpec()
net.data, net.label = CreateAnnotatedDataLayer(test_data, batch_size=test_batch_size,
        train=False, output_label=True, label_map_file=label_map_file,
        transform_param=test_transform_param)

VGGNetBody(net, from_layer='data', fully_conv=True, reduced=True, dilated=True,
    dropout=False, freeze_layers=freeze_layers)

AddExtraLayers(net, use_batchnorm)

mbox_layers = CreateMultiBoxHead(net, data_layer='data', from_layers=mbox_source_layers,
        use_batchnorm=use_batchnorm, min_sizes=min_sizes, max_sizes=max_sizes,
        aspect_ratios=aspect_ratios, normalizations=normalizations,
        num_classes=num_classes, share_location=share_location, flip=flip, clip=clip,
        prior_variance=prior_variance, kernel_size=3, pad=1)

#置信的交叉验证
conf_name = "mbox_conf"
if multibox_loss_param["conf_loss_type"] == P.MultiBoxLoss.SOFTMAX:
  reshape_name = "{}_reshape".format(conf_name)
  net[reshape_name] = L.Reshape(net[conf_name], shape=dict(dim=[0, -1, num_classes]))
  softmax_name = "{}_softmax".format(conf_name)
  net[softmax_name] = L.Softmax(net[reshape_name], axis=2)
  flatten_name = "{}_flatten".format(conf_name)
  net[flatten_name] = L.Flatten(net[softmax_name], axis=1)
  mbox_layers[1] = net[flatten_name]
elif multibox_loss_param["conf_loss_type"] == P.MultiBoxLoss.LOGISTIC:
  sigmoid_name = "{}_sigmoid".format(conf_name)
  net[sigmoid_name] = L.Sigmoid(net[conf_name])
  mbox_layers[1] = net[sigmoid_name]

#下面这一部分是test网络独有的，为检测输出和评估网络。
net.detection_out = L.DetectionOutput(*mbox_layers,
    detection_output_param=det_out_param,
    include=dict(phase=caffe_pb2.Phase.Value('TEST')))
net.detection_eval = L.DetectionEvaluate(net.detection_out, net.label,
    detection_evaluate_param=det_eval_param,
    include=dict(phase=caffe_pb2.Phase.Value('TEST')))

with open(test_net_file, 'w') as f:
    print('name: "{}_test"'.format(model_name), file=f)
    print(net.to_proto(), file=f)
shutil.copy(test_net_file, job_dir)

# 创建deploy网络。  
# 从测试网中删除第一层和最后一层。
deploy_net = net
with open(deploy_net_file, 'w') as f:
    net_param = deploy_net.to_proto()
    # 从测试网中删除第一个（AnnotatedData）和最后一个（DetectionEvaluate）层。 
    del net_param.layer[0]		#删除首层
    del net_param.layer[-1]		#删除尾层。
    net_param.name = '{}_deploy'.format(model_name)		#创建网络名
    net_param.input.extend(['data'])									#输入扩展为data。
    #deploy.prototxt文件中特有的输入数据维度信息，这里应该为[1,3,300,300]。 
    net_param.input_shape.extend([
        caffe_pb2.BlobShape(dim=[1, 3, resize_height, resize_width])])
    print(net_param, file=f)		#输出到文件 
shutil.copy(deploy_net_file, job_dir)	 #复制一份到job_dir中。

# 创建Slover.prototxt。
solver = caffe_pb2.SolverParameter(		#将上面定义的solver参数统统拿下来。 
        train_net=train_net_file,
        test_net=[test_net_file],
        snapshot_prefix=snapshot_prefix,
        **solver_param)

#将拿下来的参数统统写入solver.prototxt中。
with open(solver_file, 'w') as f:
    print(solver, file=f)
#复制一份到job_dir中。
shutil.copy(solver_file, job_dir)		

#最大迭代次数首先初始化为0。
max_iter = 0
#找到最近的快照。即如果中途中断训练，再次训练首先寻找上次中断时保存的模型继续训练。
for file in os.listdir(snapshot_dir):	 #依次在快照模型所保存的文件中查找相对应的模型。
  if file.endswith(".solverstate"):		#如果存在此模型，则继续往下训练。
    basename = os.path.splitext(file)[0]
    iter = int(basename.split("{}_iter_".format(model_name))[1])
    if iter > max_iter:			#如果已迭代的次数大于max_iter，则赋值给max_iter。
      max_iter = iter

#以下部分为训练命令。
train_src_param = ''	  
if os.path.isfile(pretrain_model): 
	#权重的初始参数即从我们定义的imagenet训练ＶＧＧ16模型中获取。  
  train_src_param = '\t--weights={} ^\n'.format(os.path.normpath(pretrain_model))
if resume_training:
  if max_iter > 0:
    train_src_param = '\t--snapshot={}_iter_{}.solverstate ^\n'.format(os.path.normpath(snapshot_prefix), max_iter)

#删除任何小于max_iter的快照。上一段和本段程序主要的目的是随着训练的推进，
##max_iter随之逐渐增大，知道训练至120000次后把前面生成的快照模型都删除了，
就#是保存下一次的模型后删除上一次的模型。
if remove_old_models:
  for file in os.listdir(snapshot_dir):		#遍历查找模型文件。
    if file.endswith(".solverstate"):			#找到后缀为solverstate的模型文件。
      basename = os.path.splitext(file)[0]
      iter = int(basename.split("{}_iter_".format(model_name))[1])	#获取已迭代的次数。
      if max_iter > iter:				#如果迭代满足条件，则下一条语句去删除。
        os.remove("{}/{}".format(snapshot_dir, file))
    if file.endswith(".caffemodel"):	#找到后缀为caffemodel的模型文件。
      basename = os.path.splitext(file)[0]
      iter = int(basename.split("{}_iter_".format(model_name))[1])	#获取迭代次数iter。
      if max_iter > iter:		#判断如果满足条件则删除已存在的模型。
        os.remove("{}/{}".format(snapshot_dir, file))

# 创建工作文件。
with open(job_file, 'w') as f:	#将训练文件写入执行文件中生成.sh可执行文件后执行命令训练。
  f.write('SET GLOG_logtostderr=1\n')
  f.write('set Datum=%DATE:~6,4%_%DATE:~3,2%_%DATE:~0,2%\n')
  f.write('set Uhrzeit=%TIME:~0,2%_%TIME:~3,2%_%TIME:~6,2%\n')
  f.write('set TIMESTAMP=%Datum%_%Uhrzeit%\n')
  f.write('\n'.format(caffe_root))
  f.write('cd {}\n'.format(caffe_root))
  f.write('"Build\{}\Release\caffe" train ^\n'.format('x64'))
  f.write('\t--solver={} ^\n'.format(os.path.normpath(solver_file)))
  f.write(train_src_param) 
  if solver_param['solver_mode'] == P.Solver.GPU:
	f.write('\t--gpu {} 2>&1 | "tools\mtee" "{}\{}-train-%TIMESTAMP%.log"\n'.format(gpus, os.path.normpath(job_dir), model_name))   
  else:
    f.write('\t2>&1 | "tools\mtee" "{}\{}-train-%TIMESTAMP%.log"\n'.format(os.path.normpath(job_dir), model_name))
   
#复制本脚本只job_dir中。
py_file = os.path.abspath(__file__)
shutil.copy(py_file, job_dir)

# 运行。
os.chmod(job_file, stat.S_IRWXU)
if run_soon:
  subprocess.call(os.path.normpath(job_file), shell=True)

结语

1.以上是关于ssd_pascal.py源码的注示。
2.关于ssd_pascal.py源码理解，都可以加这个群(487350510)互相讨论学。

你可能感兴趣的:(caffe,ssd_pascal.py,caffe,caffe-ssd,caffe-ssd,ubuntu,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
第47章 Python uWSGI 安装配置教程你得不到的念想 Python python 开发语言 linux
本文主要介绍如何部署简单的WSGI应用和常见的Web框架。以Ubuntu/Debian为例，先install依赖包：apt-getinstallbuild-essentialpython-devPythoninstalluWSGI1、通过pip命令：pipinstalluwsgi2、downloadinstall脚本：curlhttp://uwsgi.it/install|bash-sdefaul
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
Ubuntu 安装 RAGFlow 简单流程 steven_41936912 ubuntu linux RAGFlow
Docker拉取镜像慢可以更换镜像源sudotee/etc/docker/daemon.json<<-'EOF'{"registry-mirrors":["https://docker.m.daocloud.io","https://docker.imgdb.de","https://docker-0.unsee.tech","https://docker.hlmirror.com","https
Ubuntu 服务器虚拟主机,ubuntu云服务器虚拟机 Gamer42 Ubuntu 服务器虚拟主机
ubuntu云服务器虚拟机内容精选换一换通过云服务器或者外部镜像文件创建私有镜像时，如果云服务器或镜像文件所在虚拟机的网络配置是静态IP地址时，您需要修改网卡属性为DHCP，以使私有镜像发放的新云服务器可以动态获取IP地址。本节以WindowsServer2008R2操作系统为例。其他操作系统配置方法略有区别，请参考对应操作系统的相关资料进行操作，文档中不对此进行详细说明后端虚拟机绑定EIP。登录
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南知识大胖 NVIDIA GPU和大语言模型开发教程 linux 运维服务器
简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。主线内核和驱动程序怪癖之旅Nvidia50系列GPU拥有最新的Nvidia技术。但是，新硬件需要一些新软件或更新，这需要一些耐心。如果您在这里，您可能会遇到Ubuntu默认设置的障碍。不要害怕！我最近自己摸索了这个迷宫，结
linux/ubuntu启动引导过程详细分析奇妙之二进制 #linux ubuntu postgresql
文章目录**一、固件初始化阶段（BIOS/UEFI）****1.BIOS（基本输入输出系统）模式****2.UEFI（统一可扩展固件接口）模式****二、引导加载程序阶段（GRUB2）****1.GRUB2的加载过程****2.GRUB配置解析****3.内核参数传递****三、内核加载与初始化****1.内核解压缩与启动****2.initramfs（初始内存文件系统）加载****3.根文件系统
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【服务器】Ubuntu、CentOS、Debian、Alibaba Cloud Linux等操作系统有什么不同？
Ubuntu目标用户：Ubuntu适合初学者和对图形界面友好的用户，也适用于开发人员和需要最新软件的企业。更新策略：Ubuntu提供长期支持版本（LTS），每两年发布一次，并提供五年的支持。非LTS版本每六个月发布一次，但仅提供九个月的支持。包管理系统：使用APT包管理系统，拥有庞大的软件仓库。社区支持：拥有非常活跃的开发者社区，提供了丰富的文档和第三方资源。稳定性与创新性：在保持稳定的同时，Ub
Ubuntu系统下pip install的accelerate包没有安装至conda环境下，而是错误放入.local文件中
服务器上跑模型时莫名报了一个没有‘torch’包的错误Traceback(mostrecentcalllast):File"/home/ubuntu/.local/bin/accelerate",line5,infromaccelerate.commands.accelerate_cliimportmainFile"/home/ubuntu/.local/lib/python3.10/site-p
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
jetsonagxorin刷机指南注意事项刷机具体指南cuda环境配置指南Anconda、Pytorch配置注意事项1.使用设备自带usbtoc的传输线时，注意c口插到orin左侧的口，右侧的口不支持数据传输；2.刷机时需准备ubuntu系统，可以是虚拟机，注意安装SDKManager刷机时，JetPack版本要选对，JetPack6.0的对应ubuntu22，cuda12版本，对应pytorch
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
8卡RTX 5090D服务器部署Qwen3-32B-AWQ模型执行性能测试
一、背景最近得了一台8卡5090D服务器进行测试评估。GPU拓扑情况如下(test)root@ubuntu:/opt/models#nvidia-smitopo-mGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7CPUAffinityNUMAAffinityGPUNUMAIDGPU0XNODENODENODESYSSYSSYSSYS0-31,64-950N/AGPU1NODEXNO
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出