幽冥之花

安装Caffe_ssd并用自己的数据训练MobileNetSSD模型

0 引言

原来那台Dell电脑是Win10和Ubuntu16.04的双系统

1 安装Caffe
2 配置 MobileNet-ssd

下载MobileNet-SSD
测试demo
参数文件和网络文件的详细说明

3 利用自己的数据集训练自己的ＭobileNetSSD model

制作数据集
生成索引txt文件
生成lmdb格式文件(caffe输入格式)
利用MobileNetSSD进行训练
合并成最终的model，以及如何测试

Reference

0 引言

第一次搭建深度学习框架，决心记录下自己搭建的过程以及碰到的问题，也是第一次认真的写博客，有点小激动！希望可以在这条路上能一直走下去。好了，言归正传，开始说一说我的Caffe安装与MobileNet_SSD的训练历程吧！

原来那台Dell电脑是Win10和Ubuntu16.04的双系统

由于之前在这台双系统的电脑上胡乱地安装了各种包和进行了各种不记得了的操作，以至于在后来不管是再安装Tensorflow还是Caffe，都报出同样一个少见的错误，多方查找资料无果，决心卸载Ubuntu16.04中的python3.5（自此做出了从业以来最悲痛的决定），导致Ubuntu16.04的桌面进不去，多方求治才勉强恢复。详见报告老师，这个坑好大(ubuntu手贱删除python3导致的桌面进不去)。后来决定采用重新安装的办法，但还是图样图森破。卸载ubuntu重装，还引导启动于win10，清空ubuntu所在磁盘，重新安装ubuntu16.04后，就再也没能启动ubuntu了。一开机就进入grub命令行界面，输入exit则退入win10；按F12是进入启动项选择菜单（有U盘启动、光驱启动、硬盘启动等），不见ubuntu的启动选项；按F2进入BIOS界面（可以修改硬盘接口，设置启动项等设置）…查了资料和尝试了很多种办法，也未能解决，介于时间的紧迫，也没再进行下去，换了台电脑祸害去了。。

1 安装Caffe

如果电脑没有安装过caffe，那么首先需要下载一些依赖库。 具体的安装命令如下：

sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install libboost-all-dev
sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev
sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev
sudo apt-get install git build-essential
sudo apt-get install python-pip python-numpy
sudo pip install protobuf
sudo pip install scikit-image

下载源码
github 地址： https://github.com/weiliu89/caffe
选择好caffe-ssd要安装的路径后，在其中新建一个名为caffe_ssd的文件夹，并进入其中：

mkdir caffe_ssd
cd caffe-ssd

打开终端中输入：

git clone https://github.com/weiliu89/caffe

下载完以后会得到一个名为caffe的文件夹，进入这个文件夹然后在此路径下打开终端输入：

git checkout ssd

来切换caffe的分支：

此时example里面就会生成一个名为 ssd的文件夹。

编译 caffe-ssd
回到caffe下，通过如下指令新建一个build的文件夹然后打开 cmake 来编译 caffe-ssd:

mkdir build 
cmake-gui

然后按如下步骤点击：

然后：

上述步骤完成后，通过下面的指令进入cmake-gui编译完的build文件夹：

cd build
make -j3

这里 -j3 是表示三核并行编译，是根据你的电脑配置来的，若电脑是8核可为 -j7 或者 -j8。
这里不需要做任何的文件修改，直接编译即可。编译完成后再编译python接口：

make pycaffe

输出：

然后将caffe_ssd/caffe中的 python 文件夹路径加入环境变量：

sudo gedit ~/.bashrc

在文件末尾加入：

export PYTHONPATH=/path/to/caffe/python

然后：

source ~/.bashrc

激活路径，使之生效。至此我们的 caffe-ssd 就配置完成了。

2 配置 MobileNet-ssd

MobileNet-SSD 是依赖于我们刚才配置的ssd 的。

下载MobileNet-SSD

github地址：https://github.com/chuanqi305/MobileNet-SSD
进入caffe_ssd/caffe/examples文件夹，打开终端中在其中输入：

git clone https://github.com/chuanqi305/MobileNet-SSD.git

进入MobileNet-SSD，见如下各文件：

images　测试图片所存放位置

template 存放网络定义的公用模板train/test/deploy.protoxt，由gen.py脚本修改并生成，主要是因为label个数不一样所以这里的网络结构的前面几层和后面几层少许不同，这个需要我们后续训练自己数据集的时候利用gen_model.sh脚本生成。

voc　存有三个根据VOC数据集生成的网络文件和一个网络超参数train文件

demo.py 　实际检测脚本（图片存于images文件夹）只针对单张图片，做成视频就是一帧帧图片遍历

deploy.prototxt 运行网络定义文件，demo.py中调用.（与template/ＭobileNetSSD_deploy_template.prototxt相似）

gen.py 生成公用模板脚本（没有用到）

gen_model.sh 生成自定义网络脚本－－－生成template中类似的文件（训练自己的数据集时需要用到）

merge_bn.py 合并bn层脚本，用于生成最终的caffemodel（因为mobilenet有两个层最后需要合并才能得到deploy.caffemodel）

mobilenet_iter_73000.caffemodel　预训练模型

solver_test.prototxt 　网络测试超参数定义文件

solver_train.prototxt 　网络训练超参数定义文件

test.sh 网络测试脚本

train.sh 网络训练脚本

train.prototxt　训练网络定义文件　和template中的train定义网络文件相似

train_voc.sh　针对voc文件里的超参数文件和网络文件的训练脚本

测试demo

下载训练好的model，测试一下。
deploy_model网址如下：https://drive.google.com/file/d/0B3gersZ2cHIxRm5PMWRoTkdHdHc/view （这里需要使用访问外网的工具）。

将下载好放的 MobileNetSSD_deploy.caffemodel 放到MobileNet-SSD文件夹中，打开demo.py可见：

此时MobileNet-SSD中的deploy.prototxt网络和这个caffemodel不太匹配，所以需要再下载一个与之匹配MobileNetSSD_deploy.prototxt，下载地址：https://download.csdn.net/download/qq_33431368/10850770

修改上图中demo.py文件中的内容如下：

import numpy as np 
import sys,os 
import cv2 
caffe_root = '/home/che/caffe/'    ##需要修改为自己的caffe路径
sys.path.insert(0, caffe_root + 'python') 
import caffe 
net_file= 'MobileNetSSD_deploy.prototxt' 
caffe_model='MobileNetSSD_deploy.caffemodel' 
test_dir = "images"

然后执行demo.py文件：

cd caffe_ssd/caffe/examples/MobileNet-SSD
python demo.py

显示结果：

参数文件和网络文件的详细说明

① solver_train.prototxt（和solver_test.prototxt类似）

train_net: “example/MobileNetSSD_train.prototxt” 　＃训练的网络由gen_model.sh脚本生成
test_net: “example/MobileNetSSD_test.prototxt”　　＃测试网络由gen_model.sh脚本生成
test_iter: 673　　　　＃等于测试集图片数量/batchsize　　　　
test_interval: 10000
base_lr: 0.0005　　　＃　基本学习率
display: 10　　　　　＃　10步显示一次相当于10步print一次
max_iter: 120000　　＃　总共的迭代步数
lr_policy: “multistep”　＃　下降的学习率的下降方式
gamma: 0.5　　　　　＃ weight_decay: 0.00005　　
snapshot: 1000　　　　＃每次迭代1000步之后产生一个当前的caffemodel和状态文件，存入于snapshot文件夹中
snapshot_prefix: “snapshot/mobilenet” solver_mode: GPU　　　＃GPU训练方式
debug_info: false　　　
snapshot_after_train: true　　＃训练的时候是否存入中间模型，如果为false，则snapshot没有用处了
test_initialization: false　　
average_loss: 10　　
stepvalue: 20000　　　　＃呼应于ｌｒ的下降方式而设定的，迭代多少步设定再下降
stepvalue: 40000　　　　＃呼应于ｌｒ的下降方式而设定的，再迭代多少步设定再下降
iter_size: 1 type: “RMSProp”　　　　＃优化算法
eval_type: “detection”　　＃评估方式为目标检测
ap_version: “11point”

②MobileNetSSD_train_template.prototxt 网络定义文件（test和deploy类似）
截取一段　进行说明　其他以此列推

name: "MobileNet-SSD" 
＃训练的网络输入层 
layer {
 name: "data" 
 type: "AnnotatedData"　＃输入数据类型 
 top: "data"
 top: "label" 
 include { 
  phase: TRAIN　　＃训练层
 }
 ＃相当于数据预处理层 
transform_param { 
 ＃以下0.007834和127.5为图片归一化处理，这个很关键（后面移植和显示等操作都需要和这个对应） 
 scale: 0.007843 
 mirror: true 
 mean_value: 127.5 
 mean_value: 127.5 
 mean_value: 127.5 
  ＃图片resize操作　300*300　（这个直接影响速度和精度，一般分辨率越小速度越快，但是精度也随之下降） 
  resize_param { 
   prob: 1.0 
   resize_mode: WARP 
   height: 300 
   width: 300 
   interp_mode: LINEAR 
   interp_mode: AREA 
   interp_mode: NEAREST 
   interp_mode: CUBIC 
   interp_mode: LANCZOS4 
   } 
  emit_constraint { 
 	emit_type: CENTER 
   } 
  distort_param {
   brightness_prob: 0.5  
   brightness_delta: 32.0 
   contrast_prob: 0.5 
   contrast_lower: 0.5 
   contrast_upper: 1.5 
   hue_prob: 0.5 
   hue_delta: 18.0 
   saturation_prob: 0.5 
   saturation_lower: 0.5 
   saturation_upper: 1.5 
   random_order_prob: 0.0 
   } 
  expand_param { 
   prob: 0.5 
   max_expand_ratio: 4.0 
   } 
  } 
  ＃输入数据来源和格式lmdb格式 
  data_param { 
   source: "trainval_lmdb/" 
   batch_size: 24 
   backend: LMDB 
  } 
  annotated_data_param { 
   batch_sampler { 
    max_sample: 1 
    max_trials: 1 
    } 
   batch_sampler { 
   sampler { 
    min_scale: 0.3 
    max_scale: 1.0 
    min_aspect_ratio: 0.5 
    max_aspect_ratio: 2.0 
   } 
   sample_constraint { 
    min_jaccard_overlap: 0.1 
   } 
   max_sample: 1 
   max_trials: 50 
  } 
  batch_sampler { 
   sampler {
    min_scale: 0.3 
    max_scale: 1.0 
    min_aspect_ratio: 0.5 
    max_aspect_ratio: 2.0 
   } 
   sample_constraint { 
    min_jaccard_overlap: 0.3 
   } 
   max_sample: 1 
   max_trials: 50 
  } 
  batch_sampler { 
   sampler { 
    min_scale: 0.3 
    max_scale: 1.0 
    min_aspect_ratio: 0.5 
    max_aspect_ratio: 2.0 
   } 
   sample_constraint { 
    min_jaccard_overlap: 0.5 
   } 
   max_sample: 1 
   max_trials: 50 
  } 
  batch_sampler { 
   sampler { 
   min_scale: 0.3 
   max_scale: 1.0 
   min_aspect_ratio: 0.5 
   max_aspect_ratio: 2.0 
  } 
  sample_constraint { 
   min_jaccard_overlap: 0.9 
  } 
  max_sample: 1 
  max_trials: 50 
 }
  batch_sampler { 
   sampler { 
    min_scale: 0.3 
    max_scale: 1.0 
    min_aspect_ratio: 0.5 
    max_aspect_ratio: 2.0 
   } 
   sample_constraint { 
   max_jaccard_overlap: 1.0 
   } 
   max_sample: 1 
   max_trials: 50 
  } 
  label_map_file: "labelmap.prototxt" 
 } 
}
＃＃这才刚刚开始Mobilenet网络第一层 
layer { 
 name: "conv0" 
 type: "Convolution"　＃　卷积层 
 bottom: "data" 
 top: "conv0" 
 param {
  lr_mult: 0.1　　＃　学习率 
  decay_mult: 0.1 
 } 
 convolution_param { 
  num_output: 32　＃卷积核的个数 
  bias_term: false 
  pad: 1　＃卷积核是否补全 
  kernel_size: 3　＃卷积核的大小 
  stride: 2　　＃卷积核的步数 
  weight_filler { 
   type: "msra"　　　＃卷积核权值初始化方法 
  }
 }  
} 
 ＃ｂｎ层 
 layer { 
  name: "conv0/bn" 
  type: "BatchNorm" 
  bottom: "conv0" 
  top: "conv0" 
  param { 
   lr_mult: 0 
   decay_mult: 0 
  } 
  param { 
   lr_mult: 0 
   decay_mult: 0 
  } 
  param { 
   lr_mult: 0 
   decay_mult: 0 
  } 
 } 
  ＃＃scale层 
 layer { 
  name: "conv0/scale" 
  type: "Scale" 
  bottom: "conv0" 
  top: "conv0" 
  param { 
   lr_mult: 0.1 
   decay_mult: 0.0 
  } 
  param { 
   lr_mult: 0.2 
   decay_mult: 0.0 
  } 
  scale_param { 
   filler { 
     value: 1 
   }
   bias_term: true 
   bias_filler {
    value: 0 
   } 
  } 
 } 
  ＃激活函数层，一般是卷积层之后加一个Relu激活函数层 
 layer { 
 name: "conv0/relu" 
 type: "ReLU" 
 bottom: "conv0" 
 top: "conv0" 
 }

③train.sh文件 / test.sh文件
train

#!/bin/sh
#判断网络结构文件是否存在　这里需要修改成　此时　数据集对应的网络文件(gen_model生成)
if ! test -f example/MobileNetSSD_train.prototxt ;then
	echo "error: example/MobileNetSSD_train.prototxt does not exist."
	echo "please use the gen_model.sh to generate your own model."
        exit 1
fi
mkdir -p snapshot
../../build/tools/caffe train -solver="solver_train.prototxt" \　＃＃训练超参数用的时候这里可能需要更改
-weights="mobilenet_iter_73000.caffemodel" \ #＃预训练模型可能需要更改
-gpu 0

test

#!/bin/sh
#latest=snapshot/mobilenet_iter_73000.caffemodel
＃＃定义latest为snapshot（存放模型的文件）中的最后生成的一个即训练完merge_bn的deploy.caffemodel
latest=$(ls -t snapshot/*.caffemodel | head -n 1)
if test -z $latest; then
        exit 1
fi
../../build/tools/caffe train -solver="solver_test.prototxt" \
--weights=$latest \ ##用的时候直接改成你要test的caffemodel也可以
-gpu 0

④demo.py文件　这个文件以后需要按照自己的要求更改（例如修改成视频的）
源文件的大致说明：

＃＃导入包 
import numpy as np 
import sys,os 
import cv2 
＃＃这里需要修改caffe的根目录 
caffe_root = '/home/che/caffe/' 
sys.path.insert(0, caffe_root + 'python') 
import caffe ＃网络文件　模型名称　测试图片文件夹　需要修改 
net_file= 'MobileNetSSD_deploy.prototxt' 
caffe_model='MobileNetSSD_deploy.caffemodel' 
test_dir = "images" 
＃＃判断是否存在模型和网络文件 
if not os.path.exists(caffe_model): 
	print(caffe_model + " does not exist") 
	exit() 
if not os.path.exists(net_file): 
	print(net_file + " does not exist") 
	exit() 
＃＃生成网络 
net = caffe.Net(net_file,caffe_model,caffe.TEST) 
＃＃类别定义 
CLASSES = ('background', 'aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse', 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor') 
＃＃图片预处理，即归一化，resize 的300以及减去的127.5以及乘上的0.007834都和上面网络文件相对应一致 
def preprocess(src): 
	img = cv2.resize(src, (300,300)) 
	img = img - 127.5 
	img = img * 0.007843 
	return img 
＃＃网络输出的整理 
def postprocess(img, out): 
	h = img.shape[0] 
	w = img.shape[1] 
	box = out['detection_out'][0,0,:,3:7] * np.array([w, h, w, h]) 
	cls = out['detection_out'][0,0,:,1] 
	conf = out['detection_out'][0,0,:,2] 
	return (box.astype(np.int32), conf, cls) 
＃＃主函数　目标检测 
def detect(imgfile): 
	origimg = cv2.imread(imgfile)　　 
	img = preprocess(origimg) 
	img = img.astype(np.float32) 
	img = img.transpose((2, 0, 1)) 
	net.blobs['data'].data[...] = img 
	out = net.forward() ＃＃　前向推理 
	box, conf, cls = postprocess(origimg, out)＃＃产生ｂｏｘ为边框的值，ｃｏｎｆ为概率　ｃｌｓ为类别 	
	＃＃进行逐一画图标注产生最后的显示结果 
	for i in range(len(box)): 
		p1 = (box[i][0], box[i][1]) 
		p2 = (box[i][2], box[i][3]) 
		cv2.rectangle(origimg, p1, p2, (0,255,0))　　＃＃画框 
		p3 = (max(p1[0], 15), max(p1[1], 15)) 
		title = "%s:%.2f" % (CLASSES[int(cls[i])], conf[i]) 
		cv2.putText(origimg, title, p3, cv2.FONT_ITALIC, 0.6, (0, 255, 0), 1)　　＃＃画标注 
	cv2.imshow("SSD", origimg) 
	k = cv2.waitKey(0) & 0xff 
	#Exit if ESC pressed 
	if k == 27 : 
		return False 
	return True 
for f in os.listdir(test_dir): 
			if detect(test_dir + "/" + f) == False: 
				break

3 利用自己的数据集训练自己的ＭobileNetSSD model

首选在caffe/data中新建一个MyDataSet文件夹，将数据集都放到data中，这样有利于统一管理。
我的数据集是做项目时候已经做好了，这边就不公布了这里主要是讲一下流程：

制作数据集

具体做法请考如下地址处的博文：自己制作图像VOC数据集–用于Objection Detection（目标检测）)。
此时此刻你的MyDataSet中应该有以下两个文件，因为多生成的labels这边目标检测用不到所以没有拷贝进来，文件如下所示：

Annotations 　利用标注软件　生成对应的xml文件
JPEGImages 原始图片

生成索引txt文件

利用以下代码，生成ImageSet文件夹，此文件夹目录下包含Main文件下，在ImageSets\Main里有四个txt文件：test.txt train.txt trainval.txt val.txt；分别是测试数据集索引（也就是各个测试图片的名称，相对路径）、训练数据集、训练验证数据集、验证数据集
创建CreateImageSets.py文件，代码如下，这里注释简单说明

import os 
import random 
trainval_percent = 0.9 ＃训练验证数据集占总共的数据集的多少 
train_percent = 0.9 　＃训练数据集占trainval的多少 
xmlfilepath = 'Annotations' 　
txtsavepath = 'ImageSets/Main' 
total_xml = os.listdir(xmlfilepath) 
os.makedirs(txtsavepath) 
num=len(total_xml) 
list=range(num) 
tv=int(num*trainval_percent) 
tr=int(tv*train_percent) 
trainval= random.sample(list,tv) 　＃随机采取训练验证训练集集合 
train=random.sample(trainval,tr) ＃写文本 
ftrainval = open('ImageSets/Main/trainval.txt', 'w') 
ftest = open('ImageSets/Main/test.txt', 'w') 
ftrain = open('ImageSets/Main/train.txt', 'w') 
fval = open('ImageSets/Main/val.txt', 'w') ＃写入每一个 
for i in list: 
	name=total_xml[i][:-4]+'\n' 
	if i in trainval: 
		ftrainval.write(name) 
		if i in train: 
			ftrain.write(name) 
		else: 
			fval.write(name) 
	else: 
		ftest.write(name) 
＃关闭 
ftrainval.close() 
ftrain.close() 
fval.close() 
ftest .close()

执行这个文件得到四个txt文件，结果如下：

生成lmdb格式文件(caffe输入格式)

首先先把以下几个文件拷贝到MyDataSet中：

cd  caffe/data
cp VOC0712/create_list.sh MyDataSet/
cp VOC0712/create_data.sh MyDataSet/
cp VOC0712/labelmap_voc.prototxt MyDataSet/

此时数据集的文件情况为：

更改这三个文件。create_list.sh更改之后形式为：

#!/bin/bash 

root_dir=$HOME/caffe/data　## 更改你的路径 
sub_dir=ImageSets/Main 
bash_dir="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)" 
for dataset in trainval test 
do 
	dst_file=$bash_dir/$dataset.txt 
	if [ -f $dst_file ] 
	then 
		rm -f $dst_file 
	fi 
	for name in MyDataSet ##更改成你的dataset的名称 
	do 
		# if [[ $dataset == "test" && $name == "VOC2012" ]]　　 
		#then 
			# continue 
		#fi 
		echo "Create list for $name $dataset..." 
..............(这里不用改，省略) 
done

create_data.sh更改之后形式为：

cur_dir=$(cd $( dirname ${BASH_SOURCE[0]} ) && pwd ) 
root_dir=$cur_dir/../.. 
cd $root_dir redo=1 
data_root_dir="$HOME/caffe/data" ## 更改你的路径 
dataset_name="MyDataSet" ##更改你的dataset的名称 
mapfile="$root_dir/data/$dataset_name/labelmap_voc.prototxt" 
...............(这里不用改，省略) 
done

如果训练图像不是.jpeg格式，还需要对上述两个文件中出现的指定的图像后缀名做一下修改，需要修改的地方不多。

labelmap_voc.prototxt需要依据自己的label来修改，举个例子如下：

item { 
	name: "none_of_the_above" 
	label: 0 
	display_name: "background" 
} 
item { 
	name: "cat" 
	label: 1 
	display_name: "cat" 
} 
item { 
	name: "dog" 
	label: 2 
	display_name: "dog" 
} 
item { 
	name: "bear" 
	label: 3 
	display_name: "bear" 
}

依次执行（执行之前，最好删掉＃#注释）：

cd caffe_ssd/caffe/data/MyDataSet
sh create_list.sh
sh create_data.sh

执行create_data.sh　　提示如下所示：

即可生成：

两个文件里都为lmdb文件

其次，发现在examples中有个与MobileNetSSD平级的目录MyDataSet里面为lmdb文件夹的超链接文件，后续训练使用。

利用MobileNetSSD进行训练

①首先在MobileNetSSD文件中建立自己的labelmap.prototxt（内容和上述labelmap_voc.prototxt一样）
②建立自己对应label个数的train/test/deploy网络文件

gen_model.sh 4　 ＃数字4对应label的个数，加上backgroud　就四个label

文件中生成一个example文件夹，里面就是所生成的网络定义文件。

③建立数据集的超链接

ln -s PATH_TO_YOUR_TRAIN_LMDB trainval_lmdb
ln -s PATH_TO_YOUR_TEST_LMDB test_lmdb

以我的路径操作，在MobileNetSSD中执行上述两句的命令为：

ln -s /home/che/caffe/data/MyDataSet/lmdb/MyDataSet_trainval_lmdb trainval_lmdb 
ln -s /home/che/caffe/data/MyDataSet/lmdb/MyDataSet_test_lmdb test_lmdb

则在MobileNetSSD下出现两个超链接文件：

这一步也可以将上面在example中生成的MyDataSet文件里面的两个超链接全部复制到MobileNetSSD中去，并且将名字改成如上图所示的名称。
④修改超参数、指定预训练模型，开始model训练
按照自身要求修改solver_test.prototxt和solver_train.prototxt中的超参数；
然后，修改预训练模型为：

开始训练了：

sh train.sh

⑤接下来，可能出现以下错误：
Check failed: mdb_status == 0 (2 vs. 0) No such file or directory

原因：GPU内存不够。
解决方案：如下，减小batchsize即可。

重新run脚本，成功。

训练中途也可以不断调节参数，能看来随着迭代次数的增多loss正在减小，经过一段时间的训练，最后几万步之后loss差不多1.0上下浮动。

合并成最终的model，以及如何测试

训练开始后，文件中多了一个snapshot文件夹。

可以看出我们是按照每一万步生成一个caffemodel文件和一个实时训练状态文件，这个就是solver.prototxt文件中可以进行设定。
①合并出最终的caffemodel
因为MobileNet中有bn和scale层，最后生成deploy需要进行一步操作，此处运用merge_bn.py文件。
merge_bn.py的内容如下：

import os
import sys
import argparse
import logging

import numpy as np
try:
    caffe_root = 'home/youname/ssd_caffe/caffe/'  ＃＃此处改成你的路径即可
    sys.path.insert(0, caffe_root + 'python')
    import caffe
except ImportError:
    logging.fatal("Cannot find caffe!")
from caffe.proto import caffe_pb2
from google.protobuf import text_format

def make_parser():
    parser = argparse.ArgumentParser()
    return parser

bn_maps = {}
def find_top_after_bn(layers, name, top):
    bn_maps[name] = {}
    for l in layers:
        if len(l.bottom) == 0:
            continue
        if l.bottom[0] == top and l.type == "BatchNorm":
            bn_maps[name]["bn"] = l.name
            top = l.top[0]
        if l.bottom[0] == top and l.type == "Scale":
            bn_maps[name]["scale"] = l.name
            top = l.top[0]
    return top

def pre_process(expected_proto, new_proto):
    net_specs = caffe_pb2.NetParameter()
    net_specs2 = caffe_pb2.NetParameter()
    with open(expected_proto, "r") as fp:
        text_format.Merge(str(fp.read()), net_specs)

    net_specs2.MergeFrom(net_specs)
    layers = net_specs.layer
    num_layers = len(layers)

    for i in range(num_layers - 1, -1, -1):
         del net_specs2.layer[i]

    for idx in range(num_layers):
        l = layers[idx]
        if l.type == "BatchNorm" or l.type == "Scale":
            continue
        elif l.type == "Convolution" or l.type == "Deconvolution":
            top = find_top_after_bn(layers, l.name, l.top[0])
            bn_maps[l.name]["type"] = l.type
            layer = net_specs2.layer.add()
            layer.MergeFrom(l)
            layer.top[0] = top
            layer.convolution_param.bias_term = True
        else:
            layer = net_specs2.layer.add()
            layer.MergeFrom(l)

    with open(new_proto, "w") as fp:
        fp.write("{}".format(net_specs2))

def load_weights(net, nobn):
    if sys.version_info > (3,0):
        listKeys = nobn.params.keys()
    else:
        listKeys = nobn.params.iterkeys()
    for key in listKeys:
        if type(nobn.params[key]) is caffe._caffe.BlobVec:
            conv = net.params[key]
            if key not in bn_maps or "bn" not in bn_maps[key]:
                for i, w in enumerate(conv):
                    nobn.params[key][i].data[...] = w.data
            else:
                print(key)
                bn = net.params[bn_maps[key]["bn"]]
                scale = net.params[bn_maps[key]["scale"]]
                wt = conv[0].data
                channels = 0
                if bn_maps[key]["type"] == "Convolution":
                    channels = wt.shape[0]
                elif bn_maps[key]["type"] == "Deconvolution":
                    channels = wt.shape[1]
                else:
                    print("error type " + bn_maps[key]["type"])
                    exit(-1)
                bias = np.zeros(channels)
                if len(conv) > 1:
                    bias = conv[1].data
                mean = bn[0].data
                var = bn[1].data
                scalef = bn[2].data

                scales = scale[0].data
                shift = scale[1].data

                if scalef != 0:
                    scalef = 1. / scalef
                mean = mean * scalef
                var = var * scalef
                rstd = 1. / np.sqrt(var + 1e-5)
                if bn_maps[key]["type"] == "Convolution":
                    rstd1 = rstd.reshape((channels,1,1,1))
                    scales1 = scales.reshape((channels,1,1,1))
                    wt = wt * rstd1 * scales1
                else:
                    rstd1 = rstd.reshape((1, channels,1,1))
                    scales1 = scales.reshape((1, channels,1,1))
                    wt = wt * rstd1 * scales1
                bias = (bias - mean) * rstd * scales + shift

                nobn.params[key][0].data[...] = wt
                nobn.params[key][1].data[...] = bias

if __name__ == '__main__':
    parser1 = make_parser()
    args = parser1.parse_args()
    pre_process(args.model, "no_bn.prototxt")

    net = caffe.Net(args.model, args.weights, caffe.TEST)
    net2 = caffe.Net("no_bn.prototxt", caffe.TEST)

    load_weights(net, net2)
    net2.save("no_bn.caffemodel")

然后运行merge_bn.py：

##这里使用的是迭代训练50000次得到的模型来进行bn层的合并，以获得最终的模型。
python merge_bn.py --model ./example/MobileNetSSD_deploy.prototxt --weights ./snapshot/mobilenet_iter_50000.caffemodel

此时会发现，MobileNet-SSD中多出了一个no_bn.prototxt文件和一个no_bn.caffemodel文件，这就是我们想要获得模型文件和参数文件了。
②对于caffemodel进行test
将测试图片放到image中，对demo.py中的路径和文件名进行修改，执行demo.py即可。
也可以利用test.sh进行测试以下总体的acc，这里可能需要修改下solver_test.prototxt文件中的对应路径。例如，这个地方solver_train.prototxt文件中的路径默认为example/ 而solver_test没有需要自行修改为以下形式

train_net: "example/MobileNetSSD_train.prototxt"　
test_net: "example/MobileNetSSD_test.prototxt"

执行脚本：

sh test.sh

执行测试py文件(根据demo.py进行更改)。

ＯＶＥＲ

Reference

https://blog.csdn.net/Chris_zhangrx/article/details/80458515

https://blog.csdn.net/qq_33431368/article/details/84977194

https://blog.csdn.net/qq_33431368/article/details/84888302

https://blog.csdn.net/yu734390853/article/details/79481660

https://blog.csdn.net/zhang_shuai12/article/details/52346878

https://blog.csdn.net/Jesse_Mx/article/details/78680055

Batchnorm层：
https://blog.csdn.net/qq_25737169/article/details/79048516
https://blog.csdn.net/wangkun1340378/article/details/77161243

np.transpose用法
https://blog.csdn.net/xiongchengluo1129/article/details/79017142

卷积核
https://zm8.sm-tc.cn/?src=l4uLj4zF0NCIiIjRnJGdk5CYjNGckJLQporSuZqWuZqW0J6Ni5ack5qM0MnHz8%2FKzsbRl4uSkw%3D%3D&uid=6ddd1a57ac6d39a2fd15083871fed492&hid=99f3e47feb675bdd11f130781b4670e3&pos=4&cid=9&time=1539675448322&from=click&restype=1&pagetype=0020004002000402&bu=ss_doc&query=卷积核&mode=&v=1&force=true&wap=false&uc_param_str=dnntnwvepffrgibijbprsvdsdichei

你可能感兴趣的:(深度学习)

深度学习中交叉熵函数的导数:(极简) 洪小帅深度学习人工智能神经网络 python
文章目录前言一.交叉熵函数的导数二.Z,y为有n条数据的矩阵前言另一个博主有更详细的推导https://blog.csdn.net/chaipp0607/article/details/101946040一.交叉熵函数的导数softmax:令一条数据最后的输出为[z1,z2,z3,z4,…,z10],这里令输出层的神经元数量为10pi=ezi∑j=110ezjpi=\frac{e^{z_i}}{\
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
深度学习中的通道(Channel)概念详解小·恐·龙大模型深度学习人工智能
1.通道的基本概念通道(Channel)是深度学习中的一个重要概念，它在不同场景下有不同的具体含义。理解通道概念对于理解深度学习模型的结构和工作原理至关重要。2.大语言模型中的通道2.1全连接层的通道概念2.1.1基本结构输入：[batch_size,input_features]权重：[input_features,output_features]输出：[batch_size,output_fe
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
大语言模型原理与工程实践：案例介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：案例介绍作者：禅与计算机程序设计艺术近年来，随着深度学习技术的快速发展，大语言模型（LargeLanguageModel，LLM）在自然语言处理领域取得了突破性进展，展现出强大的文本生成、理解和推理能力。从智能对话到机器翻译，从代码生成到诗歌创作，LLM正在深刻地改变着我们与信息交互的方式，并为人工智能应用开拓了更广阔的空间。1.背景介绍1.1大语言模型的兴起大语言模型的
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
深度学习-92-大语言模型LLM之基于langchain的模型IO的模型调用皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Model的输入输出2langchain支持的模型3调用Ollama模型3.1设置环境变量3.2大语言模型LLM(OllamaLLM)3.2.1生成文本补全3.2.2流式生成文本补全3.3聊天模型(ChatOllama)3.3.1内置的消息类型3.3.2HumanMessage和SystemMessage3.3.3元组方式构成消息列表3.3.4stream流式3.4文本嵌入模型(Olla
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
AI Agent：深度解析与未来展望码事漫谈 c++人工智能
一、AIAgent的前世：从概念到萌芽（一）早期探索AIAgent的概念可以追溯到20世纪50年代，早期的AI研究主要集中在简单的规则系统上，这些系统的行为是确定性的，输出由输入决定。随着时间的推移，AI逐渐能够处理不确定性，1990年代机器学习的兴起为AIAgent的发展奠定了基础，神经网络技术的突破为深度学习的发展提供了可能。（二）技术突破2017年后，大语言模型（LLM）的出现推动了AIAg
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
【人工智能】Python常用库-Keras：高阶深度学习 API IT古董深度学习人工智能 Python 人工智能 python 深度学习
Keras：高阶深度学习APIKeras是一个高效、用户友好的深度学习框架，作为TensorFlow的高级API，支持快速构建和训练深度学习模型。它以模块化、简单和灵活著称，适合研究和生产环境。Keras的发音为[ˈkerəs]，类似于“凯拉斯”或“克拉斯”。这个名字来源于希腊语κέρας(kéras)，意思是“角”或“角质物”。这个词与深度学习的灵感来源——大脑的神经网络结构有一定联系。Kera
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级 2401_89759264 人工智能前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
深度学习从入门到精通：全面指南 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《深度学习从入门到精通：全面指南》文章目录《深度学习从入门到精通：全面指南》文章关键词文章摘要引言第一部分：深度学习基础入门第1章：深度学习概述1.1深度学习的基本概念1.2深度学习的发展历程1.3深度学习的基本原理神经网络前向传播反向传播第2章：深度学习框架入门2.1TensorFlow入门TensorFlow环境搭建TensorFlow基本数据结构2.2PyTorch入门PyTorch环境搭建
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Python】已解决：ModuleNotFoundError: No module named ‘tensorflow‘ 屿小夏 python tensorflow neo4j
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习Transformer框架 Clown爱电脑深度学习 transformer 人工智能自然语言处理机器学习
Transformer是一种深度学习框架，专门用于处理序列数据。它是2017年由Vaswani等人提出的，在NLP领域取得了很大的成功。Transformer的主要优势在于它可以并行地处理输入序列中的所有元素，并且不依赖于序列长度。它使用了self-attention机制，可以在序列中不同位置的元素之间建立联系。这使得Transformer在许多NLP任务中取得了最先进的性能。此外，Transfo
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

安装Caffe_ssd并用自己的数据训练MobileNetSSD模型