一、介绍
1、摘要:中文手写数据集是由 模式识别国家实验室(NLPR)和中国自动化研究所科学院(CASIA)共同整理的
这个数据集是由171个字母数字字符和符号以及 3,866 中文汉字 (DB1.0) 或者3,755 中文汉字(DB1.1)组成/
2、工具:网络参数可视化在线工具 http://ethereon.github.io/netscope/#/editor
二、使用vs2013 编译pycaffe(windows使用python是由caffe)并安装
1、python必须是python2.7 x64
2、编译release版本成功后把生成的caffe整个目录copy到python安装目录下的Lib\site-packages
3、安装caffe所需的库,具体需要什么库可以使用python自带的命令行 import caffe来检查,不报错表明安装成功(看图)
缺少的库可以到网站https://www.lfd.uci.edu/~gohlke/pythonlibs/来查找
备注:安装python扩展包使用命令 pip install xxxx
三、caffe工具
1、图片转换数据工具
格式:convert_imageset.exe [flags] [图片目录] [图片标签文件.txt] [输出数据文件]
[flags]:--gray=false 是否是灰度图片
--shuffle=false 是否打乱顺序
--backend=lmdb 输出数据类型
--resize_width=0 修改图片的宽度 默认原宽度
--resize_height=0 修改图片的高度 默认原高度
--check_size=false 是否检查图片尺寸
--encoded=false 是否转换图片格式
--encode_type= 设置图片格式
[图片目录]:txt文件中每行的格式是 “图片名 + 空格 + 标签”标签从0开始
命令行例子:--gray=1 --shuffle=1 --backend=lmdb --resize_width=40 --resize_height=40 --check_size=0 -- encoded=0 \seg\ \imageLable.txt \xxxx_train_lmdb
2、生成均值文件
格式:compute_image_mean.exe [flags] [数据文件] [输出均值文件(.proto)]
[flags]: --backend=lmdb 数据类型
3、训练工具 (具体解释引用 https://www.cnblogs.com/denny402/p/5076285.html)
格式:caffe.exe [flags] [train] [test] [device_query] [time]
[flags]: -gpu: 可选参数。该参数用来指定用哪一块gpu运行,根据gpu的id进行选择,如果设置为'-gpu all'则使用所有的gpu运行。如使用第二块gpu运行
# ./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt -gpu 2
--solver 必选参数。一个protocol buffer类型的文件,即模型的配置文件
# ./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt
-snapshot:可选参数。该参数用来从快照(snapshot)中恢复训练。可以在solver配置文件设置快照,保存solverstate
./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt -snapshot examples/mnist/lenet_iter_5000.solverstate
-weights:可选参数。用预先训练好的权重来fine-tuning模型,需要一个caffemodel,不能和-snapshot同时使用
# ./build/tools/caffe train -solver examples/finetuning_on_flickr_style/solver.prototxt -weights models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel
-iterations: 可选参数,迭代次数,默认为50。 如果在配置文件文件中没有设定迭代次数,则默认迭代50次
-model:可选参数,定义在protocol buffer文件中的模型。也可以在solver配置文件中指定
-sighup_effect:可选参数。用来设定当程序发生挂起事件时,执行的操作,可以设置为snapshot, stop或none, 默认为snapshot
-sigint_effect: 可选参数。用来设定当程序发生键盘中止事件时(ctrl+c), 执行的操作,可以设置为snapshot, stop或none, 默认为stop
刚才举例了一些train参数的例子,现在我们来看看其它三个
test参数用在测试阶段,用于最终结果的输出,要模型配置文件中我们可以设定需要输入accuracy还是loss. 假设我们要在验证集中验证已经训练好的模型,就可以这样写
# ./build/tools/caffe test -model examples/mnist/lenet_train_test.prototxt -weights examples/mnist/lenet_iter_10000.caffemodel -gpu 0 -iterations 100
这个例子比较长,不仅用到了test参数,还用到了-model, -weights, -gpu和-iteration四个参数。意思是利用训练好了的权重(-weight),输入到测试模型中(-model),用编号为0的gpu(-gpu)测试100次(-iteration)。
time参数用来在屏幕上显示程序运行时间。如:
# ./build/tools/caffe time -model examples/mnist/lenet_train_test.prototxt -iterations 10
这个例子用来在屏幕上显示lenet模型迭代10次所使用的时间。包括每次迭代的forward和backward所用的时间,也包括每层forward和backward所用的平均时间。
# ./build/tools/caffe time -model examples/mnist/lenet_train_test.prototxt -gpu 0
这个例子用来在屏幕上显示lenet模型用gpu迭代50次所使用的时间。
# ./build/tools/caffe time -model examples/mnist/lenet_train_test.prototxt -weights examples/mnist/lenet_iter_10000.caffemodel -gpu 0 -iterations 10
利用给定的权重,利用第一块gpu,迭代10次lenet模型所用的时间。
device_query参数用来诊断gpu信息。
# ./build/tools/caffe device_query -gpu 0
最后,我们来看两个关于gpu的例子
# ./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt -gpu 0,1
# ./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt -gpu all
这两个例子表示: 用两块或多块GPU来平行运算,这样速度会快很多。但是如果你只有一块或没有gpu, 就不要加-gpu参数了,加了反而慢。
最后,在linux下,本身就有一个time命令,因此可以结合进来使用,因此我们运行mnist例子的最终命令是(一块gpu):
4、识别工具
格式:classification.exe [deploy.prototxt文件] [训练好的.caffemodel文件] [均值.proto 文件] [标签.txt文件] [图片文件]
五、微调
(具体参见 http://blog.csdn.net/nongfu_spring/article/details/51514040和官方网址 http://caffe.berkeleyvision.org/gathered/examples/finetune_flickr_style.html)
1. ImageNet原来是1k个类别,finetune时需要根据自己数据集的类别数重新设置fc8层的output数,且新的fc8层的blob_lr会设的大一些(比如10和20),是为了加快收敛。
2. 如果你的网络中某一层的的参数个数变了,例如AlexNet全连接层输出为1000个,而你的网络只需要做2分类也就是输出两个值,那一定要把该层的 name 换一下,不然caffe 在 finetune 源网络的weight 的时候发现维度不匹配会报错的。
3. 自己数据集的类别号从0开始,中间要连续(我师弟有次finetune数据集一直报错,后来发现他是二类分类,但是类别号设成了0和12)
4. 数据集记得打乱,不然很可能不收敛
5. 如果出现不收敛的问题,可以把solver里的lr设的小一点,一般从0.01开始,如果出现loss=nan了就不断往小调整
6. 可以把accuracy和loss的曲线画出来,方便设定stepsize,一般在accuracy和loss都趋于平缓的时候就可以减小lr了
六、结果分析
1、train loss 不断下降,test loss不断下降,说明网络仍在学习;(最好的)
2、train loss 不断下降,test loss趋于不变,说明网络过拟合;(max pool或者正则化)
3、train loss 趋于不变,test loss不断下降,说明数据集100%有问题;(检查dataset)
4、train loss 趋于不变,test loss趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目;(减少学习率)
5、train loss 不断上升,test loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。(最不好的情况)七、caffe 代码解析
具体见 http://blog.csdn.net/jiongnima/article/details/55800959
八、mask-R-CNN 图像分割实现
具体见 http://blog.csdn.net/scutjy2015/article/details/78715737
九、windows_caffe 增加 rnn网络的方法
具体见:https://blog.csdn.net/zb1165048017/article/details/59112034
引用:论文来自 《Online and Offline Handwritten Chinese Character Recognition:Benchmarking on New Databases》