题库特殊字符语言包训练流程（新）

上篇文章介绍了一些特殊字符语言包的训练流程，然而没过几天，github上的tesseract源码有了较大的改动，包括wiki里面的教程文档也有了相应的变更。于是今天介绍一下适应于新代码的训练流程。

准备训练依赖项

依次在终端输入以下命令：

git clone https://github.com/tesseract-ocr/tesseract.git
git clone https://github.com/tesseract-ocr/langdata.git
git clone https://github.com/tesseract-ocr/tessdata.git
cp ./tessdata/best/eng.traineddata ./tesseract/tessdata
cp ./tessdata/best/chi_sim.traineddata ./tesseract/tessdata
cp ./tessdata/best/chi_sim_vert.traineddata ./tesseract/tessdata

下载tesseract包后需要本地安装，可看前面发布的安装教程：Tess4.0 windows编译与使用，tesseract linux 安装与编译。

添加新字符

到./langdata/chi_sim/chi_sim.training_text文件中添加新的字符，例如：'≤'。本例添加50个≤到chi_sim.training_text文件中。

生成新的训练数据

training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainspecial

training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only \
--noextract_font_properties --langdata_dir ../langdata \
--tessdata_dir ./tessdata \
--fontlist "SIMSUN" --output_dir ~/tesstutorial/evalspecial

scratch训练

export SCROLLVIEW_PATH=$PWD/java

mkdir -p ~/tesstutorial/specialoutput

training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,0,0,1 Ct5,5,16 Mp3,3 Lfys64 Lfx128 Lrx128 Lfx384 O1c5000]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--max_iterations 3600 &>~/tesstutorial/specialoutput/basetrain.log

finetune训练

training/combine_tessdata -e tessdata/best/chi_sim.traineddata \
  ~/tesstutorial/trainspecial/chi_sim.lstm

training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
  --continue_from ~/tesstutorial/trainspecial/chi_sim.lstm \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --old_traineddata tessdata/best/chi_sim.traineddata \
  --train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
  --max_iterations 3600

合并训练结果

finetune训练合并

training/lstmtraining --stop_training \
  --continue_from ~/tesstutorial/trainspecial/special_checkpoint \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --model_output ~/tesstutorial/trainspecial/chi_sim_special.traineddata

新生成的chi_sim_special.traineddata在~/tesstutorial/trainspecial目录下。

scratch训练合并

training/lstmtraining --stop_training \
--continue_from ~/tesstutorial/trainspecial/special_checkpoint \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--model_output ~/tesstutorial/specialoutput/chi_sim_special.traineddata

继续训练

如果合并后测试的结果不够理想，可以利用以下命令继续训练

fine tuning继续训练

training/lstmtraining --model_output ~/tesstutorial/trainspecial/special \
  --continue_from ~/tesstutorial/trainspecial/special_checkpoint \
  --traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
  --old_traineddata tessdata/best/chi_sim.traineddata \
  --train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
  --max_iterations 10000

scratch 继续训练

export SCROLLVIEW_PATH=$PWD/java

training/lstmtraining --debug_interval 100 \
--traineddata ~/tesstutorial/trainspecial/chi_sim/chi_sim.traineddata \
--net_spec '[1,36,0,1 Ct3,3,16 Mp3,3 Lfys48 Lfx96 Lrx96 Lfx256 O1c111]' \
--model_output ~/tesstutorial/specialoutput/base --learning_rate 20e-4 \
--train_listfile ~/tesstutorial/trainspecial/chi_sim.training_files.txt \
--eval_listfile ~/tesstutorial/evalspecial/chi_sim.training_files.txt \
--continue_from ~/tesstutorial/specialoutput/base_checkpoint \
--max_iterations 10000 &>~/tesstutorial/specialoutput/basetrain.log

注意：这里的max_iterations的取值要大于第一次的训练值。例如，本次的max_iterations 10000大于3600。

特殊字符语言包训练流程（新）