[置顶] 训练tesseract-ocr3.00字典的步骤

前提条件:
tesseract-ocr3.00正常安装
训练步骤:
1.将要加入字典的图片转化为.tif格式的图片,文件的命名规则为[lang].[fontname].exp[num].tif, 例如:eng.oms261.g4.tif,注意此处[fontname]命名不能相同。 再根据.tif格式图片生成.box文件,命令:
 tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox
2.纠正.box文件中的错误,这里可以使用工具,有不同的工具,根据环境不同选择,Linux下推荐使用 moshPyTT(下载地址,http://code.google.com/p/moshpytt/)
3.根据生成的.box文件生成.tr文件。 命令:
 tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train
4.生成unicharset文件。 命令:
 unicharset_extractor eng.oms261.g4.box ...
注意:从5~9步骤必须在windows环境下进行,Linux下不支持,这是Tesseract-3.00的BUG.
5.生成 pffmtable, inttemp文件. 命令:
 mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...
6.生成 normproto文件。 命令 :
 cntraining eng.oms261.g4.tr ...
7.将pffmtable,inttemp,normproto文件加前缀,手动改名为: eng.pffmtable,eng.inttemp,eng.normproto, 前缀名与前面的命名保持一致。
8.字典文件和模糊校正文件可以提高OCR的识别率,我们可以获得官方的eng.traindata的此文件, 命令:
 combine_tessdata -u tessdata/eng.traineddata path/eng.
此时语言包的所有文件都解压了,挑出我们需要的
eng.unicharambigs
eng.punc-dawg
eng.word-dawg
eng.number-dawg
eng.freq-dawg
这些文件放到我们训练字典的那个路径.
9.合并训练文件,命令:
 combine_tessdata eng.
得到我们最终训练的文件



你可能感兴趣的:(linux,windows,语言,工具)