tesseract训练字库

1.准备样本图片

文件命名格式[lang].[fontname].exp[num].png


my_lang.test.exp0.png

2.使用tesseract生成box文件

$ /usr/local/tesseract/bin/tesseract my_lang.test.exp0.png my_lang.test.exp0 batch.nochop makebox

3.使用jTessBoxEditor矫正box文件的错误

4.生成font_properties文件

$ echo test 0 0 0 0 0 > font_properties

5.使用tesseract生成tr训练文件

$ /usr/local/tesseract/bin/tesseract my_lang.test.exp0.png my_lang.test.exp0 nobatch box.train

6.生成字符集文件

$ /usr/local/tesseract/bin/unicharset_extractor my_lang.test.exp0.box

7.生成shape文件

$ /usr/local/tesseract/bin/shapeclustering  -F font_properties -U unicharset -O my_lang.unicharset my_lang.test.exp0.tr

8.生成聚字符特征文件

$ /usr/local/tesseract/bin/mftraining -F font_properties -U unicharset -O my_lang.unicharset my_lang.test.exp0.tr

9.生成字符正常化特征文件

$ /usr/local/tesseract/bin/cntraining my_lang.test.exp0.tr

10.文件重命名

重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

11.合并训练文件

$ /usr/local/tesseract/bin/combine_tessdata my_lang

你可能感兴趣的:(tesseract训练字库)