Mac中Tesseract样本训练

安装tesseract

brew uninstall tessseract
brew install --with-training-tools tesseract

下载 jTessBoxEditor

准备样本图片

打开 jTessBoxEditor -> Tools -> MergeTIFF 选择图片,合并成zxs.fontjj.001.tif文件

生成box文件

tesseract zxs.fontjj.001.tif zxs.fontjj.001 -l eng -psm 7 batch.nochop makebox

修改box文件

打开 jTessBoxEditor -> Box Editor ->open 打开zxs.fontjj.001.tif。工具会自动加载对应的box文件
手工修改样本训练集

生成font_properties

echo fontjj 0 0 0 0 0 >font_properties

生成训练文件

tesseract zxs.fontjj.001.tif zxs.fontjj.001 -l eng -psm 7 nobatch box.train

会在当前目录生成.tr文件

生成字符集文件

unicharset_extractor zxs.fontjj.001.box

生成名为unicharset的字符集文件

生成shape文件

shapeclustering -F font_properties -U unicharset -O fontjj.unicharset zxs.fontjj.001.tr

生成聚集字符特征文件

生成3个特征字符文件,unicharset、inttemp、pffmtable

mftraining -F font_properties -U unicharset -O fontjj.unicharset zxs.fontjj.001.tr

生成字符正常化特征文件

生成正常化特征文件normproto

cntraining zxs.fontjj.001.tr

更名

把以上生成的特征文件更名

rename normproto fontyp.normproto
rename inttemp fontyp.inttemp
rename pffmtable fontyp.pffmtable 
rename unicharset fontyp.unicharset
rename shapetable fontyp.shapetable

合并训练文件

生成fontjj.traineddata文件

combine_tessdata fontjj.

你可能感兴趣的:(Mac中Tesseract样本训练)