1.验证码制作成.tif,并用jTessBoxEditor->Tools->Merge TIFF合并为一个总的TIFF.
2.安装tesseract-ocr-setup-3.01-1.exe:
3.打开cmd->F:->到F盘的merge.tif所在目录->执行
tesseract.exe merge.tif merge batch.nochop makebox
(解释:merge.tif是合并后的总tif文件名,merge是识别结果的文件名;)
路径和文件名都不能用中文名.
执行此条命令后会生成一个叫merge.box的文件,这个merge.box和merge.tif文件名必须一样,并且在同一个文件夹下,才能进行下面的操作.
4.打开jTessBoxEditor->File->Open->找到刚才生成的merge.box所在路径,打开与之对应的merge.tif->矫正
5.执行:
tesseract.exe merge.tif merge nobatch box.train
再执行:
unicharset_extractor.exe merge.box
6.在该目录下建立一个名为:
font_properties
文件内容填入:
merge 1 0 0 1 0
的文件,不要带后缀.
7.执行命令:
cntraining.exe merge.tr
8.执行命令:
mftraining.exe -F font_properties -U unicharset merge.tr
9.把inttemp,normproto,pffmtable,unicharset这4个文件名的前面加上merge.
10.执行命令:
combine_tessdata merge..