jTessBoxEditor使用说明

jTessBoxEditor 使用说明

第一部分:训练(Trainner)

1、Tesseract Executables:
tesseract可执行文件所在地址

2、Training Data:

训练文件所在地址

3、Language :

自定义语言名(语言名需与之前在文件夹下的名相同)

4、Bootstrap Language:

基于什么语言,只有在训练选择train from scratch和Make Box File Only时有用

5、RTL:
文字阅读的方向从右到左

6、选择训练模式:

第一种模式:Make Box File Only 制作盒子文件(标注地址和类别)

第二种模式:Train with Existing Box 从盒子文件和tif图像开始训练直到结束

进行第二种模式须在文件里添加三个文件(用semi作为例子)

semi.font_properties:这个文件是用来填写字体属性的

需在里面写:semi 0 0 0 0 0

第一个是字体的名字,后面五个0是字体的属性

分别代表:

的取值为1或0,表示字体是否具有这些属性。中文意思为:

斜体,粗体,像素字体,有衬线字体,哥特体

第二文件和第三个文件均是空白文件semi.frequent_words_list,semi.words_list,这两个文件用于保存常见单词

第三种模式:Shape Clustering 从tr和盒子文件开始训练直到最后结束(tr文件,是训练文件),同样需要上述三个文件

第四种模式:Dictionary 将所有的文件合并成所需要的traineddata文件

第五种模式:Train from Scratch,这个模式是指,只需要图片文件,自动标识盒子文件,自动训练,但是自动表示错误太多。

通常使用第二种模式。

之后的几个按钮RUN:运行;Canael:取消;Validata;删除traineddata文件 save:保存log文件,clear:清除GUI显示的文本。

第二部分:Box Editor(手动制作盒子文件)

Open:打开图像,save:保存,Reload:刷新

Merge:将几个盒子合并,Split:将盒子分成两个,Insert:插入盒子,Delete:删除盒子。

Character:调节字符的种类,X,Y,W,H:调节字符坐标宽高

第三部分:TIFF/BOX Generator 

主要功能是将TXT文档生成图片和盒子文件,用于制造OCR数据用

训练步骤:

1、将图片重命名为###.***.exp*.tif,并保存至同一个文件

2、选择制造盒子模式选择识别语言(图中的eng)和自定义语言的(与###一致,图中的zhu)

 

3、选到BOX  EdItor ,打开生成的box文件,并纠正自动识别所带来的错误,并保存

 

4、训练

选择Train with Existing Box模式,将之前说的三个文件添加到训练所在的文件夹中。点击运行,生成结果

jTessBoxEditor使用说明_第1张图片


你可能感兴趣的:(OCR,tesseract)