2018-01-13 mac上字库训练(Tesseract-OCR for mac )

零、软件功用和我使用背景

目标是识别某个app上所有的带汉字按钮。

一、参考文献及我的评判:

mac上文字识别(Tesseract-OCR for mac )  http://www.jianshu.com/p/016e55c25521 没有Tesseract-OCR使用经验建议先阅读这篇

https://blog.csdn.net/u010670689/article/details/78374623 训练字库参考

二、意外问题一览

识别成功率主要取决于你的字库。可以自行识别汉字录入字库。

识别成功率也受图片质量影响,背景要纯,文字对比全图要尽量大,但上下左右都要离开边缘4个像素。

三、基本流程命令

brew install tesseract

brew install --with-training-tools tesseract (加装一下训练工具)

下载中文语言库 https://github.com/tesseract-ocr/tessdata 

命令行识别图片:

tesseract -l chi_sim huanyige.png a  识别中文图片

tesseract -l chi_sim+eng huanyige.png a  识别中文加英文图片

a表示输出文件名,写a就会输出到a.txt中。

tesseract --list-langs 列一下当前可用字库

python库 pytesseract

image_to_string(image, lang=None, boxes=False, config=None)

(可以识别文字同时,返回坐标,但实践加了要求同时提供坐标以后,出现识字不准问题,不清楚原因)

自行训练生成字库:

1)合并素材图片

jTessBoxEditor 合并多张图片merge tiff   得到huiyi.fitt

2)生成box文件

tesseract huiyi.tif huiyi -l chi_sim -psm 10 batch.nochop makebox

3)生成tr文件

。。。

算了  隳易的文已经写的挺好,感谢。不准备把人家的东西抄一遍,毫无意义嘛。

想运用深度学习,自己训练个给力点的字库。到时候再记好了。

你可能感兴趣的:(2018-01-13 mac上字库训练(Tesseract-OCR for mac ))