tesseract-ocr训练数据步骤

一,下载jTessBoxEditor工具

jTessBoxEditor工具是采用Tesseract的一款专业的orc样本识别训练软件,基于java开发而来,可以进行Tesseract样本训练,形成自己的语言库,提高图片文字的识别率和准确率。

官网下载地址:
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

二,使用方法

  1. 配置好Java开发环境,解压文件,点击下图中的两个文件都可以启动
    tesseract-ocr训练数据步骤_第1张图片
    启动成功后的界面
    tesseract-ocr训练数据步骤_第2张图片

  2. 操作步骤
    制作图片 --> 生成box文件 --> 训字操作 --> 制作新库

  3. 生成box文件
    tesseract-ocr训练数据步骤_第3张图片

  4. 训字操作

  • 运行后在图片同目录生成box文件
  • 还是使用jTessBoxEditor软件,打开图片,见到如下界面
  • tesseract-ocr训练数据步骤_第4张图片
  • 矫正错误的字
    tesseract-ocr训练数据步骤_第5张图片
  1. 制作新库
    tesseract-ocr训练数据步骤_第6张图片
  2. 新库制作完成,在图片文件夹下会产生tessdata目录,制作的新库就在tessdata目录下 tesseract-ocr训练数据步骤_第7张图片
  3. 使用新库
  • 然后把新库拷到Tesseract-OCR\tessdata目录下就可以使用了:
  • 在Python代码中使用新库时,记得修改配置
text = pytesseract.image_to_string(im, lang='pingan_ocr')

你可能感兴趣的:(ocr)