07.Mac OS X安装Tesseract-OCR

一、Tesseract介绍

Tesseract是一个google开源的OCR引擎,能识别100多种语言,但对手写的识别能力较差。

Mac的开源代码地址:

https://github.com/AngusHardie/TesseractOCR-For-Mac

C++代码开源地址:

https://github.com/tesseract-ocr/tesseract

二、安装Tesseract


  brew install  tesseract
  • 安装截图


    安装过程

三、其他额外安装命令


# 安装tesseract的同时安装训练工具
brew install --with-training-tools tesseract
 
# 安装tesseract的同时安装所有语言,语言包比较大,如果安装的话时间较长,建议不安装,按需选择
brew install  --all-languages tesseract
 
# 安装tesseract,并安装训练工具和语言
brew install --all-languages --with-training-tools tesseract 

四、下载部署语言库

  1. 地址
  https://github.com/tesseract-ocr/tessdata
  1. 下载指定语言库


    中文语言库
  2. 语言库的配置目:

  • brew的软件安装的默认位置是:
  /usr/local/Cellar
brew安装路径
  • tesseract语言库路径为:
  /usr/local/Cellar/tesseract/4.0.0_1/share/tessdata
语言库路径
  • 拷贝下载的语言库到此tesseract的语言库路径


    从下载目录拷贝到配置目录

五、简单的识别

  1. 装备一张文本图片


    src.png
  1. 识别指令
  tesseract  src.png   out  -l chi_sim
  1. 识别效果
明 符
唐 代 : 李 竭
的 第 伟 粥 体 , 素 手 王 房 前 。
欲 得 周 邹 颂 , 时 时 请 押 践 。

识别结果
  • 这识别效果

六、说明

  • 该ORC库提供训练工具等,训练的过程参考:

    • |- https://blog.csdn.net/u010670689/article/details/78374623/
  • 这里安装这个工具的主要目的是使用python调用来实现简单的文本识别(该识别算法使用的是长短时记忆神经网络)。

你可能感兴趣的:(07.Mac OS X安装Tesseract-OCR)