【python】tesserocr 、tessetect 的安装及简单使用

目录

1.初识tesserocr

2. 相关链接

3. Windows下的安装

4.配置tesseract环境变量

5.安装tesserocr

6.tesserocr简单使用


1.初识tesserocr

 tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。

2. 相关链接

  • tesserocr GitHub:https://github.com/sirfz/tesserocr
  • tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
  • tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract
  • tesseract GitHub:https://github.com/tesseract-ocr/tesseract
  • tesseract语言包:https://github.com/tesseract-ocr/tessdata
  • tesseract文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

3. Windows下的安装

在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本。

下载完成后双击,此时会出现如图1-25所示的页面。 

【python】tesserocr 、tessetect 的安装及简单使用_第1张图片

 此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。

注: 建议只选Additional language data 中自己需要的语言包,大部分是用不到的。个人选的是中文跟英文

4.配置tesseract环境变量

将以下两个路径添加到path中,命令行输入tesseract没有错误即安装成功

  • D:\Program Files\Tesseract-OCR
  • D:\Program Files\Tesseract-OCR\tessdata

5.安装tesserocr

  • 首先 pip install pillow
  • pip3 install tesserocr 会出现以下错误:

error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

  • 解决方法: 下载tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
  • pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
  • 下载地址 https://pan.baidu.com/s/1_tgn_FP7IcP6ddi3UVK0Hw 密码:rpbr

6.tesserocr简单使用

import tesserocr
from PIL import Image

image = Image.open('code.png')
result = tesserocr.image_to_text(image)
print(result)

注: 如果出现以下错误 ,添加以下环境变量

变量名:TESSDATA_PREFIX,变量值: D:\Program Files\Tesseract-OCR\tessdata

RuntimeError:Failed to init API, possibly an invalid tessdata path: D:\Users\Administrator\AppData\Local\Programs\Python\

 

 

 

你可能感兴趣的:(Python)