目录
1.初识tesserocr
2. 相关链接
3. Windows下的安装
4.配置tesseract环境变量
5.安装tesserocr
6.tesserocr简单使用
tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。
在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本。
下载完成后双击,此时会出现如图1-25所示的页面。
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。
注: 建议只选Additional language data 中自己需要的语言包,大部分是用不到的。个人选的是中文跟英文
将以下两个路径添加到path中,命令行输入tesseract没有错误即安装成功
- D:\Program Files\Tesseract-OCR
- D:\Program Files\Tesseract-OCR\tessdata
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
import tesserocr
from PIL import Image
image = Image.open('code.png')
result = tesserocr.image_to_text(image)
print(result)
注: 如果出现以下错误 ,添加以下环境变量
变量名:TESSDATA_PREFIX,变量值: D:\Program Files\Tesseract-OCR\tessdata
RuntimeError:Failed to init API, possibly an invalid tessdata path: D:\Users\Administrator\AppData\Local\Programs\Python\