Tesserocr安装过程及踩坑笔记

在学习《python3网络爬虫开发实践》中安装Tesserocr过程中遇到了很多问题,于是打算分享一下Tesserocr的安装过程和填坑经验.
操作系统为Windows10

1.下载Tesseract

这里选择下载不带dev的稳定版本,下载地址:https://digi.bib.uni-mannheim.de/tesseract/
安装过程中可以选择安装语言包(反正我全选了),一路next即可.

2.添加环境变量

将安装的目录(比如:C:\Program Files (x86)\Tesseract-OCR)添加到系统的环境变量PATH中。
增加一个TESSDATA_PREFIX变量名,变量值为tessdata文件夹的路径,这是将语言字库文件夹添加到变量中.
Tesserocr安装过程及踩坑笔记_第1张图片

3.将tessdata文件夹复制到Python安装目录下

这是我碰到的坑之一,不复制的话Python测试Tesserocr时会报错

Traceback (most recent call last):
  File ".\test.py", line 4, in 
    print(tesserocr.image_to_text(image))
  File "tesserocr.pyx", line 2443, in tesserocr._tesserocr.image_to_text
RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\Users\k\AppData\Local\Programs\Python\Python37\/tessdata/

copy之后运行正常,得到结果

4.安装Tesserocr

似乎理论上是可以直接pip install tesserocr pillow
但实际执行中报错.
查阅一番资料后发现可以直接下载whl文件安装.下载地址为:https://github.com/simonflueckiger/tesserocr-windows_build/releases
在cmd中直接pip install +文件路径就行
安装好后,再使用pip3 install tesserocr pillow安装一下PIL

5.测试

随便截一张你想用来测试识别的图.
我截了张
在这里插入图片描述
命令行输入:tesseract 输入图片名 输出文件名 -l eng

tesseract get.PNG result -l eng

得到result.txt文件,打开之后得到识别内容

Python代码测试:

import tesserocr 
from PIL import Image
image = Image.open('./get.PNG')
print(tesserocr.image_to_text(image))

若成功输出结果,则安装成功.

6,安装过程中参考的其他博客

Tesserorc在python运用中入的坑 https://www.jianshu.com/p/dcad7ee3b162
tesseract-ocr的安装及使用
https://blog.csdn.net/qq_37193537/article/details/81335165
win10下安装tesseract+tesserocr过程中,发生的一系列问题+解决办法(含pycharm导入tesserocr)
https://blog.csdn.net/u014179267/article/details/80908790

你可能感兴趣的:(爬虫)