Tesserocr框架配置问题记录

今天学习Tesserocr框架,遇到了各种问题,现在记录下来作为备忘。

  1. 安装过程(windows10 64位)
    Windows的话先要去下载tesseract。网址如下:
https://digi.bib.uni-mannheim.de/tesseract/

点击这里
最后安装过程要勾选一下那个语言包。如果缺少中文包需要到github上面下载对应的语言包对应的网址如下:

https://github.com/tesseract-ocr/tessdata/find/master

点击这里

  1. 问题记录
    2.1. 直接pip3 install tesserocr pillow失败
    解决办法:
    下载对应的whl文件包
https://github.com/simonflueckiger/tesserocr-windows_build/releases

点击这里
将这个whl文件包剪切到对应的python 安装目录之下,之后执行pip3 install 对应版本.whl文件即可。比如我的就是:

pip3 install tesserocr-2.3.1-cp37-cp37m-win_amd64.whl

出现界面如下:


运行结果

之后按照图片识别代码敲进去
出现如下错误:


TIM截图20181125220007.png

缺失相应的模块 解决办法:
pip3 install tesserocr pillow

最后就快要识别图片呀:出现路径的问题:


TIM截图20181125220421.png

解决办法:
将图片放到python安装目录下,并采用绝对路径的方式。并且将tessdata文件夹复制一份到python目录下。
代码如下:
test2和test3图片如下:


test2.png

test3.png
>>> from PIL import Image
>>> import tesserocr
>>> image=Image.open("D://Python/test2.png")
>>> print(tesserocr.file_to_text("D://Python/test2.png"))
1234567


>>> from PIL import Image
>>> import tesserocr
>>> image=Image.open("D://Python/test3.png")
>>> print(tesserocr.file_to_text("D://Python/test3.png"))
xuhacker

ok!普通英文数字测试成功。
但是这时候测试中文出现乱码:
解决办法:

https://www.cnblogs.com/nyist-xsk/p/7762476.html

目前我测试中文图片仍然有问题。以后更新。
参考链接:

https://blog.csdn.net/coolcooljob/article/details/80385711
https://blog.csdn.net/wanghui2008123/article/details/37694307
https://blog.csdn.net/T1243_3/article/details/81211029?utm_source=blogxgwz3
https://www.cnblogs.com/nyist-xsk/p/7762476.html

你可能感兴趣的:(Tesserocr框架配置问题记录)