Python3利用pytesser模块实现图片文字识别

pytesser是谷歌OCR开源项目的一个模块,在python中导入这个模块即可将图片中的文字转换成文本。

链接:https://code.google.com/p/pytesser/

pytesser 调用了 tesseract。在python中调用pytesser模块,pytesser又用tesseract识别图片中的文字。

下面是整个过程的实现步骤:

1、首先要在code.google.com下载pytesser。https://code.google.com/p/pytesser/downloads/detail?name=pytesser_v0.0.1.zip

 记录错误1:

Python3利用pytesser模块实现图片文字识别_第1张图片

下载的包为Python2 的包,所以不能直接使用,但是包下的tesseract.exe还是可以使用的,在File-> Settings-> Project-> Project Interpreter->+ 添加pytesser3,然后在External Libraries 下找到pytesser3下的__init__.py,修改里面的tesseract_exe_name,修改地址为下载好的pytesser里的tesseract.exe

tesseract_exe_name = 'E:\\pyProjects\spider\\venv\Lib\\site-packages\\pytesser\\tesseract' # Name of executable to be called at command line

可通过以下代码测试:

from pytesser3 import *

image = Image.open('./fnord.tif')
print(image_to_string(image))

*实例中的图片均在pytesser3的安装包里

 

你可能感兴趣的:(python)