python实现图片文字提取,有疑问未解决

在某个微信公众号中偶然看到一个初级python实验:使用python识别并提取图像中的文字,并着手去尝试。
首先下载安装一个开源工具,Tesseract-OCR,在网上下载,我下载的是这个版本:tesseract-ocr-setup-4.0.0-alpha.20180109.exe.这个本身是一个执行文件,直击双击安装。在安装过程中可勾选安装语言库,该库支持多种语言文字的识别。
在这里插入图片描述
安装完后,要在系统变量中进行配置。在path中添加安装路径,前面的用分号隔开。在这里我将Tesseract-OCR安装在了D盘。
python实现图片文字提取,有疑问未解决_第1张图片
在cmd命令框中输入tesseract -v,可以检查是否安装正确。若安装无误,如下图所示:
python实现图片文字提取,有疑问未解决_第2张图片
安装无误后,在系统变量中添加变量TESSDATA_PREFIX,将安装路径复制进去。
python实现图片文字提取,有疑问未解决_第3张图片
配置完成后,进行实验。
首先导入pytesseract和pillow库。pycharm中,在setting中手动导入。

import pytesseract
from PIL import Image

在网上随便找一张带有文字的图片,写入代码中。我的图片命名为img.jpg
python实现图片文字提取,有疑问未解决_第4张图片

code = pytesseract.image_to_string(Image.open(r'img.jpg'))
print(code)

python实现图片文字提取,有疑问未解决_第5张图片
输出解雇不如人意,该库的默认语言不能识别出中文简体,但是数字可以识别。
在代码中加入一句,使程序能够识别中文简体:

code = pytesseract.image_to_string(Image.open(r'img.jpg'),lang='chi_sim')

此处报错:
在这里插入图片描述
错误提示说,在我的环境配置中,文件里找不到该语言库。我把环境变量更改为D:\Tesseract-OCR\tessdata,还是报错,在网上查找原因,有人说是斜杠符号问题,要把反斜杠换成正斜杠,我又将其更改为D:/Tesseract-OCR/tessdata,但程序仍然报相同的错误。这个问题一直仍未解决。

你可能感兴趣的:(实验报告)