图形验证识别-tesseract

下载地址:https://digi.bib.uni-mannheim.de/tesseract/
下载安装教程

1.path中添加环境变量

C:\Program Files (x86)\Tesseract-OCR(安装目录)

2.勾选了语言包,还需要添加环境变量

TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR\tessdata
注意:跟参考文章有区别,需要指定都tessdata路径

3.验证环境变量配置

配置完成后在命令行输入tesseract -v,如果出现如下图所示,说明环境变量配置成功


image.png

4.验证安装

1.CMD控制台测试

测试图片:https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
下载并保存图片,到图片的目录下执行,会在图片当前目录生成result.txt文本

image.png

2.中文语言识别

安装的时候勾选了language,所以在tessdata目录下有很多的语言包.如果没有就百度下载吧。
使用 tesseract -h 查看帮助命令
tesseract --list-langs 查看所有语言
tesserct a.png result -l chi_sim 指定中文语言 读取a.png 并保存文字到result

2.pythoncharm中测试

安装 pip install pytesseract

from  PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open("image.png"))
print(text)

提示


image.png
解决办法

pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,文件夹中找到pytesseract.py,路径为:虚拟环境\Lib\site-packages\pytesseract,使用notepad之类软件打开pytesseract.py,找到如下两行:

CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

把tesseract_cmd 值更改如下:
tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'(注意你的安装路径,r表示转义)
在执行就成功了。

你可能感兴趣的:(图形验证识别-tesseract)