先下载tesseract.exe,安装,并配置其两个环境变量,
安装包下载地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,在安装exe的过程中,会有选择语言包,简单的话,可以直接全选,如果不想下那么多的话,可以找几个常用的,比如简体中文、繁体中文、英文、法语等等,在安装界面最后会有有显示哦!
语言包可以自己下载:github地址
https://github.com/tesseract-ocr/tessdata
下载完放置的地址是:
环境变量:
1)path,放置的是tesseract.exe的文件夹位置,
2)语言包的地址,名称:TESSDATA_PREFIX,把语言包的地址放进去,超级重要!不然后面会一直报错
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string(Image.open('22.png'))
print(text)
第二种,把tesseract-orc的地址放入pytesseract.py中,整个.py文件大概共400行代码,代码简洁,如果有兴趣可以阅读源码,我们把我们下载的tesseract.exe文件放在35行这个地方即可,这样就可以识别出你的图片了
修改之后,上述的代码可更新为如下:
from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('22.png'), lang='eng') #调用识别引擎识别
text=text.upper() #变大写
print(text)
还是原来的照片,把字符改为大写并输出,结果如下: