python 图片文字识别orc

  1. 先下载tesseract.exe,安装,并配置其两个环境变量,

安装包下载地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,在安装exe的过程中,会有选择语言包,简单的话,可以直接全选,如果不想下那么多的话,可以找几个常用的,比如简体中文、繁体中文、英文、法语等等,在安装界面最后会有有显示哦!

语言包可以自己下载:github地址

https://github.com/tesseract-ocr/tessdata

下载完放置的地址是:

python 图片文字识别orc_第1张图片

环境变量:

1)path,放置的是tesseract.exe的文件夹位置,

2)语言包的地址,名称:TESSDATA_PREFIX,把语言包的地址放进去,超级重要!不然后面会一直报错

python 图片文字识别orc_第2张图片

重启电脑,很重要!我的重启后才生效,有的可能立即就生效!

  • 第二步:pip install pytesseract
  • 第三步代码
  1. import pytesseract
    from PIL import Image
    
    pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
    text = pytesseract.image_to_string(Image.open('22.png'))
    
    print(text)

    python 图片文字识别orc_第3张图片原图片,运行如下:正确识别出来了字符,但是大小写可能存在一定的差异

python 图片文字识别orc_第4张图片

第二种,把tesseract-orc的地址放入pytesseract.py中,整个.py文件大概共400行代码,代码简洁,如果有兴趣可以阅读源码,我们把我们下载的tesseract.exe文件放在35行这个地方即可,这样就可以识别出你的图片了

python 图片文字识别orc_第5张图片

 修改之后,上述的代码可更新为如下:

from PIL import Image
import pytesseract

text=pytesseract.image_to_string(Image.open('22.png'), lang='eng') #调用识别引擎识别
text=text.upper() #变大写
print(text)

还是原来的照片,把字符改为大写并输出,结果如下:

python 图片文字识别orc_第6张图片

你可能感兴趣的:(python 图片文字识别orc)